基于梳状模型的最新算法那么这项 AI 换脸技术是如何实现的呢?我们先来看一组完整的换脸路径图:
人脸交换源的完整示意图
步骤 1 和 2:对源图像进行面部识别、特征提取,以及标准化剪裁(1024x1024);
步骤 3:将图像输入通用编码器进行模型训练;
步骤 4:将解码后输出的图像与需要匹配的目标进行多频带混合,最终得到人脸交换后的效果图。
其中通用编码器的训练模型是一个关键,这里研究人员采用的是一种渐进式梳状网络结构(Comb Model)面部交换主要是通过域转移的方法来实现。我们使用通用编码器将经预处理的图像嵌入共享的潜在空间中,然后使用与之对应的解码器将这些嵌入映射回像素空间中。通常域转移主要在这两个空间中进行切换,但在本文中,研究人员扩展了一种新的思路。
如我们图中看到的,经编码器处理的图像,被解码器分支到 P 个域中,研究人员将这种架构成为梳状模型。这里各个编码器就相当于梳状结构的 “齿子”。
在这里,单个梳状模型可以处理多个源目标的人脸融合,而且与双向模型相比,它可以有效减少训练的时间,同时明显提高图像的保真度。
如前文所说,模型训练采用的是一种渐进式的方式。该过程通过对高分辨率图像进行下采样,得到低分辨率图像,然后在训练中再逐步输入高分辨率,逐渐扩展网络的容量,最终得带高保真图像。
不过,这里要注意的是,最终输出的图像分辨率会受到原始数据集图像分辨率的限制。如果数据集缺乏高分辨率,可以采用超分辨率的方式对图像进行预处理,不过最好采用特定于面部的 SR 训练方法。
除此之外,研究人员介绍,梳状模型和多频带的混合策略,还有助于保持融合背景的光线和对比度。
对比分析,优势明显研究人员将渐进式梳状模型与目前三种开源的人脸技术,分别为 Deepfake、DeepFaceLab 和 Nirkin et aI 进行了对比研究。其中,Nirkin et aI 采用三维可变模型,不需要预训练。后两者采用 Y 形自动编码器结构的实现。
人脸交换方法的比较
本次试验对五组人脸进行了对比。前两列分别源图像和目标图像,需要进行 AI 融合,从之后的图像可以看,本次研究模型在细节融合、图像分辨率以及阴影处理上,要高于其他算法模型。
而且,它采用的多频带混合在消除伪影方面要明显优于泊松混合。DeepFakes 和 DeepFaceLab 都的使用是泊松混合(Poisson)。
不过,研究也存在明显的局限性,比如显示无法对戴眼镜的人进行稳定的人脸交换,不是因为眼镜部分无法渲染,而是无法将脸部与周围图像混合。研究人员曾尝试调整输入源与之相匹配,但结果时好时坏。
不过,研究人员也解释在实际应用或电影场景中,可能影响不大。