10万视频，所有面部图像均获授权，Facebook创建大规模Deepfake数据集

机器之心

机器之心报道

参与：魔王

前不久，Facebook 主办的 Deepfake 检测挑战赛（DFDC）落下帷幕。近日，Facebook撰文介绍了其构建的大规模 Deepfake 数据集 DFDC。

数据集经常存在有关版权、隐私方面的争议，而 Facebook 构建的这个数据集规避了这方面的风险，它包含的所有数据均获得图像所有者本人授权。

Deepfakes 是近期出现的一种直接可用的视频换脸技术。除了 Deepfakes 以外，目前还出现了大量基于 GAN 的换脸方法（而且还带有代码）。

这类技术给人们的隐私安全等带来了威胁。为了应对此类威胁，Facebook 创建了一个大型换脸视频数据集 DFDC 以支持 Deepfakes 检测模型的训练，并组织了 Deepfake 检测挑战赛。

该数据集的亮点在于，所有对象均同意数据集使用其图像或视频，并允许在数据集构建过程中对其数据进行修改。

DFDC 数据集是目前最大的公开可用换脸视频数据集，包含来自 3426 名付费演员的 10 万多个视频片段。这些视频通过多种 Deepfake、GAN 和 non-learned 方法生成。

Deepfake 数据集的规模对比。不管从帧数还是视频数量来看，DFDC 数据集都比其他数据集大一个数量级。

下面，我们来看 DFDC 数据集的构建过程和方法。

源数据

很多 Deepfake 或换脸数据集中的片段来自新闻或简报室等非自然环境。而且，视频中的人物可能压根就没授权数据集使用他们的面部图像或视频。

基于此，Facebook 没有使用公开可用的视频来构建数据集，而是先向一些个人获得录制视频、将视频用于构建机器学习数据集，以及使用机器学习模型处理他们的面部图像的授权，进而得到了一组视频。

为了反映 Deepfake 视频对非知名人士造成的潜在伤害，该数据集中的视频均在没有专业打光或化妆的自然环境下录制。不过视频录制使用的是高分辨率摄像机。

该数据集中的源数据涉及：

3426 名对象，每个对象平均录制 14.4 个视频，大部分视频的分辨率为 1080p ；
48,190 个视频，每个视频的平均长度为 68.8 秒，共计长度 38.4 天；
原始数据超过 25 TB。

下表展示了不同 Deepfake 数据集的量化对比情况：

从中我们可以看出，DFDC 数据集的规模最大，涉及到的对象数量最多，且获得所有对象的授权。

数据集创建者使用内部人脸追踪和对齐算法对源视频进行预处理，将所有人脸帧剪裁、对齐，并将大小重新调整为 256x256 像素。

数据集创建过程中用到的换脸方法

该数据集使用多种方法生成换脸视频，这些方法涵盖了数据集创建时最流行的一些换脸技术。每种方法生成的视频数量并不均等，生成最多换脸视频的方法是 Deepfake Autoencoder (DFAE)。

具体而言，DFDC 数据集创建过程中使用的换脸方法包括：

DFAE：Deepfake 自编码器（DF-128、DF-256），数据集创建过程中使用模型的输入 / 输出分辨率为 128x128 和 256x256。
MM/NN face swap：使用基于自定义帧的 morphable-mask 模型进行换脸。
NTH：在 few-shot 和 one-shot 学习环境下，生成逼真的说话人头部 [31]。
FSGAN：使用 GAN 进行换脸 [20]。
StyleGAN：参见《英伟达再出 GAN 神作！多层次特征的风格迁移人脸生成器》。
Refinement：对混合后的人脸使用简单的锐化滤波器可以极大地提升最终视频中的感知质量，且几乎不需要额外的成本。
audio swapping：使用 [22] 中的 TTS Skins voice conversion 方法进行音频转换。

不同方法生成人脸的质量参见下图：

数据集构成

训练集：训练集包括 119,154 个十秒视频片段，涉及 486 个不同的对象。其中 10 万个视频包含 Deepfakes 内容，也就是说数据集中 83.9% 的视频为合成视频。这些 Deepfakes 视频通过 DFAE、MM/NN face swap、NTH 和 FSGAN 方法生成得到，且未使用任何数据增强。

验证集：验证集是 DFDC 竞赛中用于计算排行榜位置的公共测试集。该数据集包含 4000 个十秒视频，其中半数（2000 个视频）包含 Deepfakes 内容。验证集共涉及 214 个不同的对象，且与训练集并不重合。此外，该数据集使用的 Deepfakes 生成方法相比之前多了一项——StyleGAN。该数据集中大约 79% 的视频应用了数据增强技术。

测试集：私有测试集包含一万个十秒视频。与公共测试集一样，其中一半为 Deepfakes 视频。但是，二者的区别在于，私有测试集中一半视频来自网络，另一半来自源数据。

读者可以在以下地址查看 DFDC 竞赛使用的数据：

https://www.kaggle.com/c/deepfake-detection-challenge/data

数据增强

Facebook 团队使用多种数据增强技术，如几何变换或干扰等。主要的增强方法如下所示：

干扰：将各种物体（图像、形状、文本等）叠加在视频上；
增强：对视频应用几何变换、颜色变换、帧率更改等。

数据增强示例参见下图：

论文链接：https://arxiv.org/pdf/2006.07397.pdf

WAIC 2020 黑客马拉松由世界人工智能大会组委会主办，张江集团、优必选科技、软银集团旗下软银机器人、Watson Build 创新中心、机器之心联合承办，受到新冠疫情的影响，比赛将于 7 月 8 日 - 11 日期间以远程和小规模线下结合的方式举办，招募全球顶级开发者同台竞技。

点击图片或「阅读原文」搭乘参赛

继续滑动看下一个