JJJYmmm Blog

摘要

本文对现有Deepfake视频进行对抗性修改来绕过对应的检测器，并且进一步证明这种扰动对图像和视频压缩具有鲁棒性。

目前关于DeepFake视频的检测可以分为两大类。

第一种是通过手工选取的特征以及自然图片的统计/物理特征进行真假区分，然而视频合成方法通过修改它们的训练目标(例如通过Loss函数指导生成器模拟这些人工/统计特征)，从而绕过这种检测。

之前解析的CVPR2023的一篇文章就是采用这种方式绕过检测器

第二种是基于深度神经网络进行检测。首先将视频分解成帧，随后提取帧中的人脸特征并判断。当然现在先进的DeepFake检测器并不是以整张图片帧作为输入，而是先通过面部追踪方法从原始帧中裁剪面部，再经过归一化等变换才输入网络。事实证明这种先验输入可以使检测性能更好。

既然这种视频检测器仍然是通过单帧检测DeepFake，那么如果对视频的每一帧都施加对抗性扰动，理论上就可以欺骗到检测器。

当然现在也有检测器引入时间序列检测deepfake视频，这种检测器使用CNN+RNN架构或3-D CNN模型对帧序列进行处理。文章对这类检测器的代表3-D EfficientNet也进行了攻击。

使用基于梯度符号下降的攻击方法(如FGSM/PGD)，不过损失函数采用了C&W Attack中的其中一种，即

$$ loss(x')=max(Z(x')_{Fake}-Z(x')_{Real},0) $$

其中$Z(.)$表示模型softmax前一层的输出。那么对抗样本的迭代如下

$$ x_i = x_{i-1} - clip_{\epsilon}(\alpha·sign(\nabla loss(x_{i-1}))) $$

通常上传到社交网络和其他媒体的视频会被压缩。已知的一些标准操作（如压缩、调整大小）都可能去除图像中的对抗性扰动。为了确保对抗性视频即使在压缩后仍然有效，引入鲁棒的白盒攻击。

首先引入$T$变化操作，这个即刚刚提到的压缩，大小调整等。

那么对于输入x，我们的最终目标是生成

$$ x_{a d v}=a r y m a x_{x}\mathbb{E}_{t\sim T}[F(t(x))_{y}]\operatorname{s.t.}||x-x_{0}||_{\infty}\lt \epsilon $$

其中$F(t(x))_{y}$是指模型将$t(x)$判别成目标类别$y$，即Targeted Attack。

Loss函数如下，其实跟白盒攻击对比只多了一个t变换。

$$ l o s s(x)=\mathbb{E}_{t{\mathord{\sim}}T}\left[m a x(Z(t(x))_{F a k e}-Z(t(x))_{R e a l.0}\right] $$

这里涉及到期望，根据大数定理可以转换成

$$ l o s s(x)=\frac{1}{n}\sum_{t_{i}\sim T}[m a x(Z(t_{i}(x))_{F a k e}-Z(t_{i}(x))_{R e a l},0)] $$

关于T变化，文章提到了以下几种操作

黑盒攻击采用基于查询的方法，并通过NES进行梯度估计。略去NES梯度估计的理论过程，估计梯度可以表示为

$$ \nabla \mathbb E[F(\theta)]\approx\frac{1}{\sigma n}\sum_{i=1}^{n}\delta_{i}F(\theta+\sigma\delta_{i})_{y} $$

其中$\theta=x+\sigma\delta$且$\delta \sim N(0,I)$，关于NES梯度估计的算法流程见算法1。

估计梯度后，采用基于梯度符号的攻击进行优化。

$$ x_i = x_{i-1} + clip_{\epsilon}(\alpha·sign(\nabla F(x_{i-1})_y)) $$

注意这里是加号，与白盒攻击不同。白盒攻击因为引入了CW的Loss，所以是最小化Loss函数。

鲁棒的黑盒攻击同样使用NES进行梯度估计，相比于黑盒攻击同样只多了一个T变换。梯度估计如下

$$ \nabla \mathbb E[F(\theta)]\approx\frac{1}{\sigma n}\sum_{i=1,t_i \sim T}^{n}\delta_{i}F(t_i(\theta+\sigma\delta_{i}))_{y} $$

优化过程与黑盒攻击一致。

攻击成功率SR：对抗视频中被分类成真实图片的帧的百分比。进一步地，SR-U表示以Raw形式保存的视频的攻击成功率(Raw表示视频未经过压缩)，SR-C表示已MJPEG形式保存的视频的攻击成功率。
准确率Accuracy：视频中被检测器分类为假的帧的百分比。ACC-C表示压缩视频上检测器的准确率。
平均失真Mean distortion：通过$L \infty$范数衡量对抗帧和原始帧之间的失真情况