JJJYmmm 发布的文章

前言

我认为了解VPN的基本工作原理并实现一个TLS VPN需要以下前置知识:

  • 虚拟专用网络(VPN)。既然要做一个VPN,那么首先需要了解VPN的基本概念,确认需要实现的VPN类型(IPSec VPN或TLS VPN),并大致了解VPN的组成框架;
  • TUN/TAP与隧道。基于TCP隧道实现TLS VPN,那么隧道的概念与分类(基于UDP/TCP)需要有一定了解;另外VPN还使用到了虚拟网卡TUN,所以还需要了解TUN/TAP的工作原理以及使用;
  • 安全套接字层(SSL)。为了保证数据传输的安全性,我们还需要使用同样用在HTTPS上的SSL,SSL介于应用层和运输层(仅限于TCP协议)之间,通过这个我们可以实现对数据的加密;
  • PKI 和 X.509证书。这部分承接SSL,因为SSL握手认证时需要对服务器(客户端)进行身份认证,需要用到证书。既然涉及到证书还需要了解证书的签发者(CA);
  • 身份认证。VPN的身份认证同样是一个重点部分,当然我们既然使用了SSL,说明已经对服务器进行身份认证,接下来只需要对客户端进行身份认证即可。我们这里简单使用Linux下的账户进行登录验证,需要了解影子文件(shadow)相关知识;

接下来将从以上几个部分展开介绍。

虚拟专用网络(VPN)

虚拟专用网络(VPN)用于创建计算机通信的专用通信域,或为专用网络到不安全的网络(如Internet)的安全扩展。VPN 是一种被广泛使用的安全技术。在IPSec或TLS/SSL(传输层安全性/安全套接字层)上构建VPN是两种根本不同的方法。本实验中,我们重点关注基于 TLS/SSL的VPN。

TLS VPN共有三种实现方式:基于Web代理、基于端口转发、基 于 隧 道。我们选用跟IPSecVPN类似的隧道实现,这要求客户需要在本地安装客户端软件,并启动虚拟网卡。

基于隧道的TLS VPN工作流程(客户端->内网服务器)大概如下:到内网服务器的IP报文(虚拟网卡IP->内网服务器IP)会被客户端软件进行 SSL协议封装(真实网卡IP->TLS VPN网关IP),通过隧道传送到对端的TLS VPN网关设备再解密解封装,还原为原始IP报文,交给内网服务器。

TUN/TAP

TLS VPN中使用了TUN/TAP技术。TUN和TAP是虚拟网络内核驱动程序;它们可以实现完全由软件支持的网络设备。TAP 模拟以太网设备,处理的是以太网帧等二层数据包;TUN 模拟网络层设备,处理的是 IP 等三层数据包。我们可以用 TAP/TUN 创建虚拟网络接口(使用TUN创建虚拟网卡)。

个人理解虚拟网卡的read/write函数,我们完全可以将虚拟网络接口看成一张实际的网卡,当我们调用read函数时,就是读取从这张网卡转发出来的报文(即目的IP为虚拟网卡IP或报文根据路由转发到虚拟网卡),将其交给上层应用;当我们调用write函数时,相当于报文从计算机外部进入虚拟网卡,这个时候报文究竟发到哪里取决于它的目的IP,如果目的IP不同于虚拟网卡的网段,那么这个时候报文会根据路由表路由到对应网段的物理网卡,通过该物理网卡送出(相当于计算机是一个路由器,报文从虚拟网卡入,从相应的物理网卡出);如果目的IP就是虚拟网卡IP,那么该报文直接上交给应用程序;TLS VPN做远程接入功能时,不存在报文的目的IP和虚拟网卡IP不同但却在同一网段的情况。

VPN隧道

VPN隧道技术就是基于虚拟网卡(TUN/TAP)的技术,具体流程如下:假设VPN客户端10.0.2.7和VPN服务器10.0.2.8都开启虚拟网卡tun0,其中服务器的虚拟IP地址为192.168.53.1,客户端的虚拟IP地址为192.168.53.5。服务器连通192.168.60.0/24内网,我们希望VPN客户端可以访问内网的资源。

对于VPN客户端,我们首先设定目的IP为内网地址(以192.168.60.101为例)的报文统一转发到tun0虚拟网卡(设置路由);正如我们在1.2中所说,这个时候经过tun0转发的报文源IP为192.168.53.5,目的IP为192.168.60.101,此时由于tun0是虚拟网卡,所以该报文并不会直接进入局域网中;VPN客户端程序通过read函数从tun0网卡读出报文,在此处可以对报文进行加密等操作,接下来将报文通过socket连接发送给VPN服务器,socket连接的源IP是物理网卡IP:10.0.2.7,目的IP为VPN服务器的10.0.2.8。

这个过程我们可以理解为,客户端发给内网主机的报文,首先通过tun0虚拟网卡进行封装,添加了IP头部;随后VPN客户端程序从tun0读出该报文,经过加密等操作后通过socket连接发送给VPN服务器(即再次经过物理网卡10.0.2.7封装),此时报文外面的IP头部标识着两个物理网卡的IP,里面的IP头部信息为客户端tun0的IP:192.168.53.5 到 内网IP:192.168.60.101。

VPN服务器通过socket连接收到了客户端发出的报文,物理网卡10.0.2.8接收并交给VPN服务器程序,此时的报文已经被网卡去掉了外面的IP头部,那么这个时候报文的源/目的IP正如上一段所述。这时服务器程序将报文写入服务器的tun0网卡中,那么从tun0网卡192.168.53.1的角度来说:我接收到了一个源IP为192.168.53.5的报文,它的目的地是192.168.60.101,我应该查路由表寻找192.168.60.0/24网络对应的转发端口,并转发出去,从而到达内网主机

至此客户端发给内网主机的报文已经成功到达了内网。

image-20230601092239789

客户端接收报文与上述情况正好相反,内网主机首先发出回应报文(这里需要设置内网主机到VPN服务器docker2的路由,一般来说是默认路由,因为VPN服务器充当着默认网关的角色)。这个时候由于报文目的IP是192.168.53.5,属于192.168.53.0/24网络,自然会转发到tun0端口(192.168.53.1)。这个时候VPN服务器程序从tun0中取出该报文,可能做加密等操作,便通过socket连接发送给客户端。

客户端的物理网卡10.0.2.7收到报文后,褪去IP首部交给VPN客户端程序(因为socket连接就是VPN客户端和服务器之间建立的)。客户端收到该报文后,写入tun0虚拟网卡,由于tun0的IP地址就是报文的目的IP地址,因此客户端计算机不会再路由报文,而是直接上交给应用程序

至此应用程序就可以正常与内网主机通信,VPN隧道介绍完毕,个人认为这是最重要的一部分。

image-20230601092216824

安全套接字层(SSL)

在1.3中提到的socket连接可以是UDP或TCP,但是这两种方式都没有对隧道中的报文进行加密和完整性检验,我们可以选择在TCP的基础上搭建安全套接字层(SSL/TLS)。

TLS通常建立在TCP之上,SSL连接的建立同样需要握手。一般来说,由客户端发起连接”client hello”,附带SSL版本、加密套件列表等信息;服务器收到hello报文后回复”server hello”报文,附带服务器证书和生成的密钥信息;客户端验证完毕后生成密钥信息并将其发送给服务器;至此两方都有对方的密钥信息,接下来可以使用生成的密钥进行通信。

在上述过程中,客户端验证了服务器的证书;实际上服务器也可以验证客户端的证书,实现客户端身份认证。

image-20230601092159729

PKI 和X.509证书

在PKI系统中,由证书认证机构(Certification Authority, CA)签发数字证书、绑定 PKI 用户的身份信息和公钥。PKI依赖方(Relying Party)预先存储有自己所信任的根CA自签名证书,用来验证与之通信的PKI用户的证书链,,从而可信地获得该用户的公钥、用于各种安全服务。

X.509是PKI的标准格式,它是由公钥和私钥组成的密钥对而构建的。公钥和私钥能够用于加密和解密信息,基于X.509的PKI最常见的用例是使用SSL证书让网站与用户之间实现HTTPS安全浏览。

身份认证

证书本身是一种身份认证,但是在正常场景中,用户更多还是习惯基于口令认证。因此可以基于远程登录的思想,当VPN客户端连接VPN服务器时,需要输入VPN服务器下的账户和密码。建立SSL连接后,VPN服务器程序查看shadow文件,检查账户与对应密码的MD5值是否一致,一致则通过认证。

摘要

本篇文章采用蜕变测试(metamorphic testing)的原理来寻找可能影响DeepFake检测模型鲁棒性的潜在因素,并缓解其中的Oracle问题。作者对MesoInception-4和TwoStreamNet两种检测模型进行了评估。通过蜕变测试发现化妆应用程序是一种对抗性攻击,可以欺骗deepfake检测器。实验结果表明,MesoInception-4和TwoStreamNet模型在输入数据被施加化妆扰动时,其性能下降高达30%。

Oracle问题:程序的执行结果不能预知的现象在测试理论中称为“Oracle问题”,即无法知道输入的预期结果,导致测试人员只能选择一些可以预知结果的特殊测试用例进行测试,而不能完整有效地进行测试。例如测试sin函数时,并不知道sin(153°)的预期结果。从而无法验证输入为153°时程序的正确性。

蜕变测试:蜕变测试是软件测试中的概念,是一种特殊的黑盒测试方法。蜕变测试依据被测软件的领域知识和软件的实现方法建立蜕变关系(Metamorphic Relation, MR),利用蜕变关系来生成新的测试用例,通过验证蜕变关系是否被保持来决定测试是否通过。同样以sin函数为例,虽然不知道sin(153°)的预期结果,但是根据数学知识可以得知sin(27°)=sin(153°),这是一种蜕变关系。我们利用程序验证这种关系,如果这个关系不成立可以说明源程序存在问题。

蜕变关系(Metamorphic Relation, MR) :指多次执行目标程序时,输入与输出之间期望遵循的关系。

实验设置

  • 数据集:数据集选择的是FaceForensics++,其中包括四种Deepfake方式形成的图片:Deepfakes (DF),Face2face (F2F), Face Swap (FS),Neural Textures (NT)
  • 受害者模型:MesoInception-4和TwoStreamNet

蜕变测试的应用

本文关于蜕变测试的具体应用如下图。具体来说,首先将数据集中的图片进行Metamorphic Transformation,得到两部分数据集(未扰动与扰动后)。将这两部分数据集分别输入检测器中,通过比较两次的检测结果来判断Metamorphic Transformation这种变化是否是影响模型鲁棒性的潜在因素。

个人感觉就是在对抗样本检测模型鲁棒性的基础上套了一个蜕变测试的壳子

image-20230514153519834

因为输入的扰动数据集是在原始数据集上通过扰动得到,如果模型具有较好的鲁棒性,那么两次测试结果应该一致。这就是蜕变测试中的蜕变关系(MR)。

关于如何衡量MR是否满足,即比较两次测试结果的方式,论文提到的方法是比较两次测试结果的Accuracy,Recall,Specificity

image-20230514160232197

关于选择这三个指标的原因:选择Accuracy是因为它是用于DeepFake检测器的常见评估度量。它展示了模型的正确性和一致性。但是Accuracy受到准确性悖论(accuracy paradox)的影响,高准确性模型可能无法捕获分类任务中的基本信息。

因此作者还考虑了Recall和Specificity,因为FN和FP对于了解模型性能同样重要。高召回率表明模型在识别TP方面做得很好,而低召回率表明高FN。因此,Recall非常适合输出敏感的环境,例如预测deepfake或预测癌症(也就是说宁愿误判,也要找全)。同时,Specificity显示了模型在避免误报方面的表现。Specificity非常适合关注TP和FP的领域,例如推荐引擎(也就是说要减少误报)。

准确度悖论:面对非均衡数据集时,准确度这个评估指标会使模型严重偏向占比更多的类别,导致模型的预测功能失效。

对抗性扰动

本文提到的对抗性扰动(也是之前提到的Metamorphic Transformation)是给图像添加化妆效果。

具体流程如下图,通过Dlib库识别面目的68个面部标志,并得到这些标志的坐标,调用OpenCV的方法在相应坐标绘制RGB色域的多边形,并通过高斯模糊滤镜使多边形与图像更好融合。

image-20230514161200473

实验结果

文章总共展开了两个实验,主要区别在于数据集:一个是子数据集,另一个是完全数据集。参数差异如下图。

image-20230514161906819

image-20230514161918303

分出一个子数据集进行实验的原因是:MesoInception-4模型的主要优势之一是它能够在使用小数据集和最少的训练时间的情况下有效地检测deepfake。所以这里额外测试了小数据集下模型的鲁棒性表现。

1、子数据集上,模型的Accuracy表现

image-20230514162147582

上表也表明Deepfake在跨数据集的表现很差,泛化能力不行

2、子数据集上,模型的recall和specificity表现

image-20230514162429521

image-20230514162504385

低召回率,高特异值表示模型将扰动后的图像同样认为是正常图像。说明化妆这种扰动确实对MesoInception-4和TwoStreamNet造成较大影响。

3、完整数据集上,TwoStreamNet的recall表现

image-20230514162829921

对于F2F这种方式得到的数据集,模型的recall值还保持在48.35%。说明训练数据的大小和质量的变化确实会影响深度学习模型的性能。(这是共识吧)

4、从原始数据集中挑选本来就化妆的DeepFake图像进行测试。发现同样会导致模型的低召回率。说明模型对于自然化妆或后处理化妆都不具备鲁棒性。

image-20230514163157897

总结

文章采用蜕变测试(metamorphic testing)的原理来寻找可能影响DeepFake检测模型鲁棒性的潜在因素。并通过这种测试发现现有的部分DeepFake检测器对于化妆(无论是自然化妆或后续处理)不具备鲁棒性。

摘要

本文对现有Deepfake视频进行对抗性修改来绕过对应的检测器,并且进一步证明这种扰动对图像和视频压缩具有鲁棒性

攻击原理

目前关于DeepFake视频的检测可以分为两大类。

第一种是通过手工选取的特征以及自然图片的统计/物理特征进行真假区分,然而视频合成方法通过修改它们的训练目标(例如通过Loss函数指导生成器模拟这些人工/统计特征),从而绕过这种检测。

之前解析的CVPR2023的一篇文章就是采用这种方式绕过检测器

第二种是基于深度神经网络进行检测。首先将视频分解成帧,随后提取帧中的人脸特征并判断。当然现在先进的DeepFake检测器并不是以整张图片帧作为输入,而是先通过面部追踪方法从原始帧中裁剪面部,再经过归一化等变换才输入网络。事实证明这种先验输入可以使检测性能更好。

既然这种视频检测器仍然是通过单帧检测DeepFake,那么如果对视频的每一帧都施加对抗性扰动,理论上就可以欺骗到检测器。

当然现在也有检测器引入时间序列检测deepfake视频,这种检测器使用CNN+RNN架构或3-D CNN模型对帧序列进行处理。文章对这类检测器的代表3-D EfficientNet也进行了攻击。

实验设置

  • 受害者模型:逐帧分析的检测器有XceptionNet和MesoNet,基于时间序列的检测器有3-D EfficientNet
  • 攻击手段:使用基于梯度符号的方法进行扰动,考虑到视频需要处理的帧数较多,使用$L_\infty$对扰动进行限制。
  • 攻击流程:对于任何给定的帧,首先提取脸部区域,并为裁剪后的脸制作一个对抗样本,然后将其放回原始帧中面部裁剪的边界框中。

    image-20230514230933443

攻击类别

白盒攻击

使用基于梯度符号下降的攻击方法(如FGSM/PGD),不过损失函数采用了C&W Attack中的其中一种,即

$$ loss(x')=max(Z(x')_{Fake}-Z(x')_{Real},0) $$

其中$Z(.)$表示模型softmax前一层的输出。那么对抗样本的迭代如下

$$ x_i = x_{i-1} - clip_{\epsilon}(\alpha·sign(\nabla loss(x_{i-1}))) $$

鲁棒的白盒攻击

通常上传到社交网络和其他媒体的视频会被压缩。已知的一些标准操作(如压缩、调整大小)都可能去除图像中的对抗性扰动。为了确保对抗性视频即使在压缩后仍然有效,引入鲁棒的白盒攻击。

首先引入$T$变化操作,这个即刚刚提到的压缩,大小调整等。

那么对于输入x,我们的最终目标是生成

$$ x_{a d v}=a r y m a x_{x}\mathbb{E}_{t\sim T}[F(t(x))_{y}]\operatorname{s.t.}||x-x_{0}||_{\infty}\lt \epsilon $$

其中$F(t(x))_{y}$是指模型将$t(x)$判别成目标类别$y$,即Targeted Attack。

Loss函数如下,其实跟白盒攻击对比只多了一个t变换。

$$ l o s s(x)=\mathbb{E}_{t{\mathord{\sim}}T}\left[m a x(Z(t(x))_{F a k e}-Z(t(x))_{R e a l.0}\right] $$

这里涉及到期望,根据大数定理可以转换成

$$ l o s s(x)=\frac{1}{n}\sum_{t_{i}\sim T}[m a x(Z(t_{i}(x))_{F a k e}-Z(t_{i}(x))_{R e a l},0)] $$

关于T变化,文章提到了以下几种操作

  • 高斯模糊。$t(x)=k*x$,其中k是高斯核,*是卷积算符;
  • 添加高斯噪声。$t(x)=x+\Theta$,其中$\Theta \sim N(0,\sigma)$;
  • 大小转换。在图像的四个边填充0值。$t(x)=x'$且$x^{\prime}[i,j,c]=x[i+t_{x},j+t_{y},c]$
  • 下采样与上采样。首先将图像以因子r下采样,再通过插值上采样回原大小。

黑盒攻击

黑盒攻击采用基于查询的方法,并通过NES进行梯度估计。略去NES梯度估计的理论过程,估计梯度可以表示为

$$ \nabla \mathbb E[F(\theta)]\approx\frac{1}{\sigma n}\sum_{i=1}^{n}\delta_{i}F(\theta+\sigma\delta_{i})_{y} $$

其中$\theta=x+\sigma\delta$且$\delta \sim N(0,I)$,关于NES梯度估计的算法流程见算法1。

image-20230514234820165

估计梯度后,采用基于梯度符号的攻击进行优化。

$$ x_i = x_{i-1} + clip_{\epsilon}(\alpha·sign(\nabla F(x_{i-1})_y)) $$

注意这里是加号,与白盒攻击不同。白盒攻击因为引入了CW的Loss,所以是最小化Loss函数。

鲁棒的黑盒攻击

鲁棒的黑盒攻击同样使用NES进行梯度估计,相比于黑盒攻击同样只多了一个T变换。梯度估计如下

$$ \nabla \mathbb E[F(\theta)]\approx\frac{1}{\sigma n}\sum_{i=1,t_i \sim T}^{n}\delta_{i}F(t_i(\theta+\sigma\delta_{i}))_{y} $$

优化过程与黑盒攻击一致。

实验结果

评估指标

  • 攻击成功率SR:对抗视频中被分类成真实图片的帧的百分比。进一步地,SR-U表示以Raw形式保存的视频的攻击成功率(Raw表示视频未经过压缩),SR-C表示已MJPEG形式保存的视频的攻击成功率。
  • 准确率Accuracy:视频中被检测器分类为假的帧的百分比。ACC-C表示压缩视频上检测器的准确率。
  • 平均失真Mean distortion:通过$L \infty$范数衡量对抗帧和原始帧之间的失真情况

数据集

  • FaceForensics++ HQ Dataset:其中包括DF、F2F、FS、NT四种DeepFake类型的视频

1、对于XceptionNet和MesoNet,它们在原始数据集上的准确率表现

image-20230515000338738

2、白盒攻击的攻击成功率。

image-20230515000627784

3、鲁棒白盒攻击的设置与结果

image-20230515000713965

image-20230515000727580

主要提升在于SR-C,即对于视频压缩的鲁棒性。

4、黑盒攻击与鲁棒黑盒攻击的攻击成功率。

image-20230515000840307

黑盒攻击中,对于每一帧图像,对受害者模型的平均查询次数为985.

image-20230515000852745

鲁棒黑盒攻击中,对于每一帧图像,对受害者模型的平均查询次数为2153.

总结

个人认为文章的亮点有两处:首先是针对deepfake视频施加扰动从而欺骗分类器;其次在白/黑盒攻击场景下考虑了对抗性攻击的鲁棒性,即考虑到物理场景下视频很可能被压缩的情况,针对这种情况对输入进行变化后再执行对抗攻击。

摘要

本篇文章做了以下三项工作:

  • 探究高斯噪声扰动对面部提取器的影响
  • 发现可以通过使用新方法生成DeepFakes来绕过现有检测器
  • 发现可以利用数据毒化、后门攻击来绕过DeepFake分类器

第二点现在基本算是共识,所以接下来主要谈1、3两点。

实验设置

  • 数据集来源:FaceForensics++和DFDC
  • 受害模型:对于选择开源的面部提取器Dlib,deepfake检测器选择XceptionNet

面部提取器攻击

攻击方式:向图像帧中每个通道的每个像素都施加均值为0,标准差为$\sigma$的随机高斯噪声。然后通过Dlib提取器提取人脸。如果Dlib输出结果为NULL,说明攻击成功。

这个设置其实对Dlib有利,因为Dlib有可能受噪声影响从而输出不正确的图像

当随着$\sigma$的增加,Dlib的性能逐渐下降,拐点在$\sigma = 0.2$的位置。对于DFDC数据集,Dlib性能下降相比其他数据集快得多。性能下降更快的原因作者认为是FaceForensics++数据集的人脸可能更好提取。

image-20230515093658722

数据毒化攻击

数据毒化攻击主要是对模型训练集进行修改,从而改变模型的性能表现。文章共提到两种数据毒化攻击:标签反转攻击与后门攻击。

标签反转攻击:顾名思义,就是修改训练样本的标签值。real->fake与fake->real。结果如下图。

image-20230515094541579

可以发现当翻转标签比例达到37.5%时,人脸分类器的准确度也仅仅下降了7%。这可能是因为训练数据集的大量冗余,只要具有正确标签的训练人脸图像比具有翻转标签的训练人脸图像足够多,就可以学习准确的人脸分类器。

当翻转比例达到50%时,分类器基本将所有输入都认为是真实图像。

后门攻击:使用棋盘网格作为触发器,嵌入到deepfake样本中,并将标签改为real。具体来说,棋盘格嵌入在图像右下角,大小占比为图像大小的0.1%,具体如下图所示。

image-20230515095239955

攻击效果见下图。当毒化比例在5%时,分类器就已经将所有测试图像都认为是真实的。

image-20230515095022684

讨论

本节作者讨论了几种针对对抗样本的防御以及它们各自的缺陷。

对抗训练与随机平滑可以实现对对抗样本的鲁棒性;集成模型则可以抵御后门攻击。不过随机平滑与集成模型目前来看本身准确率就不高,并且当对抗样本扰动足够大时,仍然可以逃避检测。

下图则是对DeepFake技术的一个分类树,个人觉得有一定参考价值就贴在这了。

image-20230515095520551

总结

这篇文章个人认为亮点主要在于提出对面部提取器的攻击(虽然实验部分好像太随便了)。数据毒化也是一个思路,但是真实攻击场景下这种攻击的可行性应该不是很高。

摘要

这篇工作使用对抗性扰动来增强deepfake图像并绕过常见的deepfake检测器。使用FGSM和C&W L2 Attack在黑/白盒场景下进行测试。探测器在未扰动的deepfake上实现了超过95%的准确率,但在扰动的deepfake上的准确率低于27%。文章还探索了对deepfake检测器的两项改进:Lipschitz正则化以及深度图像先验

对抗扰动生成

FGSM这里就掠过不谈了,C&W $L_2$ Attack挺感兴趣的可以查看【学习笔记】对抗攻击:基于优化的CW攻击方法 - 知乎 (zhihu.com)

具体来说,论文使用的CW攻击设置如下。

首先是目标函数$f(x)$,选择

$$ f(\mathbf{x}^{\prime})=\operatorname*{max}(\operatorname*{max}_{i\neq y}\{\mathbf{Z}(\mathbf{x}^{\prime})_{y}-\mathbf{Z}(\mathbf{x}^{\prime})_{i}\},-\kappa). $$

其中$Z(x)_y$指模型将x识别为真实类别y的概率(softmax前),$Z(x)_i$则是识别成目标类别i的概率。$\kappa$则是目标类别概率大于真实类别概率的阈值。

同时为了更好优化图像x,采用变量转换。原先是对x进行优化,现在转而优化$\omega$,而新图像$x'$表示为

$$ {\bf x}^{\prime}=\frac{1}{2}(\operatorname{tanh}(\omega)+1) $$

优化$\omega$的方法如下

$$ \omega^{*}=\arg_{\operatorname*{min}}\{||{\bf x}^{\prime}-{\bf x}||_{2}^{2}+c\,f({\bf x}^{\prime})\} $$

最终对抗样本则可以表示为

$$ {\bf x}_{adv}=\frac{1}{2}(\operatorname{tanh}(\omega ^*)+1) $$

攻击效果如下图。

image-20230515102803962

Lipschitz正则化

Lipschitz正则化主要是约束了检测器相对于输入的梯度。具体做法是在损失函数后多加一项

$$ J_{a u g}({\bf x},{\bf y},\theta)=J({\bf x},{\bf y},\theta)+\frac{\lambda}{C N}\sum_{i=1}^{C}||\nabla_{x}Z({\bf x})_i||^{2}. $$

其中C是目标类别的总数,N是输入向量的维度,$\lambda$控制正则化的强度。结果如下图,虽然准确率有一定提升,但是提升不大。

image-20230515103147795

深度图像先验

深度图像先验,简单来说就是在输入之前训练一个CNN网络,这个网络负责输入图像的重建,将重建后的图像输入deepfake检测器中。这种重建有可能滤掉攻击者施加的对抗性扰动。

关于实验的具体设置,选择MSE作为重建损失,而关于generative CNN的具体网络结果没有提及。

实验效果如下图,可以看到随着训练轮数增加,分类器性能从好到逐渐变差。性能变差的主要原因在于CNN非常容易过拟合,训练到后期DIP图像重建发生过拟合从而影响分类器。观察以下四幅图片,发现在轮数为6500左右时分类器可以达到不错的性能。

image-20230515103832149

总结

这篇攻击主要探讨了deepfake检测器的防御方式,第一种是通过Lipschitz正则化限制模型关于输入的梯度变化;第二种基于图像重建来消除扰动。但是两种方式都具有局限性,例如Lipschitz正则化对于对抗样本的鲁棒性不足(性能提升不够明显),而图像重建对于训练轮数有较大限制。