Metamorphic Testing-based Adversarial Attack to Fool Deepfake Detectors

摘要

本篇文章采用蜕变测试(metamorphic testing)的原理来寻找可能影响DeepFake检测模型鲁棒性的潜在因素，并缓解其中的Oracle问题。作者对MesoInception-4和TwoStreamNet两种检测模型进行了评估。通过蜕变测试发现化妆应用程序是一种对抗性攻击，可以欺骗deepfake检测器。实验结果表明，MesoInception-4和TwoStreamNet模型在输入数据被施加化妆扰动时，其性能下降高达30%。

Oracle问题：程序的执行结果不能预知的现象在测试理论中称为“Oracle问题”，即无法知道输入的预期结果，导致测试人员只能选择一些可以预知结果的特殊测试用例进行测试，而不能完整有效地进行测试。例如测试sin函数时，并不知道sin(153°)的预期结果。从而无法验证输入为153°时程序的正确性。

蜕变测试：蜕变测试是软件测试中的概念，是一种特殊的黑盒测试方法。蜕变测试依据被测软件的领域知识和软件的实现方法建立蜕变关系(Metamorphic Relation, MR)，利用蜕变关系来生成新的测试用例，通过验证蜕变关系是否被保持来决定测试是否通过。同样以sin函数为例，虽然不知道sin(153°)的预期结果，但是根据数学知识可以得知sin(27°)=sin(153°),这是一种蜕变关系。我们利用程序验证这种关系，如果这个关系不成立可以说明源程序存在问题。

蜕变关系(Metamorphic Relation, MR) ：指多次执行目标程序时，输入与输出之间期望遵循的关系。

实验设置

数据集：数据集选择的是FaceForensics++，其中包括四种Deepfake方式形成的图片:Deepfakes (DF),Face2face (F2F), Face Swap (FS),Neural Textures (NT)
受害者模型：MesoInception-4和TwoStreamNet

蜕变测试的应用

本文关于蜕变测试的具体应用如下图。具体来说，首先将数据集中的图片进行Metamorphic Transformation，得到两部分数据集(未扰动与扰动后)。将这两部分数据集分别输入检测器中，通过比较两次的检测结果来判断Metamorphic Transformation这种变化是否是影响模型鲁棒性的潜在因素。

个人感觉就是在对抗样本检测模型鲁棒性的基础上套了一个蜕变测试的壳子

因为输入的扰动数据集是在原始数据集上通过扰动得到，如果模型具有较好的鲁棒性，那么两次测试结果应该一致。这就是蜕变测试中的蜕变关系(MR)。

关于如何衡量MR是否满足，即比较两次测试结果的方式，论文提到的方法是比较两次测试结果的Accuracy,Recall,Specificity。

关于选择这三个指标的原因：选择Accuracy是因为它是用于DeepFake检测器的常见评估度量。它展示了模型的正确性和一致性。但是Accuracy受到准确性悖论(accuracy paradox)的影响，高准确性模型可能无法捕获分类任务中的基本信息。

因此作者还考虑了Recall和Specificity，因为FN和FP对于了解模型性能同样重要。高召回率表明模型在识别TP方面做得很好，而低召回率表明高FN。因此，Recall非常适合输出敏感的环境，例如预测deepfake或预测癌症(也就是说宁愿误判，也要找全)。同时，Specificity显示了模型在避免误报方面的表现。Specificity非常适合关注TP和FP的领域，例如推荐引擎(也就是说要减少误报)。