论文地址:https://dl.acm.org/doi/abs/10.5555/3495724.3496802 摘要与引言 目前针对深度神经网络对抗脆弱性的研究进展迅速(如对抗样本、鲁棒性检验等)。现有的攻击需要内部访问(如受害者模型架构,参数或训练集)或外部访问(查询受害者模型)。然而在许多场景中,这两种访问都可能是不可行的或成本昂贵的。本文研究了无框对抗的例子,其中攻击者既不能访问模型信息或训练集,也不能查询模型。相反,攻击者只能从与受害者模型相同的问题域中收集少量示例。这种更强大的威胁模型大大扩展了对抗性攻击的适用性。 实验表明,在prototypical auto-encoding models上制作的对抗样本可以很好地转移到各种图像分类和人脸验证模型中。在www.example.com拥有的商业名人识别系统上clarifai.com,此方法将系统的平均预测准确率显著降低到仅15.40%,这与从预训练的Arcface模型中转移对抗样本的攻击相当。 No-box攻击相比于现在基于查询或转移的黑盒攻击来说,攻击条件更为严格:攻击者既不能访问大规模的训练数据,也无法查询模型,只能通
简介 本篇论文主要是对AdvGAN进行了一些小改进,证明了在非定向攻击中,潜在特征作为对抗生成的先验比整个输入图像更好,同时消除了对生成器遵循基于编码器-解码器的架构的需要,从而减少了训练/推理开销。 论文地址:只有4页的AdvGAN++ 网络框架 跟AdvGAN相比,主要区别在于生成器G的输入产生了变化,从原来的原始图像x变成了图像x的特征图与噪声向量的级联。而图像x的特征图是通过目标网络M的特征提取器f得到的。这两点就是AdvGAN和原始版本的最大区别。 损失函数 与AdvGAN类似,损失函数为 $$ L(G,D)=L_{GAN}+\alpha L_{adv}+\beta L_{pert} $$ 其中 $$ L_{GAN}=E_x[\log D(x)+E_xlog(1-D(G(z|f(x)))]\\ L_{adv}=E_x[M_t(G(z|f(x)))]\\ L_{pert}=E_x||x-G(z|f(x))||_2 $$ $L_{adv}$中的$M_t$是指目标模型M将输入识别成类别t的概率(softmax处理后).其他部分与AdvGAN的损失函数一致,这里不再赘述.AdvGA
简介 论文地址 Generating Adversarial Examples with Adversarial Networks|IJCAI 2018 本篇论文基于GAN生成对抗样本。首先提出训练一个产生扰动的前馈网络(G)来生成不同的对抗样本,再通过一个判别网络(D)判别扰动图像的真实性。并在半白盒和黑盒两种场景下进行实验。由于条件GANs能够生成高质量的图像,他们使用了类似的范例(LSGAN)来生成对抗样本。 在以前的白盒攻击中,如FGSM和优化方法,对手需要有攻击的目标模型的架构和所有参数。然而,通过部署AdvGAN,一旦G得到训练,它可以立即为任何输入样本产生扰动,而不再需要访问模型本身。此攻击场景称之为半白盒。 网络主体 问题定义 假设$X \subseteq R^n$为特征空间,n为特征维度。设训练集中的一个样本($x_i,y_i$),其中$x \subseteq X$,并服从分布$\mathbf{x_{i}}\sim\mathbf{P}_{\mathrm{data}}$,且$y_i \in Y$.攻击的目标网络是一个分类器$\mathbf{f}:{\boldsymbol
JJJYmmm
Updating as per fate.