pix2seq implement by Pytorch source code : moein-shariatnia/Pix2Seq paper : http://arxiv.org/abs/2109.10852 这次解析的源码是非官方实现的Pix2Seq,项目地址如上。教程直接看作者的Readme或者Object Detection w/ Transformers Pix2Seq in Pytorch | Towards AI,总体还是比较详细的。 模型即训练源码基本没什么问题,不过推荐先看完原始论文,不然可能在一些细节方面卡住。代码问题主要出现在测试文件中,问题如下。 Issue 1 2023.8.30 Tokenizer类的max_len参数用于限制单张图片的Obejct个数 labels = labels.astype('int')[:self.max_len] bboxes = self.quantize(bboxes)[:self.max_len] 而get_loaders中的collate_fn,把max_len作为输入序列的最大长度,这两处地方出现了矛盾(
项目地址 https://github.com/JJJYmmm/CircleDetection Readme 本项目使用 Canny + Hough 对图像中的圆形进行检测。参考https://github.com/CV-xueba/A01_cvclass_basic_exercise,不过修复了该项目中canny算法计算亚像素点的bug 文件列表如下: main.py : run detection program my_canny.py : canny算法实现,得到图像的梯度图/梯度方向图 my_hough.py : hough算法实现,实现通过参数空间的投票算法进行圆形的数学建模 使用方法: 检测图像放在picture_source文件夹下,命名为picture.jpg(或修改main.py中的Path路径) Canny/Hough检测结果放在picture_result文件夹下 测试结果: 左侧为canny算法结果,右侧为hough检测出的圆(原图上画出)
摘要 本文对现有Deepfake视频进行对抗性修改来绕过对应的检测器,并且进一步证明这种扰动对图像和视频压缩具有鲁棒性。 攻击原理 目前关于DeepFake视频的检测可以分为两大类。 第一种是通过手工选取的特征以及自然图片的统计/物理特征进行真假区分,然而视频合成方法通过修改它们的训练目标(例如通过Loss函数指导生成器模拟这些人工/统计特征),从而绕过这种检测。 之前解析的CVPR2023的一篇文章就是采用这种方式绕过检测器 第二种是基于深度神经网络进行检测。首先将视频分解成帧,随后提取帧中的人脸特征并判断。当然现在先进的DeepFake检测器并不是以整张图片帧作为输入,而是先通过面部追踪方法从原始帧中裁剪面部,再经过归一化等变换才输入网络。事实证明这种先验输入可以使检测性能更好。 既然这种视频检测器仍然是通过单帧检测DeepFake,那么如果对视频的每一帧都施加对抗性扰动,理论上就可以欺骗到检测器。 当然现在也有检测器引入时间序列检测deepfake视频,这种检测器使用CNN+RNN架构或3-D CNN模型对帧序列进行处理。文章对这类检测器的代表3-D EfficientNet
摘要 本篇文章采用蜕变测试(metamorphic testing)的原理来寻找可能影响DeepFake检测模型鲁棒性的潜在因素,并缓解其中的Oracle问题。作者对MesoInception-4和TwoStreamNet两种检测模型进行了评估。通过蜕变测试发现化妆应用程序是一种对抗性攻击,可以欺骗deepfake检测器。实验结果表明,MesoInception-4和TwoStreamNet模型在输入数据被施加化妆扰动时,其性能下降高达30%。 Oracle问题:程序的执行结果不能预知的现象在测试理论中称为“Oracle问题”,即无法知道输入的预期结果,导致测试人员只能选择一些可以预知结果的特殊测试用例进行测试,而不能完整有效地进行测试。例如测试sin函数时,并不知道sin(153°)的预期结果。从而无法验证输入为153°时程序的正确性。 蜕变测试:蜕变测试是软件测试中的概念,是一种特殊的黑盒测试方法。蜕变测试依据被测软件的领域知识和软件的实现方法建立蜕变关系(Metamorphic Relation, MR),利用蜕变关系来生成新的测试用例,通过验证蜕变关系是否被保持来决定测试是否
摘要 本篇文章做了以下三项工作: 探究高斯噪声扰动对面部提取器的影响 发现可以通过使用新方法生成DeepFakes来绕过现有检测器 发现可以利用数据毒化、后门攻击来绕过DeepFake分类器 第二点现在基本算是共识,所以接下来主要谈1、3两点。 实验设置 数据集来源:FaceForensics++和DFDC 受害模型:对于选择开源的面部提取器Dlib,deepfake检测器选择XceptionNet 面部提取器攻击 攻击方式:向图像帧中每个通道的每个像素都施加均值为0,标准差为$\sigma$的随机高斯噪声。然后通过Dlib提取器提取人脸。如果Dlib输出结果为NULL,说明攻击成功。 这个设置其实对Dlib有利,因为Dlib有可能受噪声影响从而输出不正确的图像 当随着$\sigma$的增加,Dlib的性能逐渐下降,拐点在$\sigma = 0.2$的位置。对于DFDC数据集,Dlib性能下降相比其他数据集快得多。性能下降更快的原因作者认为是FaceForensics++数据集的人脸可能更好提取。 数据毒化攻击 数据毒化攻击主要是对模型训练集进行修改,从而改变模型的性能表
JJJYmmm
Updating as per fate.