这两天在看PyTorch DistributedDataParallel(DDP)相关文章,发现有个系列写的还不错。 https://zhuanlan.zhihu.com/p/178402798 https://zhuanlan.zhihu.com/p/187610959 https://zhuanlan.zhihu.com/p/250471767 虽然讲的是torch.distributed.launch(快被torchrun替代),但是整个思路应该还是有参考意义的。 看的过程中遇到一些问题,顺便补几个知识点。 contextmanager decorator SyncBN 这篇写的很细,推荐精读 补充SyncBN里的一个问题:2.1.5 eval部分,在torch 1.13版本里,只要满足eval模式或track_running_stats=True,就会使用统计量(running_mean, running_var)进行计算了。源码如下: # torch.nn.modules.batchnorm return F.batch_norm( inpu
Typecho使用Markdown语法解析文档,而Markdown默认图片靠左显示,且没有比较方便的居中方案(现在常用的方法是利用html语法解析,如使用img和div标签来设置居中)。 如果使用内嵌html来设置居中,对JJJYmmm来说工作量太大。换个角度思考,可以修改网页渲染的css文件。(如果使用了主题,则在主题对应的css文件修改) 使用以下代码,就可以实现所有文章的图片一键居中了~ .your_class #your_id img { max-width:100%; margin:0 auto; display:block; } 后来发现,这个方案已经有人提出:https://zhuanlan.zhihu.com/p/474859854
最近写的一个Multi-task框架~ 项目地址:https://github.com/JJJYmmm/Pix2SeqV2-Pytorch Simple PyTorch implementation of Pix2SeqV2. This project references moein-shariatnia's Pix2Seq and the paper A Unified Sequence Interface for Vision Tasks. Introduction Pix2Seq is a generalized framework for solving visual tasks proposed by Google. Essentially it treats visual tasks as language tasks, generating sequences of tokens by auto-regression, and obtaining the output of many visual tasks(e.g., object detection, seg
pix2seq implement by Pytorch source code : moein-shariatnia/Pix2Seq paper : http://arxiv.org/abs/2109.10852 这次解析的源码是非官方实现的Pix2Seq,项目地址如上。教程直接看作者的Readme或者Object Detection w/ Transformers Pix2Seq in Pytorch | Towards AI,总体还是比较详细的。 模型即训练源码基本没什么问题,不过推荐先看完原始论文,不然可能在一些细节方面卡住。代码问题主要出现在测试文件中,问题如下。 Issue 1 2023.8.30 Tokenizer类的max_len参数用于限制单张图片的Obejct个数 labels = labels.astype('int')[:self.max_len] bboxes = self.quantize(bboxes)[:self.max_len] 而get_loaders中的collate_fn,把max_len作为输入序列的最大长度,这两处地方出现了矛盾(
Vision Transformer paper:[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org) bilibili:ViT论文逐段精读【论文精读】_哔哩哔哩_bilibili code:WZMIAOMIAO/deep-learning-for-image-processing (github.com) DeiT paper:[2012.12877] Training data-efficient image transformers & distillation through attention (arxiv.org) bilibili:DeiT:注意力Attention也能蒸馏 - 知乎 (zhihu.com) code:同ViT MAE paper:[2111.06377] Masked Autoencoders Are Scalable Vision Learners (arxiv.org) bilibili:MAE 论
Axuanz
Updating as per fate.