实验5:ViT & Swin Transformer
学习要求:
- Transformer的基本原理
- 典型基于Transformer的网络结构
截止时间:11月11日(星期二) 22:00
大家务必注意时间,超出时间要扣分!
1、视频学习
1.1 Vision Transformer (ViT)
1.2 Swin Transformer
1.3 视觉Transformer综述
华为韩凯的综述,内容非常好,了解即可【视频链接】
2、思考题
- 在ViT中要降低 Attention的计算量,有哪些方法?(提示:Swin的 Window attention,PVT的attention)
- Swin体现了一种什么思路?对后来工作有哪些启发?(提示:先局部再整体)
- 有些网络将CNN和Transformer结合,为什么一般把 CNN block放在面前,Transformer block放在后面?
- 阅读并了解Restormer,思考:Transformer的基本结构为 attention+ FFN,这个工作分别做了哪些改进?
3、评分规则
本次实验满分10分,按时提交并且内容符合要求8分,发布在个人博客并提供链接加0.5分,使用markdown加0.5分,内容质量高加0.5到1分。错过时间提交,扣1分。
