13.2. Transformer 和 Vision Transformer 最大区别是什么?
Transformer 最早是应用与NLP领域,即自然语言处理,用最最最简单的理解方式,Transformer的工作方式就是把一句话从一种语言翻译成另一种语言。主要是通过把一句话拆分为多个单词或者多个模块,然后进行编码和解码训练,再评估那个单词对应的意思,最后通过得分高低得出最终翻译结果。
而Vision ransformer则是将一个图片抽象地看做一个token,通过图像分割将其拆分为多个token,再进行编码和解码训练,最后评估中得分高低判断最终预测的结果。