Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 代码实践-目标检测

  • 代码实践-图像分割

  • 代码实践-自监督学习

  • 竞赛笔记-视觉竞赛

  • 框架解析-mmlab系列

  • 讲座记录-有意思的文章集合

    • 尚未阅读的各类文章
    • 一些需要注意的点
    • 不确定性学习在视觉识别中的应用
    • VALSE Webinar 21-19 弱监督视觉学习:定位、分割和其他
    • A Tutorial of Transformers
      • A Tutorial of Transformers
    • 样本生而不等
    • VALSE Webinar 20-02 元学习与小样本学习
  • 体会感悟-产品沉思录观后有感

  • 体会感悟-摄影

  • 系列笔记-

  • 系列笔记-乐理和五线谱

  • 系列笔记-爬虫实践

  • 系列笔记-Django学习笔记

  • 系列笔记-Git 使用笔记

  • 系列笔记-网站搭建

  • 系列笔记-图卷积网络

  • 课程笔记-MIT-NULL

  • 系列笔记-OpenCV-Python

  • 系列笔记-使用 Beancount 记账

  • 系列笔记-Python设计模式

  • 系列笔记-MLOps

  • 系列笔记-Apollo自动驾驶

  • 系列笔记-PaddlePaddle

  • 系列笔记-视频操作

  • Vue+Django前后端分离开发

  • 深度学习及机器学习理论知识学习笔记

  • PyTorch Tricks

  • 学习笔记
  • 讲座记录-有意思的文章集合
Muyun99
2021-06-30

A Tutorial of Transformers

# A Tutorial of Transformers

# 1、前言

语言表示学习指的是如何表示语言的语义,发展历程从知识图谱->分布式表示。表示学习将词映射为一个向量,这种向量一般被称为词嵌入(Embeddings)

image-20210630230310626

上下文编码器将上下文编码进词嵌入中,更准确地去体现词的语义。上下文编码器即为 Model 架构的设计,是模型驱动的,而如何基于数据将特征提取得更好,是数据驱动的

image-20210630230459334

这里是机器翻译的一个例子,Decoder是一个自回归模型

# 2、如何建立远距离的依赖关系?

全连接是一个非常简单的方式,但是计算量大以及不够灵活

注意力机制,主要过程有两步

  • 计算注意力分布,并做归一化
  • 对所有的信息进行加权,根据这个注意力分布做输入做期望

image-20210630231737446

如何建模词语之间的依赖关系?上图是一个例子,也被成为 self-attention

  • 如果我们要查询The 的注意力
  • “The” 这个单词的 Embedding作为q,句子中其他所有词作为v,
  • 将 q 和 v 计算相似度,归一化之后得到权重
  • 最终 “The” 便可以由其他词表示

# 3、建模 Query-Key-Value(QKV)Model

image-20210630232138507

QKV 有三个可学习的矩阵,使得其模型容量更大,可学习能力也更强

# 4、Multi-head Self-Attention

image-20210630232512864

在多个高维空间中去建模他们的关系,类似于卷积中的多通道

# 5、Multi-Layer Self-Attention

image-20210630232637901

# 6、Transformer

image-20210630232923019

关键模块:Self-Attention

改进 Self-Attention

  • 传统Self-Attention只和内容相关,和位置没有关系,加入位置信息的编码
  • Layer Normalization
  • Skip connection
  • Position-wise FFN

# 参考资料:

  • Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017. arXiv link (opens new window)
  • Lin, Tianyang, et al. "A Survey of Transformers." arXiv preprint arXiv:2106.04554 (2021). arXiv link (opens new window)
上次更新: 2021/09/26, 00:09:41
VALSE Webinar 21-19 弱监督视觉学习:定位、分割和其他
样本生而不等

← VALSE Webinar 21-19 弱监督视觉学习:定位、分割和其他 样本生而不等→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×