非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

2023-06-26 15:30:42

华校专老师更新了个人笔记，增加了 Transformer笔记，包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容，内容十分详细，非常值得学习，特此推荐。

作者华校专，曾任阿里巴巴资深算法工程师、智易科技首席算法研究员，现任腾讯高级研究员，《Python 大战机器学习》的作者。华老师也是我们的知识星球的嘉宾。

这是作者多年以来学习总结的笔记，经整理之后开源于世。

笔记地址：

http://www.huaxiaozhuan.com/深度学习/chapters/7_Transformer.html

Transformer简介

Transformer 是一种新的、基于 attention 机制来实现的特征提取器，可用于代替 CNN 和 RNN 来提取序列的特征。

Transformer 首次由论文 《Attention Is All You Need》 提出，在该论文中 Transformer 用于 encoder - decoder 架构。事实上 Transformer 可以单独应用于 encoder 或者单独应用于 decoder 。

Transformer笔记目录

一、Transformer

1.1 结构
1.2 Transformer vs CNN vs RNN
1.3 实验结果

二、Universal Transformer

2.1 结构
2.2 ACT
2.3 实验结果

三、Transformer XL

3.1 Segment-level 递归
3.2 相对位置编码
3.3 实验结果

四、GPT

4.1 GPT V1
4.2 GPT V2

五、BERT

5.1 预训练
5.2 模型结构
5.3 微调
5.4 性能

六、ERNIE

6.1 ERNIE 1.0
6.2 ERNIE 2.0

七、XLNet

7.1 自回归语言模型 vs 自编码语言模型
7.2 Permutation Language Model
7.3 Two-Stream Self-Attention
7.4 Partial Prediction
7.5 引入 Transformer XL
7.6 多输入
7.7 模型比较
7.8 实验

八、MT-DNN

8.1 模型
8.2 实验

九、BERT 扩展

9.1 BERT-wwm-ext
9.2 RoBERTa

笔记截图

其他

华校专老师的个人网站：

http://www.huaxiaozhuan.com/

笔记地址：

http://www.huaxiaozhuan.com/深度学习/chapters/7_Transformer.html

github：

https://github.com/huaxz1986

笔记内容较多，欢迎大家探讨。请点击“阅读原文”

本站简介↓↓↓

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号（创始人：黄海广）

初学者入门的道路上，最需要的是“雪中送炭”，而不是“锦上添花”。

本站的知识星球（黄博的机器学习圈子）ID：92416895

目前在机器学习方向的知识星球排名第一（上图二维码）

往期精彩回顾

良心推荐：机器学习入门资料汇总及学习建议
黄海广博士的github镜像下载（机器学习及深度学习笔记及资源）
机器学习小抄-（像背托福单词一样理解机器学习）
首发：深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书
机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件
重磅 | 完备的 AI 学习路线，最详细的资源整理！
图解word2vec(原文翻译)
斯坦福CS229机器学习课程的数学基础（概率论和线性）

备注：本站qq群：865189078（共8个群，不用重复加）。

加入本站微信群，请加黄博的助理微信，说明：公众号用户加群。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 强烈推荐10 个机器学习教程！（含视频链接）
下一篇 > 深度学习的一些经验总结和建议| To do v.s Not To Do

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

Transformer简介

Transformer笔记目录

笔记截图

其他

图解word2vec(原文翻译)

斯坦福CS229机器学习课程的数学基础（概率论和线性）

备注：本站qq群：865189078（共8个群，不用重复加）。

相关文章