从零开始 NLP：使用序列到序列网络和注意力实现翻译

2023-08-28 06:00:23

pytorch官方例子学习心得

1、具体任务：

运用seq2seq模型实现法语和英语互翻

2、官方项目连接

3、项目流程：

3.1 准备数据

3.1.1 准备原始数据：读取下载好的数据

3.1.2 读取下载好的数据

3.1.2.1 生成语言训练对 pairs

例如： ['va !', 'go .']  = [被翻译词，翻译词]
解释：列表里面一个元素为原文中的一行，英语和法语通过空格(\t )分开

① 标准化处理读入的数据（lines）—>

* 字母转小写、截取掉字符中的空格
* unicode编码转化为ascii编码
* 通过正则匹配 ---> 拆分字母和标点符号
* 处理后数据：len(pairs)=135842 ,pairs[:2]=[['go .', 'va !'], ['run !', 'cours !']]

② 为了快速训练，根据条件筛选出可训练的数据

条件1：最大长度为 10 个单词（包括结尾标点符号）
条件2：筛选为转换为英文以"i am"或"he is"等形式的句子
筛选后：10599 sentence pairs

3.1.2.2 初始化被翻译语言的类和翻译语言的类

  该语言的名称：input_lang.name = 'fra' 法语该语言的词的个数（包括起始占位符）：n_words = 4345该语言每个字位置索引的字典：word2index ：{'j': 2, 'ai': 3, 'ans': 4 ……}该语言每个字位置索引的字典：index2word ：{0: 'SOS', 1: 'EOS', 2: 'j', 3: 'ai' ……}该语言每个字出现频率的字典：word2count  ： {'j': 414, 'ai': 340, 'ans': 55, '.': 10262……}

3.2 构建模型

① 初始化编码器

embedding层（输入言语的词向量层）：输入：input_size -- 输入言语的字典的长度 ；hidden_size -- 隐藏层细胞数输出：output；hidden：pytorch加载自己训练的词向量：

self.word_embeds = nn.Embedding(vocab_size, embedding_dim)
pretrained_weight = np.array(pretrained_weight)
self.word_embeds .weight.data.copy_(torch.from_numpy(pretrained_weight))

RNN层（记忆遗忘与传递）：采用 gru：GRU(256, 256)

② 初始化带attention的解码器

embedding层（输出言语的词向量层）：

3.3 训练模型参数

① 定义参数优化器：随机梯度下降
② 定义损失函数：nn.NLLLoss() 与解码器中的log_softmax() 组合

③ 准备训练的数据：

  类型：list长度：7500（给定参数）单值类型：tuple长度：2（输入--输出 翻译前--翻译后）

 training_pairs[0][0] =tensor([[24],[25],[75],[ 5],[ 1]], device='cuda:0')training_pairs[0][1]  =  tensor([[ 14],[ 15],[345],[  4],[  1]], device='cuda:0')

张量的值，分别为英文和法文字典中词对应的索引

④ 单次训练（一个词一个词进入模型训练）：网络结构图参考官网

隐藏层参数：首先，编码器隐藏层参数初始化为0参数优化器：解码器和编码器，参数的梯度置零编码器的输出：初始一个最外层长度为设置固定长度的0张量开始编码：变量被翻译语言的词，一个词一个词循环进入模型；更新隐藏层的参数张量；作为解码器的输入已经编码器更新的输入更新编码输出张量，按每次输入词的位置更新，如果长度没到固定长度的保持为0；作为解码器的输入开始解码：解码器输入：用目标值做输入或用预测值做输入，增加鲁棒性更新隐藏层：共享编码器的损失函数反向传播
参数优化器：更新参数

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Centos7运维笔记
下一篇 > 响应头中存在cookie，浏览器却记录不上

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

从零开始 NLP：使用序列到序列网络和注意力实现翻译

pytorch官方例子学习心得

1、具体任务：

2、官方项目连接

3、项目流程：

相关文章