关键词生成的无监督方法10——my_dataloader.py

2023-10-24 23:45:55

2021SC@SDUSC

文章目录

- 一、my_dataloader
- - __ getitem __ ()函数
  - __ len __ ()函数
- 二、总结

上周对源码中关键包——torch.utils.data包和torch.nn.utils.rnn.pad_packed_sequence包的功能和MyDataset类的__ init __ ()函数进行了分析，这周接着对__ getitem __ ()和__ len __ ()函数进行分析。

一、my_dataloader

getitem ()函数

  def __getitem__(self, index):x, trg= self.f[index]x = x.lower()#分词处理x = nltk.tokenize.word_tokenize(x)

代码分段解析：
此段代码将在__ init __ ()函数中存放的silver label数据取出到x中并对其进行分词处理操作。

        for i in range(len(x)):x[i] = self.vocab(x[i])x.append(self.vocab(''))x = [self.vocab('')] + x

代码分段解析：
此段代码将silver label在数据集vocab_kp20k.npy中出现过的词存入x。

        if len(x)>512:x = x[:512]while len(x) < 512:x.append(self.vocab(''))#构造张量   src = torch.Tensor(x)

代码分段解析：
此段对x做进一步处理，将x长度控制在512以内并将x构造为张量赋值给src。

其中出现的torch.tensor()函数，对tensor和此函数做了学习和理解，整理如下。

tensor
Tensor实际上就是一个多维数组（multidimensional array）。其目的是能够创造更高维度的矩阵、向量。如图所示。
在这里插入图片描述
将三维的张量用一个正方体来表示。

这样可以进一步生成更高维的张量。

通过图示和Python的实例能够想象Tensor的空间构造以及如何用Tensor的属性来构造Tensor。

torch.tensor()

torch.tensor(data, dtype=None, device=None, requires_grad=False)

其中data可以是list,tuple,NumPy,ndarray等其他类型。torch.tensor会从data中的数据部分做拷贝而不是直接引用,根据原始数据类型生成相应的torch.LongTensor torch.FloatTensor和torch.DoubleTensor。示例如下。
在这里插入图片描述
data变成了浮点型,tensor1.type()随之也变成相应的torch.FloatTensor。

由此可见，可以生成指定dtype的tensor。

        x = trgx = ','.join(x)#分词处理x = nltk.tokenize.word_tokenize(x.lower())

代码分段解析：
将第一个代码段中x, trg = self.f[index]存入trg的silvel label值再次赋值给x并做分词处理。

        for i in range(len(x)):x[i] = self.vocab(x[i])x.append(self.vocab(''))x = [self.vocab('')] + x

代码分段解析：
此段代码将silver label在数据集vocab_kp20k.npy中出现过的词存入x。

        while len(x) < 30:x.append(self.vocab(''))trg = torch.Tensor(x)return src, trg

代码分段解析：
对x做进一步处理，保证x长度<30后给x构造张量并赋值给trg，最后返回张量src、trg。

len ()函数

    def __len__(self):return  len(self.f)

__ len __ ()函数比较简短，直接返回传入数据silver label的大小。

二、总结

本周分析了my_dataloader.py的__ getitem __ ()函数和__ len __ ()函数。在__ getitem __ ()函数中着重学习了tensor的含义以及torch.tensor()函数的用法，对张量有了进一步的理解。
至此，完成了对my_dataloader.py的分析，将数据集vocab_kp20k.npy和silver label载入模型Model.py，下一步将进行模型的训练。故下周起对Train.py展开分析。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

关键词生成的无监督方法10——my_dataloader.py

文章目录

一、my_dataloader

__ getitem __ ()函数

__ len __ ()函数

二、总结

相关文章

getitem ()函数

len ()函数