【ACL2020】Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generat
Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation
本文提出了一种用于ATE(识别情感目标——序列标注)任务的数据增强方法
本文针对ATE任务数据缺乏的现状,提出了一种通过Masked Sequence-to-Sequence随机产生数据的数据增强方法。

增强方法概括如下:
- 目标:根据 mask 后的序列及其原始标签来重构被 mask 掉的片段,得到新序列
- 采样:按照概率p随机抽取一个样本;决定 mask 的起始位置。
- 碎片掩蔽策略(Fragment Masking Strategy):
- mask 连续词序列,从下标 u 到 v
- 只 mask 标签为O的词
- mask 碎片的长度由 r 来控制,r 是遮蔽概率
- 保持原句中标记为属性词的B/BI部分在整句中的相对位置不变
- 原句被Masked的部分,产生新词时,未必要一对一,可以一对多(Eg:原本被Masked的位置有7个 ,最后产生8个单词),也可也多对一(Eg:原本被Masked的位置有7个 ,最后产生6个单词)
- 新产生的句子,可能存在情感极性被更改的情况,但是,没有关系,只要有情感极性即可,这样才能ATE
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
