【ACL2020】Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generat

Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation

本文提出了一种用于ATE(识别情感目标——序列标注)任务的数据增强方法
本文针对ATE任务数据缺乏的现状,提出了一种通过Masked Sequence-to-Sequence随机产生数据的数据增强方法。

image

增强方法概括如下:

  • 目标:根据 mask 后的序列及其原始标签来重构被 mask 掉的片段,得到新序列
  • 采样:按照概率p随机抽取一个样本;决定 mask 的起始位置。
  • 碎片掩蔽策略(Fragment Masking Strategy):
    • mask 连续词序列,从下标 u 到 v
    • 只 mask 标签为O的词
    • mask 碎片的长度由 r 来控制,r 是遮蔽概率
  • 保持原句中标记为属性词的B/BI部分在整句中的相对位置不变
  • 原句被Masked的部分,产生新词时,未必要一对一,可以一对多(Eg:原本被Masked的位置有7个 ,最后产生8个单词),也可也多对一(Eg:原本被Masked的位置有7个 ,最后产生6个单词)
  • 新产生的句子,可能存在情感极性被更改的情况,但是,没有关系,只要有情感极性即可,这样才能ATE


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部