浅析命名实体识别(NER)的三种序列标注方法
简述序列标注
序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
简述命名实体识别
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
命名实体识别的作用
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别的过程组成
命名实体识别通常包括两部分:
- 实体边界识别;
- 确定实体类别(人名、地名、机构名或其他)。
简述标签类型
进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示:
| 类型 | 说明 |
|---|---|
| B | Begin,代表实体片段的开始 |
| I | Internediate,代表实体片段的中间 |
| M | Middle,代表实体片段的中间 |
| E | End,代表实体片段的结束 |
| S | Single,代表实体片段为单个字 |
| O | Other,代表字符不为任何实体 |
简述序列标注的三种方法
实体识别三种常见的序列标注方法如下:
- BIO:标识实体的开始,中间部分和非实体部分
- BMES:增加S单个实体情况的标注
- BIOSE:增加E实体的结束标识
BIO-三位序列标注法(B-begin,I-inside,O-outside)
- B-X代表实体X的开头
- I-X代表实体X的中间或结尾
- O代表不属于任何类型的
样例:
我 O是 O李 B-PER果 I-PER冻 I-PER, O我 O爱 O中 B-ORG国 I-ORG, O我 O来 O自 O四 B-LOC川 I-LOC。 O
BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)
- B表示一个词的词首位值
- M表示一个词的中间位置
- E表示一个词的末尾位置
- S表示一个单独的字词
样例:
我 S是 S四 B川 M人 E
BIOES-四位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)
- B表示开始
- I表示内部
- O表示非实体
- E表示实体尾部
- S表示改词本身就是一个实体
样例:
我 O是 O李 B-PER果 I-PER冻 E-PER, O我 O爱 O中 B-LOC国 E-LOC, O我 O来 O自 O四 B-LOC川 E-LOC。 O
总结
基本简单讲述了实体识别三种标注方法,从上面我们可以看出序列标注的各种标注方法大同小异。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
