【Bert】(十四)命名实体识别--中文数据介绍及标注
代码:https://github.com/macanv/BERT-BiLSTM-CRF-NER
1. 下载数据
The Chinese training data($PATH/NERdata/) come from:https://github.com/zjy-ucas/ChineseNER
链接:https://pan.baidu.com/s/1JBnda5rgUsZjgYR5W7u-Fg
提取码:x16l
2. 数据介绍
2.1 标注方式
【NLP】序列标注BIO介绍(也叫IOB2)_mjiansun的专栏-CSDN博客
2.2 类别个数
总共四类:persons, locations, organizations
对应的简写:PER LOC ORG
3.3 导入数据
3.3.1 将中文数据的数据转成上述格式
import osif __name__ == "__main__":rootPath = "/data2/PrivateExperiment/bilstm-crf-ner/NERdata/train.txt"savePath = "/data2/PrivateExperiment/bilstm-crf-ner/NERdata/process/toformat.txt"collectData = []with open(rootPath, "r") as f:for line in f.readlines():lineStrs = line.strip().split()if len(lineStrs) > 0:collectData.append([lineStrs[0], lineStrs[1] + "\n"])else:collectData.append(["\n"])with open(savePath, "w", encoding="utf-8") as f:for line in collectData:f.write("\t".join(line))
生成结果为
3.3.2 将输入拖拽导入

3.4导出数据
admin.jsonl为正常的数据,unknown.jsonl为不正常数据。
admin.jsonl

unknown.jsonl

本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
