[论文翻译]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
引言
今天带来BERT的论文翻译,包括相关附录,也是挺重要的。
摘要
我们引入一种新颖的叫BERT(Bidirectional Encoder Representations from Transformers )1语言表征模型,与近期的语言表征模型不同,BERT被设计为从无标签文本中通过在所有层中联合单词左右两边上下文来预训练深度双向表征。因此,预训练的BERT模型可以接上一个额外的输出层进行微调(精调,fine-tune)来得到很多处理诸如问答和推理等自然语言处理任务的最好(SOTA,state-of-the-art)模型,而且不需要为特定任务做很大的模型上的改动。
BERT是一个理论上简单而实际上强大的模型。它在11个自然语言处理任务上获得了新的最佳结果,其中包括提高GLUE到80.5%(7.7%的提升)、提高MultiNLI准确率到86.7%(4.6%的提升)、提高SQuAD v1.1问答F1值到93.2(1.5的提升)和SQuAd v2.0F1值到83.1(5.1的提升)。
1 简介
语言模型的预训练已被证明能有效地提升许多自然语言处理任务表现,包括句子级(sentence-level)任务如自然语言推理(nature language inference)和释义(paraphrasing,指是用其他单词来描述一个文本或段落的意思),通过全面地分析句子来预测句子之间的关系;和单词级(token-level)任务如命名实体识别和问答,其中模型需要在单词级别上生成细粒度的输出。
有两种策略来应用预训练语言表征到下游任
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
