Language Models are Few-Shot Learners

Abstract

  • 很多 Pretrain + Fine-tuning 的模型在多种 NLP 任务上取得不错效果,虽然这种模式下网络结构是任务无关的,但仍然需要任务特定的 fine-tuning 数据集。
  • 本文说明了增大语言模型可以提高 few-shot 的性能,具体来说,训练了一个 175 billion 参数的 自回归语言模型(GPT-3),并在测试了其 few-shot 性能。
  • GPT-3 没有任何 fine-tuning,在预测阶段也没有任何参数更新,仅根据提供的样本中的文本(示例或指令)来进行任务推断及预测
  • GPT-3 在多项 NLP 任务上表现出相当不错的性能,也在一些任务上还比较吃力。

Introduction

发展趋势

  • 词向量(Word2Vec,GloVe)输入任务特定的网络结构
  • 基于 RNN 和多层表示以及上下文状态被用于生成更强大的表达(依然应用于任务特定架构)
  • 基于 RNN 和 Transformer 的预训练模型(如 GPT, BERT 等)经过 fine-tuning 之后可以直接应用在具体的任


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部