11种必知的word embeddings模型
作者:Fabio Chiusano

单词嵌入为序列标注和文本分类等下游任务提供输入特征,在过去的十年中,已经提出了几种单词嵌入方法。
Context-independent
每个单词都会学习一个唯一的表达而不考虑上下文
Context-independent without machine learning
- Bag-of-words
- TFIDF
Context-independent with machine learning
- Word2Vec: CBOW & SkipGram。
- GloVe(Global Vectors for Word Representation):对语料库中聚合的全局单词共现统计数据进行训练。
- FastText:与GloVe不同的是,它通过将每个单词视为由字符n-grams组成而不是一个单词整体来做单词嵌入。此做法不仅可以学习罕见的单词,还可以学习词汇表外的单词。
Context-dependent
相同单词不同上下文也会embedding不一样。
Context-dependent and RNN based
- ELMO(Embeddings from Language Model):基于字粒度的双向lstm编码层学习每个单词的embedding。
- CoVe(Contextualized Word Vectors): 基于一个训练好的用于翻译的sequence-2-sequence的带有attention的模型的encoder,对word进行词嵌入。
Context-dependent and transformer-based
- Bert(Bidirectional Encoder Representations from Transformers): 大语料,基于transformer进行训练,使用随机mask机制做完型填空,同时通过预测下一个句子的任务挖掘句子之间的关联。
- XLM(Cross-lingual Language Model): 同样是transformer,预估下一个token,类似bert的mask训练方式,和翻译目标。
- RoBERTa(Robustly Optimized BERT Pretraining Approach):同样是BERT,修改了超参,删除了下个句子的任务,用更大的batch和学习率训练。
- ALBERT(A Lite BERT for Self-supervised Learning of Language Representation):减少了参数,降低了内存,提升了训练速度。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
