文本摘要方法总结

2023-06-26 18:45:33

说到文章摘要大家并不陌生，就是给长文本在不丢失任何重要信息的情况下做个精确的总结。具体有哪些方法呢？可以看以下总结。

文章摘要

基于抽取的文章摘要(Extraction-based)
1 词频 (Leverage word frequencies)
2 Textrank (Leverage embeddings similarity with TextRank)
3 embedding聚类 (Leverage embeddings and clustering)
基于概要的文章摘要(Abstraction-based)
1 seq2seq模型 (Seq-to-seq models and supervised learning)

基于抽取的文章摘要

从长文本中提取代表最重要要点的单词或句子的子集，并结合起来形成摘要，结果在语法上可能不准确。

基于概要的文章摘要

使用深度学习技术（主要在seq-to-seq模型中）像人类一样解释和缩短原始文档。由于抽象机器学习算法可以生成代表源文本中最重要信息的新短语和句子，因此它们可以帮助克服基于抽取技术的语法错误。

虽然抽象在文本摘要方面表现得更好，但开发其算法需要复杂的深度学习技术和复杂的语言建模。因此，抽取式文本摘要方法仍然广泛流行。

Leverage word frequencies

清除文档中的停用词、数字、标点符号和其他特殊字符。
把文档拆分成句子。
计算每个单词在文档中出现的次数，并将其除以文档中出现频率最高的单词的出现次数，以获得单词频率。
将出现在同一句子中的所有单词的词频相加，并获得每个句子的分数。
句子的分数高于某个阈值，并将其用作文章摘要。

Extraction-based summarization with TextRank

把文档分成几个句子。
算出每个句子的句向量。
构建一个图，其中节点是句子，边权重是句子嵌入的相似性（如余弦相似性）。
在图上运行PageRank算法，以获得每个句子的PageRank分数。PageRank分数高表示节点对网络很重要。
保留分数高于某个阈值的句子，将其用作文档摘要。

Extraction-based summarization with sentence embeddings and clustering

解析文档中的共同引用。
把文档拆分成句子。
获得每个句子的句向量（例如使用BERT）。
对句子嵌入使用K-Means，得到K个簇。K是总结中的句子数。
找到最接近每个聚类中心的句子，并使用它们来撰写摘要。

Abstraction-based summarization with seq-to-seq models

获取一个包含文档和摘要的数据集。
为文本摘要选择合适的metric，例如ROUGE。
训练一个seq-to-seq模型（如transformer），以监督方式从文本中生成摘要。

参考文献

TextRank:https://cran.r-project.org/web/packages/textrank/vignettes/textrank.html
pagerank:https://en.wikipedia.org/wiki/PageRank
基于bert的摘要抽取:https://github.com/dmmiller612/bert-extractive-summarizer
kmeans:https://en.wikipedia.org/wiki/K-means_clustering
rouge:https://en.wikipedia.org/wiki/ROUGE_(metric)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 如何解决高维稀疏的user-item矩阵推荐问题？
下一篇 > 大道至简，SQL也可以实现神经网络

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce