基于行块分布函数的通用网页正文抽取算法初步认识

方法核心依据有两点:正文区的密度、行块的长度

将HTML去标签,留下正文 同时留下标签去除后的所有空白
位置信息。留下的正文称为Ctext

行块:以Ctext中的行号为轴取其周围k行,合起来称为一个
行块Cblock。

行块长度:一个Cblock去掉其中所有空白符后的字符总数
称为该行块的长度。

行块分布函数:
以Ctext每行为轴,共有LinesNum(Ctext)-K个Cblock,做出以
[1,LinesNum(Ctext)-K]为横轴,以其各自的行块长度为纵轴
的分布函数。

分布函数图中正确文本含有最值,且往往含有一个鄹升点

和一个骤降点



这样就转化为求骤升点和骤降点

求正文区域所在的起始行块号和终止行块号 需要满足下面四
个条件
骤升点必须超过某一阀值
紧随骤升点的行块长度不能为0
骤降点及其尾随的行块长度为0,保证正文结束。
保证此区域是取到行块最大值的区域



本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部