天涯社区论坛贴子粗加工
VBA 从天涯论坛的帖子中提取正文 Sub 天涯贴子简单抓取()Dim cnt As Integerarr = Array("评论", "举报", "楼主", "作者", "草稿", "热贴", "论坛", "注册", "广告", "推荐") '屏蔽词汇For y = 1 To 2Set ie = CreateObject("internetexplorer.application")With ie.Navigate "http://bbs.tianya.cn/post-free-5758447-" & y & ".shtml" '5758447-1.shtml ,5758447-2.shtml等' .Visible = TrueDo Until ie.ReadyState = 4DoEventsLoopFor x = 0 To .Document.All.tags("div").Length - 1 '正文是在div中,div集合长度ss = .Document.All.tags("div")(x).innertext '正文内容len_ss = Len(ss) '正文长度If len_ss < 100 Then '正文长度太短,直接跳到下一个divGoTo 100ElseFor Each keys In arrIf InStr(ss, keys) > 0 Then GoTo 100 '如有屏蔽的词语出现,直接跳到下一个divNextcnt = cnt + 1Debug.Print cnt & ":" & .Document.All.tags("div")(x).innertext '输出合乎要求的divEnd If100Next xEnd WithNext yie.QuitSet ie = NothingEnd Sub 转载于:https://blog.51cto.com/13834900127/1970577
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
