遇到爬虫Gordian Knot怎么办?

• 寻找“打印此页”的链接,或者看看网站有没有 HTML 样式更友好的移动版(把自己的请求头设置成处于移动设备的状态,然后接收网站移动版)。


• 寻找隐藏在 JavaScript 文件里的信息。要实现这一点,你可能需要查看网页加载的JavaScript 文件


• 虽然网页标题经常会用到,但是这个信息也许可以从网页的 URL 链接里获取。


• 如果你要找的信息不只限于这个网站, 那么你可以找找其他数据源。有没有其他网站也显示了同样的数据?网站上显示的数据是不是从其他网站上抓取后攒出来的?


尤其是在面对埋藏很深或格式不友好的数据时, 千万不要不经思考就写代码,一定要三思而后行。

bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("div")[1].find("a")

写出这样的代码不仅缺失美感,而且非常容易失效(当网站管理员对网站稍作修改)


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部