Automa选择网页定位锚点的办法

在使用Automa插件爬取数据的时候经常会遇到锚点选择困难的情况


通常我们使用Automa自带的瞄准镜来选取定位采集数据的锚点,但是经常会遇到选择不准的情况,特别是在循环采集的时候,调试比较麻烦。下面介绍一个选择锚点的方法,就是根据属性值,直接定位锚点。

在这里插入图片描述
1、以百度大数据为例,在需要采集的“热度”数值上点右键,选“检查”菜单项,定位到“热度”这个文本对应的代码,可以看到 124570热度 ,那么 class=“text_1bZ-b” 就是这个字段的类名称,就可以用这个属性的名称来定位。在这里插入图片描述
2、在CSS选择器中写上 [class=‘text_1bZ-b’]即可,顺便把【多选】和【等待选择器】选上,采到的数据放入表格中,实测这里不需要再使用{{loopData@loopid}}来循环了,数据一样能采集到。

在这里插入图片描述
3、流程图是这样的,在采集第一个文本时,是用了 {{loopData@bvUOjB}}.c-color 来循环采集的,第二个文本如第2点所述,没有使用循环参数了。在这里插入图片描述.4、同理,对于各个锚点的定位,可以采用各种属性来定,例如使用id来定位,就在CSS选择器里面输入#kw,这里kw就是这个点位的id,各种属性可看下图参考。
在这里插入图片描述
5、一种方法始终不能包打天下
在采集学科分类时又发现了问题,[本科][理科][心理学类] 这三个字段的id居然是相同的,都是[class=‘tag_2vGZg’],这样的话采集又遇到了问题。用瞄准镜观察,三个字段对应的三个锚点分别是:
div:nth-child(1) > a li:nth-child(1)
div:nth-child(1) > a li:nth-child(2)
div:nth-child(1) > a li:nth-child(3)
这里使用 a li:nth-child(3) 作为CSS选择器的填入内容,并且顺便选上【多选】【等待选择器】,不需要写循环参数,实测采集正常。
在这里插入图片描述
6、Xpath来定位也是一个不错的选择
需要熟悉Xpath的定位知识,采集的数据比较进准清爽。
Xpath的教程

好的办法有很多,这些方法也是在CSDN里面看来的,觉得好用,就整理了放在这里存着。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部