python 爬虫 如何用selenium抓取网页内容

使用selenium爬取动态网页信息

Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击、跳转页面、搜索框的输入、页面的价值数据存储、mongodb自动id标识等等等。
首先介绍一下 Python selenium —自动化测试工具,用来控制浏览器来对网页的操作,在爬虫中与BeautifulSoup结合那就是天衣无缝,除去国外的一些变态的验证网页,对于图片验证码我有自己写的破解图片验证码的源代码,成功率在85%。

使用conda管家安装:
在cmd命令行输入“conda install selenium”进行安装
还需要安装谷歌浏览器插件Google Chrome Drive或者火狐浏览器插件
设置环境变量

通过selenium访问百度

from selenium import webdriver
#打开一个浏览器
browser = webdriver.Chrome()
#准备一个网址
url = 'http://www.baidu.com'browser.get(url)
#获取元素
login = browser.find_elements_by_class_name('lb')[0]
print(login)

获取网易云音乐


from selenium import webdriver#打开浏览器
brower = webdriver.Chrome()
url='https://music.163.com/#/discover/toplist'
brower.get(url)#寻找logo文字
#logo = brower.find_elements_by_class_name('


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部