爬虫实例:爬取一个网页上的图片地址
读取一个网页的源代码:
import urllib.request
def getHtml(url):html=urllib.request.urlopen(url).read()return html
print(getHtml("http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip"))
利用正则表达式爬取一个网页上的图片地址:
import re
import urllib.request
def getHtml(url):html=urllib.request.urlopen(url).read()return html
def getImg(html):r=r'"thumbURL":"(http://img.+?\.jpg)"' #定义正则imglist=re.findall(r,html)return imglist
html=str(getHtml("http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip"))
print(getImg(html))
运行结果:
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
