Python数据爬虫学习笔记(3)爬取豆瓣阅读的出版社名称数据
需求:写一个Python程序,实现获取豆瓣阅读网页上的所有出版社名称,并储存在指定路径的txt文件中,如下:
准备:观察该网页的源代码,注意到每个出版社名称都由固定格式的div所包裹,如下:
编写代码:
import urllib.request
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
data=data.decode("utf-8") #注意对汉字要进行编码
import re
pat='(.*?)'
mydata=re.compile(pat).findall(data)
#得到一个数组mydata:['博集天卷', '北京邮电大学出版社',........]
fh=open("F:/22.txt","w")
for i in range(0,len(mydata)):fh.write(mydata[i]+"\n")
fh.close()
结果:
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
