使用python来抓包网页华为应用市场的评论和星级
使用python来抓包网页华为应用市场的评论和星级
简介
因为需要一些评论的数据文本,所以就研究了一下爬虫,但是一些网页不需要爬虫就可以获取到数据,通过抓包的方式直接可以获取到json,解析json并进行存储即可。推荐大家使用postman抓包工具进行辅助分析。废话不多说直接上代码。
import urllib
import json
import requests
import collections
import xlwtif __name__ == '__main__':##创建一个excel表workbook = xlwt.Workbook(encoding="utf-8")worksheet = workbook.add_sheet('sheet1')##滴滴的评论网页,最后一个数据是当前页数,因为要构造翻页获取所以把那个参数给去掉,后面循环构造页数baseurl = r'https://web-drcn.hispace.dbankcloud.cn/uowap/index?method=internal.user.commenList3&serviceType=20&maxResults=25&appid=C100200867&version=10.0.0&zone=&locale=zh&reqPageNum='# 发送get请求row=0for i in range(1,7):##循环构造页数url = str(baseurl)+str(i)## 每页的urlr = requests.get(url)# 获取返回的json数据##实现python类型转化为json字符串,返回一个str对象 把一个Python对象编码转换成Json字符串##把Json格式字符串解码转换成Python对象 从json到python的类型转化对照如下:s1 = json.loads(r.text)## json字符串解析为python对象commonList = s1['list']for i in range(0, len(commonList)):message = commonList[i]['commentInfo']stars = commonList[i]['stars']##把评论写在第2列worksheet.write(row, 1, message)##把评论写在第1列worksheet.write(row, 0, stars)row = row + 1print(commonList[i]['commentInfo'])##保存excel到当前目录下的didi.xlsworkbook.save('didi.xls')
其他的华为应用市场网页版的数据类似,大家可以直接去华为应用市场网页版找到想要的数据进行分析。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
