Python爬虫时翻页等操作URL不会改变的解决办法--以爬取携程景点点评信息为例

2023-11-22 22:48:21

一、需求：

需要爬取携程的五四广场景点主页的用户点评信息。

二、爬虫时可能遇到的问题：

评论信息虽然可以在该页的源代码中获取到：

但是存在许多问题，例如：

1、评论翻页、修改评论排序方式（智能排序、有用数排序、按时间排序）并不会改变当前页的URL。

2、使用Fiddler等的抓包工具，虽然能够找到该网页用来进行评论数据传输的文件AsynCommentView的URL，但是发现翻页以及修改评论排序方式同样不会改变URL。

3、得出结论，评论信息是“动态加载的”。

三、问题分析：

1、观察景点页面的源代码，注意到关键代码：

这行代码直接说明了，该网页的评论信息是通过POST服务的形式，向评论数据传输文件AsynCommentView的URL发送POST请求，然后获取返回的评论数据。

2、通过Chrome内核浏览器的F12工具，切换到network查看一下传输的内容，首先清空内容避免干扰，然后点击翻页或者切换排序方式，切换到Headers我们可以看到：

发送的请求信息无处遁形~

4、那么问题来了，请求的内容参数该如何设置呢？

（1）order以及pagenow：顾名思义，是排序方式（按时间：1 ，有用数：2，智能：3）以及当前页码。

（2）star、tourist：测试发现使用0.0即可。

（3）poiID、districtId、districtEName、resourceId、resourcetype：无法轻易判断，但是通过观察网页源代码：

发现源代码帮了大忙，他会把默认的参数储存，可以通过爬取这些参数来进行填充。

3、因此可以初步思考爬虫的解决思路：即使用自动模拟HTTP请求来解决，具体可参考我的另一篇博客：

Python数据爬虫学习笔记（5）自动模拟HTTP请求

三、编写代码：

import re
import urllib.request
import urllib.parse#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6726.400 QQBrowser/10.2.2265.400")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)#设置URL为当前景点页面并获取内容
baseUrl="http://you.ctrip.com/sight/Qingdao5/5326.html#ctm_ref=www_hp_bs_lst"
pagedata=urllib.request.urlopen(baseUrl).read().decode("utf-8","ignore")#爬取页面中的POST参数信息并进行处理
poiIDPat='var poiid = "(.*?)"'
districtIdPat='var districtid = "(.*?)"'
districtENamePat='var districtename = "(.*?)"'
resourceIdPat='var resourceid = "(.*?)"'
resourcetypePat='var resourcetype = "(.*?)"'poiID=int(re.compile(poiIDPat,re.S).findall(pagedata)[0])
districtId=int(re.compile(districtIdPat,re.S).findall(pagedata)[0])
districtEName=re.compile(districtENamePat,re.S).findall(pagedata)[0]
resourceId=int(re.compile(resourceIdPat,re.S).findall(pagedata)[0])
resourcetype=int(re.compile(resourcetypePat,re.S).findall(pagedata)[0])
order=1 #排序方式，此处设置为按时间排序
star=0.0
tourist=0.0#设定数据传输文件的URL，当Post网址无法轻易找到时，可以使用抓包分析
url="http://you.ctrip.com/destinationsite/TTDSecond/SharedView/AsynCommentView"
comments=[]#存储所有评论的列表
#以爬取评论前30页为例
for i in range(1,31):#设定Post的值mydata=urllib.parse.urlencode({"poiID":poiID,"districtId":districtId,"districtEName":districtEName,"pagenow":i,"order":order,"star":star,"tourist":tourist,"resourceId":resourceId,"resourcetype":resourcetype}).encode("utf-8")#发送POST请求进行爬取req=urllib.request.Request(url,mydata)commentdata=urllib.request.urlopen(req).read().decode("utf-8","ignore")commentPat='(.*?)'#获得当前页评论并存储comment=re.compile(commentPat,re.S).findall(pagedata)comments.extend(comment)#写入txt文件
file_handle=open('E:/comment.txt',mode='w')
for j in range(0,len(comments)):text = "评论内容："+comments[j] + '\n\n'  file_handle.write(text)
file_handle.close()

四、爬取结果：

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 使用GeoLite2库根据IP判断国家名称
下一篇 > java爬取携程景点门票的评论数据信息门票评价信息爬取

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python爬虫时翻页等操作URL不会改变的解决办法--以爬取携程景点点评信息为例

相关文章