Python selenium爬取协程酒店评论

2023-11-23 02:01:25

try:wrong = timeout.until(EC.presence_of_element_located((By.NAME, 'nav-bar-d-info')))if (wrong.text == None):print("wrong.text None")else:pass
except:code = timeout.until(EC.presence_of_element_located((By.ID, 'nerr')))if(code.text != None):print(code.text)input("请手动输入验证码后按回车继续")browser.find_element_by_id("nsubmit").click()

爬取评论

只做了爬取评论没做提取酒店信息，酒店信息应该更简单。
评论用BeautifulSoup，提取p标签和span标签。
保存用pandas保存为csv

一个评论的div：
在这里插入图片描述评论详情：

评论内容：

评论图片直接找img标签，找到的第一个是头像，判断找到的img的数量再保存即可。

所有代码

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
'''
@File    :   exp3.py    
@Contact :   nickdlk@outlook.com@Modify Time            @Author    @Version    @Desciption
------------            -------    --------    -----------
2021/6/12 22:30         Nick      1.0         None'''
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
ACCOUNT = ""
PASSWORD = ""
if(ACCOUNT=="" or PASSWORD==""):exit("请输入账号密码")options = webdriver.ChromeOptions()
prefs = {'profile.default_content_setting_values':{'notifications': 2}
}
options.add_experimental_option('prefs', prefs)  # 关掉浏览器左上角的通知提示
options.add_argument("disable-infobars")  # 关闭'chrome正受到自动测试软件的控制'提示
browser = webdriver.Chrome(chrome_options=options)
browser.implicitly_wait(10)#隐性等待 只需设置一次
timeout = WebDriverWait(browser, 10)#############
browser.get('https://passport.ctrip.com/user/login')
browser.maximize_window()browser.find_element_by_id("nloginname").send_keys(ACCOUNT)
browser.find_element_by_id("npwd").send_keys(PASSWORD)browser.find_element_by_id("nsubmit").click()try:wrong = timeout.until(EC.presence_of_element_located((By.NAME, 'nav-bar-d-info')))if (wrong.text == None):print("wrong.text None")else:pass
except:code = timeout.until(EC.presence_of_element_located((By.ID, 'nerr')))if(code.text != None):print(code.text)input("请手动输入验证码后按回车继续")browser.find_element_by_id("nsubmit").click()browser.implicitly_wait(5)
browser.get('https://hotels.ctrip.com/hotels/detail/?hotelId=5276576')#跳转到酒店页面def get_comment(browser):soup = BeautifulSoup(browser.page_source, "lxml")review = soup.find_all("div", attrs={'class': 'm-reviewCard-item'})reviewlist = []for r in review:span = r.find_all("span")rvw = r.find_all("p")img = r.find_all("img")_r = {"房间类型": span[0].text,"入住时间": span[1].text,"出游类型": span[2].text,"总评论数": span[3].text,"用户名称": rvw[0].text,"评论内容": rvw[1].text,"图片": ""}if (len(img) > 1):for i in img[1:]:_r["图片"] = _r["图片"] + ";" + str(i.attrs["src"])  # 取图片地址reviewlist.append(_r)return reviewlistbrowser.get('https://hotels.ctrip.com/hotels/detail/?hotelId=5276576')
browser.implicitly_wait(10)
time.sleep(0.1)
# 设置爬取的评论页数
pagenum = 360
reviewlistAll = []
for n in range(pagenum):_reviewlist  = get_comment(browser)#爬取评论数据reviewlistAll = reviewlistAll+_reviewlistbrowser.find_element_by_xpath('//i[@class="u-icon u-icon-arrowRight"]').click()# 隐式等待方式，10秒browser.implicitly_wait(10)# 强制等待0.1秒，保险起见print("第{}页".format(n))time.sleep(0.1)import pandas as pd
df_write = pd.DataFrame(reviewlistAll)
df_write.to_csv('review.csv', index=False, encoding="utf_8_sig")

结果：
在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Cesium增加导航罗盘
下一篇 > 【NLP】中文酒店评论语料文本数据分析

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python selenium爬取协程酒店评论

登录

爬取评论

所有代码

相关文章