网易云课堂【Python网络爬虫实战】笔记

2023-11-24 21:16:22

1.requests发送请求，BeautifulSoup剖析页面

PS：requests使用文档

import requests
from bs4 import BeautifulSoup
url='http://news.sina.com.cn/c/nd/2018-04-17/doc-ifzfkmth5545198.shtml'
res=requests.get(url)
res.encoding='utf-8'#网页乱码问题
soup=BeautifulSoup(res.text,'html.parser')#使用html解析器解析请求内容

2.抓取新闻内容详情

使用浏览器的开发者工具，分析页面中的元素和结构

使用BeautifulSoup的select方法获取页面中的元素，返回的是一个list列表

①获取标题

soup.select('.main-title')[0].text    #通过select方法获取到标签列表，通过下标[0]取得列表中的元素

②获取时间

PS：视频当时的页面元素中，时间信息没有类选择器，包含在通过.date-source筛选出来的span标签下，通过contents取得

from datetime import datetime
time=soup.select('.date-source')[0].contents[1].text    #contents获取元素集合中的每个元素
dt=datetime.strptime(time,'%Y年%m月%d日%H:%M:%S')    #通过datetime的strptime将日期字符串转换为时间
timesource=dt.strftime('%Y%m%d %H:%M:%S')    #通过strftime将日期格式转换为格式化的时间格式字符串

③获取编辑

soup.select('.show_author')[0].text.lstrip('责任编辑：')    #lstrip()去除字符

④获取文章

article=[]
for p in soup.select('#article p')[:-2]:#取得ID选择器下的标签元素，从元素集合中取得第一个到倒数第3个article.append(p.text.strip())    #将取得的段落元素内容通过strip()去除空格之后加入到列表中
''.join(article)    #将列表中的元素通过join连接，得到完成的文章

⑤获取评论数

评论数从js中的接口获得，且通过观察评论数的接口链接与新闻链接相关，整合成一个函数

import re
import json
def getComment(url):    #url为新闻详情链接#通过观察获取评论的接口链接如下，末尾花括号{}可带入参数commentforurl='http://comment5.news.sina.com.cn/page/info?version=1&format=json&channel=gn&newsid=comos-{}'newsid=re.search('doc-i(.+).shtml',url).group(1)    #用到正则表达式需导入re，通过观察用search()得到作为关联的newsid；#newsid=url.split('/')[-1].lstrip('doc-i').rstrip('.shtml')    #也可通过split()和stripcommenturl=requests.get(commentforurl.format(newsid))    #通过format()得到完成的接口链接jd=json.loads(commenturl.text.lstrip('jsonp_1523978275766(').rstrip(')'))#导入json模块，通过loads()将处理后的字串转化为字典comment=jd['result']['count']['total']return comment

3.将新闻详情整合成一个函数，将新闻中的标题、时间、编辑、文章和评论数，保存至字典中

def getNewsDetail(url):res=requests.get(url)res.encoding='utf-8'result={}soup=BeautifulSoup(res.text,'html.parser')result['title']=soup.select('.main-title')[0].texttime=soup.select('.date-source')[0].contents[1].textdt=datetime.strptime(time,'%Y年%m月%d日%H:%M:%S')result['time']=dt.strftime('%Y%m%d %H:%M:%S')result['editor']=soup.select('.show_author')[0].text.lstrip('责任编辑：')article=[]for p in soup.select('#article p')[:-2]:article.append(p.text.strip())result['article']= ''.join(article)result['comment']=getComment(url)return result

4.取得将新闻列表的每个新闻链接带入到新闻详情函数，将返回的新闻详情保存至列表

def getLinklist(url):#url为每页新闻列表链接res=requests.get(url)jd=json.loads(res.text.lstrip('  newsloadercallback(').rstrip(');'))linkdetaillist=[]for links in jd['result']['data']:#获取新闻列表中的新闻链接linkdetaillist.append(getNewsDetail(links['url']))#调用新闻详情链接，将结果保存至列表中
return linkdetaillist

5.将批次抓取的每页新闻列表整理至list中，使用Pandas整理保存为excel文件

import pandas
url='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}'
news_total=[]
for i in range(1,3):newsurl=url.format(i)newsary=(newsurl)news_total.extend(newsary)#extend()函数在列表中添加newsary中的多个值
df=pandas.DataFrame(news_total)
df.to_excel('news.xlsx')    #保存至当前目录下，文件为news.xlsx

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

网易云课堂【Python网络爬虫实战】笔记

相关文章