python爬取豆瓣电影Top250（小白系列）

2023-08-10 03:20:03

本文是作者在通过B站跟着李巍老师学习以后所写，记一次学习笔记，自己为了方便自己以后回顾模仿。
本文是最终爬取排行榜，相关知识储备在我的微信公共号（名称：PromisingQ）已发，后续还会不定期更新：

公众号名称：PromisingQ
话不多说，直接上代码（代码中备注较多，有看不懂得可以公众号私信我）：

#-*- coding = utf-8 -*-
from bs4 import BeautifulSoup      #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error  #制定url，获取网页数据
import xlwt     #进行excel操作
import sqlite3  #进行sqlite数据库操作#1.爬取网页
#2.逐一解析数据
#3.保存数据def main():baseurl = "https://movie.douban.com/top250?start="#1.爬取网页datalist = getData(baseurl)#savepath = "./"        #当前文件夹savepath = ".\\豆瓣电影Top250.xls"        #文件系统#3.保存数据saveData(datalist,savepath)#影片详情链接的规则
findLink = re.compile(r'')     #创建正则表达式对象，表示规则（字符串模式）
#影片图片
findImgSrc = re.compile(r',re.S)  #re.S让换行符包含在字符中
#影片的片名
findTitle = re.compile(r'(.*)')
#影片的评分
findRating = re.compile(r'(.*)')
#评价人数
findJudge = re.compile(r'(\d*)人评价')
#概况
findInq = re.compile(r'(.*)')
#影片的相关内容
findBd = re.compile(r'(.*?)
',re.S)#爬取网页
def getData(baseurl):datalist = []for i in range(0,10):           #调用获取页面信息的函数 10 次url = baseurl + str(i*25)html = askURL(url)          #保存获取到的网页源码#print(html)#2.逐一解析数据soup = BeautifulSoup(html,"html.parser")for item in soup.find_all('div',class_="item"):     #查找符合要求的字符串，形成列表#print(item)data = []       #保存一部电影的所有信息item = str(item)#获取影片的超链接link = re.findall(findLink,item)[0]             #re库用来通过正则表达式查找指定字符串   #print(link)                                    #[0]表示只要可能的多个匹配对象的第一个data.append(link)                               #添加链接imgsrc = re.findall(findImgSrc,item)[0]data.append(imgsrc)titles = re.findall(findTitle,item)             #p片名可能只有一个中文名，没有外国名if(len(titles) == 2):ctitle = titles[0]data.append(ctitle)                         #添加中文名otitle = titles[1].replace("/","")          #去掉无关符号/data.append(otitle)                         #添加外国名else:data.append(titles[0])data.append(' ')                            #外国名留空rating = re.findall(findRating,item)[0]data.append(rating)judgeNum = re.findall(findJudge,item)[0]data.append(judgeNum)inq = re.findall(findInq,item)if(len(inq)) != 0:                              #可能为空inq = inq[0].replace("。","")               #去掉 。data.append(inq)else:data.append(' ')bd = re.findall(findBd,item)[0]bd = re.sub('," ",bd)          #去掉
bd = re.sub('/'," ",bd)                         #去掉/data.append(bd.strip())                         #去掉前后的空格datalist.append(data)                           #把处理好的一部电影信息放入；list#print(data)return datalist#得到指定一个url的网页内容
def askURL(url):head = {                     #模拟浏览器头部信息，向豆瓣服务器发送信息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}       #用户代理，告诉豆瓣服务器我们是什么类型的机器、浏览器（本质上是告诉浏览器我们可以接收什么水平的内容）request = urllib.request.Request(url,headers = head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")#print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html#3.保存数据
def saveData(datalist,savepath):print('save...')book = xlwt.Workbook(encoding = "utf-8",style_compression = 0)        #创建workbook对象sheet = book.add_sheet('豆瓣电影top250',cell_overwrite_ok = True)            #创建工作表,可覆盖col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")for i in range(0,8):sheet.write(0,i,col[i])#列名for i in range(0,250):print("第%d条："%(i+1))data = datalist[i]for j in range(0,8):sheet.write(i+1,j,data[j])  #数据book.save(savepath)   #保存if __name__ == "__main__":      #当程序执行时
#调用函数main()print("爬取完毕！")

运行结果如下图所示：

最后附上公众号的二维码，大家一起探讨，一起进步！

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Spring Cloud 第十五天
下一篇 > 小白学python（豆瓣爬虫）

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python爬取豆瓣电影Top250（小白系列）

相关文章