【爬虫高阶】豆瓣读书数据存入Mysql数据库

2023-11-22 14:54:44

豆瓣读书数据存入Mysql数据库

1. 豆瓣数据爬取
2. 创建数据库表单
3. 插入数据
4. 全部代码

1. 豆瓣数据爬取

这一部分之前的爬虫专项中已经有详细讲到过，这里直接给出代码如下，保留了输入的图书类型和要爬取页数的接口，需要注意cookie要填写自己计算机的上对应的内容

#coding=utf8from bs4 import BeautifulSoup
import requests
import pandas as pd
from urllib import parse
from doubandb import Book,sessheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36','Cookie': 'll="108296"; bid=b9z-Z1JF8wQ; _vwo_uuid_v2=DDF408830197B90007427EFEAB67DF985|b500ed9e7e3b5f6efec01c709b7000c3; '
} #输入自己的cookiedef get_html(url):html = requests.get(url,headers = headers)if html.status_code == 200:print('正在解析页面......')parse_html(html.text)else:print('ERROR!')def parse_html(text):soup = BeautifulSoup(text,'lxml')books = soup.select('li.subject-item')for book in books:title = book.select_one('.info h2 a').text.strip().replace('\n','').replace(' ','')info = book.select_one('.info .pub').text.replace('\n','').replace(' ','')star = book.select_one('.rating_nums').text.replace('\n','').replace(' ','')pl = book.select_one('.pl').text.replace('\n','').replace(' ','')introduce = book.select_one('.info p').text.replace('\n','').replace(' ','')img = book.select_one('.nbg img')['src']print(title,info)if __name__ == '__main__':keyword = parse.quote(input('请输入要爬取的类型：'))num = eval(input('请输入要爬取的页数：'))for i in range(0,num):url = f'https://book.douban.com/tag/{keyword}?start={i*20}&type=T'get_html(url)

2. 创建数据库表单

这一步是新建一个py文件，然后导入相关的库，创建引擎后加载爬取数据对应的表单，如下

from sqlalchemy import create_engine
from sqlalchemy import Column,String,Integer,Text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base#继承基类
Base = declarative_base()engine = create_engine('mysql+pymysql://root:root@127.0.0.1:3306/test?charset=utf8',echo = True
)#这里就是存入数据，单线程，不需要设置其他参数了#Book类的设置就是与爬取的数据相对应
class Book(Base):__tablename__ = 'book'id = Column('id',Integer,primary_key=True,autoincrement=True)title = Column('title',String(20))info = Column('info',String(30))star = Column('star',String(10))pl = Column('pl',String(10))describe = Column('desc',Text())#加载表单
Base.metadata.create_all(engine)

→ 输出的结果为：（基于之前的表单，又多了一个book表单）
在这里插入图片描述

3. 插入数据

需要在创建引擎的文件加下添加session，如下

session = sessionmaker(engine)
sess = session()

然后在爬虫的文件夹里面导入相应的内容（就是从刚刚创建的引擎和session的文件中导入数据），如下

from doubandb import Book,sess#插入数据库
book_data =Book(title = title,info = info,star = star,pl = pl,introduce = introduce,
)
sess.add(book_data)
sess.commit()

运行之后，如果显示如下内容：

pymysql.err.DataError: (1406, "Data too long for column '字段名' at row 1")

解决方式为：（在命令行下进入mysql后执行下面语句）

SET @@global.sql_mode='';

→ 输出的结果为：（执行爬虫代码后结果如下）
在这里插入图片描述

4. 全部代码

代码分为两个部分，一个douban.py是爬取数据的文件，还有一个doubandb.py是用来设置数据库相关的内容的

① doubandb.py 文件中的代码如下

from sqlalchemy import create_engine
from sqlalchemy import Column,String,Integer,Text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_baseBase = declarative_base()engine = create_engine('mysql+pymysql://root:lx520828@127.0.0.1:3306/test?charset=utf8',echo = True
)class Book(Base):__tablename__ = 'book'id = Column('id',Integer(),primary_key=True,autoincrement=True)title = Column('title',Text())info = Column('info',Text())star = Column('star',Text())pl = Column('pl',Text())introduce = Column('introduce',Text())Base.metadata.create_all(engine)session = sessionmaker(engine)
sess = session()

② douban.py中的代码如下：

#coding=utf8from bs4 import BeautifulSoup
import requests
import pandas as pd
from urllib import parse
from doubandb import Book,sessheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36','Cookie': 'll="108296"; bid=b9z-Z1JF8wQ; _vwo_uuid_v2=DDF408830197B90007427EFEAB67DF985|b500ed9e7e3b5f6efec01c709b7000c3;'
}def get_html(url):html = requests.get(url,headers = headers)if html.status_code == 200:print('正在解析页面......')parse_html(html.text)else:print('ERROR!')def parse_html(text):soup = BeautifulSoup(text,'lxml')books = soup.select('li.subject-item')for book in books:try :title = book.select_one('.info h2 a').text.strip().replace('\n','').replace(' ','')info = book.select_one('.info .pub').text.replace('\n','').replace(' ','')star = book.select_one('.rating_nums').text.replace('\n','').replace(' ','')pl = book.select_one('.pl').text.replace('\n','').replace(' ','')introduce = book.select_one('.info p').text.replace('\n','').replace(' ','')img = book.select_one('.nbg img')['src']print(title,info)#插入数据库book_data =Book(title = title,info = info,star = star,pl = pl,introduce = introduce,)sess.add(book_data)sess.commit()except Exception as e:print(e)sess.rollback()if __name__ == '__main__':keyword = parse.quote(input('请输入要爬取的类型：'))num = eval(input('请输入要爬取的页数：'))for i in range(0,num):url = f'https://book.douban.com/tag/{keyword}?start={i*20}&type=T'get_html(url)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 菜鸟如何在阿里云快速建站（pc站+手机站+公众号+小程序）
下一篇 > python爬虫爬取豆瓣读书首页部分内容

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce