python模拟登录爬虫简书_python爬虫模拟豆瓣登录

2023-11-22 16:27:25

好几天过去了，终于可以更新第二篇爬虫，这次想用python爬虫模拟登陆豆瓣并爬取主页上精选内容的标题部分，确认登录成功。

前期分析

首先我们要模拟登陆豆瓣就必须先知道真实的用户登录豆瓣是个什么流程。因此我们可以打开chrome浏览器开发者工具抓包分析，豆瓣的网站登录流程以及需要post的对应的信息。这边以豆瓣为实例：

2cb083d78fed

post数据

这就是我们需要提交的信息，包括用户名和密码，以及验证码和验证码的ID，想要模拟豆瓣登录就要构造一个相同的post请求。

工具使用

这一次我们会使用resquests这个库了，因为requests直接省去了urllib和urllib2的很多麻烦，省去了很多冗余的代码，如果不熟悉可以去官网去查看。Requests

另外还需要对bs4有一定的了解，会省去不少麻烦，以及RE正则表达式，这里快捷下帮助文档。 BeautifulSoup

基本框架

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import urllib

import re

url = 'https://accounts.douban.com/login'

#构造post数据

data={

'redir': 'https://www.douban.com/people/138461169/',

'form_email':'xxxxxx',

'form_password':'xxxxxx',

'login':u'登录'

}

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

r = requests.post(url, data, headers=headers)

page = r.text

#利用bs4获得验证码图片地址

soup = BeautifulSoup(page,"html.parser")

captcha_url = soup.find('img',id='captcha_image')['src']

#利用正则获得验证码ID

pattern = re.compile('

captcha_id = re.findall(pattern, page)

#将验证码图片保存到本地

urllib.urlretrieve(captcha_url,"captcha.jpg")

captcha = raw_input('please input the captcha:')

data['captcha-solution'] = captcha

data['captcha-id'] = captcha_id

r = requests.post(url, data=data, headers=headers)

page = r.text

测试打开本地验证码图片，输入。

2cb083d78fed

登录成功

登录成功抓取标题

成功登录后需要爬取热门精选的标题

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup

import urllib

import re

url = 'https://accounts.douban.com/login'

data={

'redir': 'https://www.douban.com/',

'form_email':'xxxxxx',

'form_password':'xxxxxx',

'login':u'登录'

}

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

r = requests.post(url, data, headers=headers)

page = r.text

soup = BeautifulSoup(page,"html.parser")

captcha_url = soup.find('img',id='captcha_image')['src']

pattern = re.compile('

captcha_id = re.findall(pattern, page)

urllib.urlretrieve(captcha_url,"captcha.jpg")

captcha = raw_input('please input the captcha:')

data['captcha-solution'] = captcha

data['captcha-id'] = captcha_id

r = requests.post(url, data=data, headers=headers)

page = r.text

soup = BeautifulSoup(page,"html.parser")

result = soup.findAll('div',attrs={'class':'title'})

# print result

for item in result:

print item.find('a').get_text()

原网页内容：

2cb083d78fed

网页内容

下图就是抓取到的内容：

2cb083d78fed

标题内容

到这里已经完成了初步的脚本，因为实验暂时做到这。

面向对象改写代码

数据库存储

这俩块还需要完善更新...

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > python模拟登录爬虫简书_Python爬虫入门-表单提交与模拟登录
下一篇 > 简书文章发布到GitHub

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python模拟登录爬虫 简书_python爬虫模拟豆瓣登录

相关文章

python模拟登录爬虫简书_python爬虫模拟豆瓣登录