python webviewer爬虫_Python：的web爬虫实现及原理(BeautifulSoup工具)

2023-09-01 07:36:45

最近一直在学习python，学习完了基本语法就练习了一个爬虫demo，下面总结下。

主要逻辑是

1)初始化url管理器，也就是将rooturl加入到url管理器中

2)在url管理器中得到新的new_url

3)根据新new_url得到它的内容html_cont　　(工具 urllib.request.urlopen(url))

4)解析这个新页面的内容html_cont并得到新的子url，并保存解析内容结果 (利用BeautifulSoup工具)

5)将新得到的子url保存到url管理器

6)迭代2-5步骤，知道输出某个阈值的数量即可停止

7)输出爬去的结果

注意编码问题，一致为UTF-8　--　　　.decode('UTF-8')

BeautifulSoup工具的安装方式：进入Python3.x\Script下输入指令 pip install beautifulsoup4

主页面spider_main.py:

'''Created on 2016-3-30@author: rongyu'''frombike_spider import url_manager, html_downloader, html_parser, html_outputerclass SpiderMain(object):

def __init__(self):

self.urls=url_manager.UrlManager()

self.downloader=html_downloader.HtmlDownloader()

self.parser=html_parser.HtmlParser()

self.outputer=html_outputer.HtmlOutputer()

def craw(self, root_url):

count= 1self.urls.add_new_url(root_url)whileself.urls.has_new_url():try:

new_url=self.urls.get_new_url()

print ('craw %d:%s'%(count,new_url))

html_cont=self.downloader.download(new_url)

new_urls,new_data=self.parser.parse(new_url,html_cont)

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)if count == 100:breakcount= count + 1except:

print('craw failed')

self.outputer.output_html()

#主程序入口if __name__=="__main__":

root_url= "http://baike.baidu.com/view/21087.htm"obj_spider=SpiderMain()

obj_spider.craw(root_url)　　　　#根据url开始爬取

url管理器页面UrlManager.py

'''Created on 2016-3-30@author: rongyu'''

class UrlManager(object):

def __init__(self):

self.new_urls= set()

self.old_urls= set()

def add_new_url(self,url):if url isNone:return

if url not in self.new_urls and url not inself.old_urls:

self.new_urls.add(url)

def has_new_url(self):return len(self.new_urls) != 0def get_new_url(self):

new_url=self.new_urls.pop()

self.old_urls.add(new_url)returnnew_url

def add_new_urls(self,urls):if urls is None or len(urls) == 0:return

for url inurls:

self.add_new_url(url)

下载器页面 HtmlDownloader.py

import urllib.requestclass HtmlDownloader(object):

def download(self,url):if url isNone:returnNone

response=urllib.request.urlopen(url)return response.read().decode('UTF-8')

解析器页面HtmlParser.py

frombs4 import BeautifulSoup

import re

import urllib.parseclass HtmlParser(object):

def _get_new_urls(self, page_url, soup):

new_urls= set()

#/view/234.htm

links= soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))for link inlinks:

new_url= link['href']

new_full_url=urllib.parse.urljoin(page_url,new_url)

new_urls.add(new_full_url)returnnew_urls

def _get_new_data(self, page_url, soup):

res_data={}

#url

res_data['url'] =page_url

Python

title_node= soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")

res_data['title'] =title_node.get_text()

summary_node= soup.find('div',class_="lemma-summary")

res_data['summary'] =summary_node.get_text()returnres_data

def parse(self,page_url,html_cont):if page_url is None or html_cont isNone:returnsoup= BeautifulSoup(html_cont,'html.parser',from_encoding='UTF-8')

new_urls=self._get_new_urls(page_url,soup)

new_data=self._get_new_data(page_url,soup)returnnew_urls,new_data

输出器的代码HtmlOutputer.py

class HtmlOutputer(object):

def __init__(self):

self.datas=[]

def collect_data(self,data):if data isNone:

#print("collect_data -data is none!")returnself.datas.append(data)

#print(self.datas)

def output_html(self):

fout= open('output.html','w')

fout.write("")

fout.write("

%s"%data['url'].encode('UTF-8'))

fout.write("

%s"%data['title'].encode('UTF-8'))

fout.write("

%s"%data['summary'].encode('UTF-8'))

fout.write("

fout.write("")

实验结果：

控制台输出

B0jkEIO83A06AAAAAElFTkSuQmCC

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python webviewer爬虫_Python：的web爬虫实现及原理(BeautifulSoup工具)

Python

相关文章