中北大学 - 信息对抗大三下学习课程设计(爬取招标网站，进行招标分析，数据保存execl中)

2023-09-02 07:08:15

文章目录

1. 题目描述
2. 项目细节分析
- 定时爬取任务思路
- 避免多次爬取数据重复问题
- 网站结构
- 根据爬取信息确认招标地区
3. 项目代码
4. 运行截图

1. 题目描述

中北大学信息安全技术爬虫课程设计
题目 5：招投标信息分析系统（20050441 2005031113）

要求：文档内容至少包含系统结构、功能模块图、功能流程图、数据流图。实现语言不限。自动访问http://www.ccgp.gov.cn/获取信息

子题目 1：网络爬虫获取招标信息要求：获取数据数量大于 2 万条，自定义多媒体格式（包括图片、声音、pdf 文件）保存在数据库中。关键字用例可自定义。统计下载数据，过滤数据。能显示、查找数据信息。每 24 小时采集一次。

子题目 2：网络爬虫获取中标信息要求：获取数据数量大于 2 万条，自定义多媒体格式（包括图片、声音、pdf 文件）保存在数据库中。关键字用例可自定义。统计下载数据，过滤数据。能显示、查找数据信息。每 24 小时采集一次。

子题目 3：针对某一地区发出的招标信息进行分析，对该地区可实现画像，自动分析出该地区的招标特点及经济发展水平

子题目 4：对获取到的 pdf 文件进行解码，数据保存入数据库中，在数据库中增删改查。可多条件查询。

这份源代码实现的是子题目 1 和子题目 3

2. 项目细节分析

此项目中的路径均是绝对路径，需要根据实际项目位置修改。修改完路径后点击 autoSpider 即可运行

定时爬取任务思路

24小时爬取功能实现
使用Windows系统自带的任务计划程序来实现定时执行Python程序的功能。具体操作步骤如下：

打开“任务计划程序”，可以在Windows搜索栏中输入“任务计划程序”来打开。

在左侧面板中找到“任务计划程序库”，右键点击并选择“创建任务”。

在弹出的对话框中，输入任务名称并勾选“使用最高权限运行”。

切换到“触发器”选项卡，点击“新建”，设置触发器的具体时间和频率，如每天、每周、每月等。

切换到“操作”选项卡，点击“新建”，在“程序或脚本”一栏中输入bat文件路径

点击“确定”保存设置，任务计划程序会自动执行Python程序，可以在“历史记录”中查看执行情况。
在这里插入图片描述

避免多次爬取数据重复问题

为了避免爬取到重复信息，这里再项目中创建了log.txt文件用来记录爬虫爬取的最新状态，如果今日的爬虫爬取到日志信息状态时，说明已经把最新的信息爬取完毕，直接退出爬虫并且更新信息即可

所以可以分析出，这个项目如果这样设计的话是不支持多线程的
在这里插入图片描述

网站结构

公开招标网站信息比较简单，可以直接通过GET方法获取。

我使用BS4进行解析，因为不同地方的招标信息细节结构可能不一样，但是都是存在同一个div标签下

根据爬取信息确认招标地区

这里选择优先级不同的方式统计，扫描爬取到的信息，按照优先级统计地区出现的次数，最后根据次数最多的城市的省份划分区域

这个项目使用了一个比较大的字典保存信息
在这里插入图片描述

3. 项目代码

由于代码比较多，这里只展示部分，完整项目Github上

from lxml import etree
from Spider.Seleium.msg_xpath import dialog
from Spider.Seleium.tool import unit_tool
from Spider.Seleium.tool import save
import openpyxl as op# 多线程爬虫
from queue import Queuedef setup():# 打开保存文件wb = op.load_workbook('C:\\Users\\30309\\Desktop\\GovSpider\\Spider\\Seleium\\data.xlsx')# print(wb.get_named_ranges())  # 输出工作页索引范围# print(wb.get_sheet_names())  # 输出所有工作页的名称# 取第一张表# ws = wb.get_sheet_names()# table = wb.get_sheet_by_name(ws[0])table = wb.active# print(table.title)  # 输出表名nrows = table.max_row  # 获得行数ncol = table.max_column  # 获得行数print(nrows, ncol)# 读取配置文件head, endLine = save.readLog()# 从配置文件中获取是否添加头部信息have_head = Falseif head.find('True') != -1:have_head = Truedialog_flag = FalseprevLine = []end = False# 爬取第1到第25页数据for page in range(1, 25):root = f'http://www.ccgp.gov.cn/cggg/zygg/gkzb/index_{page}.htm'html = etree.HTML(unit_tool.get_html(root))paths = html.xpath(dialog.href)for path in paths:print(dialog.page_root + path)page_msg = unit_tool.get_html(dialog.page_root + path)list_bs4 = unit_tool.bs4Msg(page_msg)if len(list_bs4) == 0:continuebs4 = list_bs4[0]msg = unit_tool.bs4ToStr(bs4.select('td'))have_file = unit_tool.haveFile(msg)head, val = unit_tool.splitList(msg)unit_tool.findCity(val)if have_file:file_id = unit_tool.getFile(bs4)unit_tool.insertFile(file_id, val)# print(file_id)for sub_url in file_id:file_url = dialog.download_root + sub_url# print(file_url)if not have_head:# 所有文件写入头,头只写一次save.InsertExcel(table, head, nrows)nrows += 1have_head = True# 写入数据if endLine.find(str(val)) != -1:end = Truebreakif not dialog_flag:prevLine = valdialog_flag = Truesave.InsertExcel(table, val, nrows)nrows += 1if end:prevLine = ':'.join(endLine.split(':')[1:])print("Dialog: 今日数据爬取完毕")break# print("DEBUG获取完成")# 写入配置文件save.writeLog(have_head, prevLine)wb.save('data.xlsx')

4. 运行截图

在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 几句话就能写歌，一招搞定文本生成音频
下一篇 > 鹅鹅鹅--

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce