如何爬取企信通数据_给定公司名称excel列表在天眼查搜索爬取企业工商信息
给定公司名称
excel
列表,在天眼查搜索爬取企业工商信息
上一篇写了天眼查公司详情页单页面爬取公司基本信
息(简单爬取天眼查数据)
,这里改进一步。需求提供公司
名称,需要获取公司工商注册信息,欲查找的公司名称存储
在
excel
里。步骤分解
1.
读取
excel
数据(
1
)打开工作簿
import xlrddef open_excel(file):try: book =
xlrd.open_workbook(file)return bookexcept Exception as
e:print ('
打开工作簿
'+file+'
出错:
'+str(e))
(
2
)
读取工作簿中
所有工作表
def read_sheets(file):try: book =
open_excel(file) sheets = book.sheets()return
sheetsexcept Exception as e:print ('
读取工作表出错:
'+str(e))
(
3
)读取某一工作表中数据某一列的数据
def
read_data(sheet, n=0): dataset = []for r in
range(sheet.nrows): col = sheet.cell(r, n).value
dataset.append(col)return dataset2.
打开浏览器因为是采用
selenium+
浏览器,首先先打开浏览器(可用火狐、谷歌等
浏览器,只要配置好环境)
,这里采用了
phantomjs
这个无
头浏览器,并使用了
useragent
代理。此外,
service_args
参数可调用
ip
代理。
from selenium import webdriverfrom
selenium.webdriver.common.desired_capabilities import
DesiredCapabilitiesdef driver_open(): dcap =
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
