python爬虫设置User-Agent解决HTTPError: HTTP Error 403: Forbidden

python读取网页常用以下两个方式:
from urllib.request import urlopen
在这里插入图片描述

import requests
在这里插入图片描述
urlopen使用read()方法,requests使用text属性即可。

解析使用
from bs4 import BeautifulSoup
soup=BeautifulSoup(content, ‘lxml’)

但是,当启动程序打开一个URL时,如果不设置userAgent,服务器获取不到request的浏览器类型、操作系统、硬件平台等信息,无法得知发送这个请求的是浏览器,往往判定这是非正常的访问,如spider程序,则可能会出现
HTTPError: HTTP Error 403: Forbidden

因此,F12打开开发者工具,选择Network,搜索User-Agent,找到对应的信息,复制下来,设置给header属性,这样就可以顺利访问了。
在这里插入图片描述
把这个字符串赋值给header即可。
在这里插入图片描述
最后,在请求访问时就可以获取正常的网页内容解析了。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部