python3请求网页出现乱码

2023-11-23 03:50:24

今天使用python脚本的requests请求一个网页，返回的内容出现了乱码，代码和现象如下图1:

import requestsdef do_post():r =requests.get("xxxxx")if r.status_code != requests.codes.ok:return Noneprint(r.text)

上网搜了解决方案，是页面编码问题导致的，在此做个记录。

1.较为规范的网页，都会在返回头中指明charset，即页面的编码。

比如，我们请求"必应"的首页，返回内容指明了页面编码是utf-8。

而有些网站没有返回charset内容，requests模块会默认其编码为"ISO-8859-1"。该编码显示英文页面没有问题，显示中文则乱码。

2.requests提供了几个参数和函数，可用于获取、记录、设置编码。

r.encoding：记录和设置页面的编码。如返回header里没有charset，则r.encoding = "ISO-8859-1"

r.apparent_encoding：记录了从返回内容中分析出的响应内容编码方式，猜测可能有些网页内容中指明了编码，如图1的第四行。

requests.utils.get_encodings_from_content：requests模块提供的一个函数，从body获取页面编码，注意内容必须是str格式。其功能和上面的差不多

r.content：二进制方式（即bytes方式）的页面响应内容，使用 r.encoding 记录的编码方式进行存储。因为是二进制数据，即一个byte作为一个单位记录信息。

r.text：字符串方式（即str方式）的页面响应内容，在python3中是unicode编码。

r.text和r.content我们可以看下requests的源码，如下：

 @propertydef text(self):"""Content of the response, in unicode.If Response.encoding is None, encoding will be guessed using``chardet``.The encoding of the response content is determined based solely on HTTPheaders, following RFC 2616 to the letter. If you can take advantage ofnon-HTTP knowledge to make a better guess at the encoding, you shouldset ``r.encoding`` appropriately before accessing this property."""# Try charset from content-typecontent = Noneencoding = self.encodingif not self.content:return str('')# Fallback to auto-detected encoding.if self.encoding is None:encoding = self.apparent_encoding# Decode unicode from given encoding.try:content = str(self.content, encoding, errors='replace')except (LookupError, TypeError):# A LookupError is raised if the encoding was not found which could# indicate a misspelling or similar mistake.## A TypeError can be raised if encoding is None## So we try blindly encoding.content = str(self.content, errors='replace')return content

可知在模块中,

判断 r.encoding 是否有值，有值则以此为转换编码
若r.encoding为None，则以 r.apparent_encoding 的值设置为转换编码
根据转换编码，将r.content 转为r.text

注意:python3中默认都是unicode编码，所以unicode编码转为其他编码是encode函数，反之是decode函数。

r.content和r.text可以通过decode/str函数和encode/bytes函数进行互转，即：

r.content.decode(r.encoding) == str(r.content,encoding=r.encoding) == r.text

r.text.encode(r.encoding) == bytes(r.text,encoding=r.encoding) == r.content

我们可以使用代码做下验证：

import requestsdef do_post():r =requests.get("xxxxx")if r.status_code != requests.codes.ok:return Noneprint("r.encoding:", r.encoding)print("r.apparent_encoding:", r.apparent_encoding)print("requests.utils.get_encodings_from_content:", requests.utils.get_encodings_from_content(r.text))print("content to text 1:", r.content.decode(r.encoding) == r.text)print("content to text 2:", str(r.content, encoding=r.encoding) == r.text)print("text to content 1:", r.text.encode(r.encoding) == r.content)print("text to content 2:", bytes(r.text, encoding=r.encoding) == r.content)

打印结果：

3.综合1和2，得到结论和解决方法。

请求的页面没有返回charset，所以 r.encoding是默认的编码"ISO-8859-1"。
实际上，我们从r.apparent_encoding就可以知道，返回的页面是utf-8编码，所以 r.content 的内容是utf-8编码形式的二进制内容
因为 r.encoding 不对，r.text 对 r.content使用 ISO-8859-1 方式进行解码，得到的肯定是乱码

解决方法：

将 r.content 根据正确编码进行转换，或者将r.encoding设置为正确的utf-8内容。

import requestsdef do_post():r =requests.get("xxxxx")if r.status_code != requests.codes.ok:return Noneprint("r.encoding:", r.encoding)print("r.apparent_encoding:", r.apparent_encoding)print("requests.utils.get_encodings_from_content:", requests.utils.get_encodings_from_content(r.text))print("content to text 1:", r.content.decode(r.encoding) == r.text)print("content to text 2:", str(r.content, encoding=r.encoding) == r.text)print("text to content 1:", r.text.encode(r.encoding) == r.content)print("text to content 2:", bytes(r.text, encoding=r.encoding) == r.content)# 方法1,根据编码进行转换resp1 = r.content.decode(r.apparent_encoding)# print(r.text)# 方法2,设置页面的编码r.encoding = r.apparent_encodingresp2 = r.textprint("resp1 and resp2:", resp1 == resp2)print("++++++++++++++++++++++++++++++++++")print("resp:", resp1)

输出结果，不乱码了：

整理了很久，自己也算梳理清楚了。

ps：之前看到返回页面的 Content-Encoding是gzip，还以为是压缩导致的乱码。其实requests的r.content会自动解码 gzip 和 deflate 压缩。

pps：还有一种unicode-escape编码，是将unicode的内存编码值直接存储，在此只为做个提醒。

参考：python中unicode和unicodeescape - 开飞机的贝塔 - 博客园

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > ESP32 网页服务器 webserver jquery js gzip
下一篇 > 优秀网页翻译：ntpi：使用 Raspberry Pi 和GPS模块的精准时间

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python3请求网页出现乱码

1.较为规范的网页，都会在返回头中指明charset，即页面的编码。

2.requests提供了几个参数和函数，可用于获取、记录、设置编码。

3.综合1和2，得到结论和解决方法。

相关文章