Python并发请求下限制QPS(每秒查询率)实现

2023-08-27 05:17:07

这篇博文包含着不少错误。
保留这篇博文，记录我漫漫求学路上走过的弯路和犯过的错误。

前两天有一个需求，需要访问某API服务器请求数据，该服务器限制了QPS=2，因为QPS很小所以就使用阻塞式请求。后来开通了服务，QPS提高到了20，阻塞式请求满足不了这个QPS了，于是使用了GRequests来并发请求数据，但这里又遇到了一个问题：并发太快，服务器通过发送错误码拒绝了很多数据的响应，造成了资源的浪费。
故在此记录以下几种 节流(Throttle) 方法：

以下均假设有如下包和数据前提：

import grequestsurls = ["https://www.baidu.com","https://www.google.com"
]
requests = [grequests.get(url)for url in urls
] * 1000rate = 20  # 表示 20 请求/秒

`time.sleep(1)`

这是最简单的方法，通过time.sleep(1)阻塞进程来控制每秒并发数量。用公式表达如下： $T i m e = 请求准备时延 + 请求发送时延 + t i m e . s l e e p (1)$ 但是这种方法有一个较小的问题：不精确 。数据量越大，误差越大。

from time import sleepreq_groups = [requests[i: i+rate]for i in range(0, len(requests), rate)
]ret = []
for req_group in req_groups:ret += grequests.map(req_group)sleep(1)print(ret)

`令牌桶(token bucket)方法`

这种方法较精确，可以确保误差不超过±1（当然前提是你的电脑和目标服务器都能承受的了高并发）。以下是耗时的公式表示： $T i m e = 请求准备时延 + 请求发送时延 + 令牌桶阻塞时延$ $令牌桶阻塞时延 \approx 1 - 请求准备时延 + 请求发送时延$ 这种方法当然也有一点缺陷，CPU看起来会很高（这是由于 while pass），尽管CPU真实使用率很低。

from time import timeclass Throttle:def __init__(self, rate):self.rate = rateself.tokens = 0self.last = 0def consume(self, amount=1):now = time()if self.last == 0:self.last = nowelapsed = now - self.lastif int(elapsed * self.rate):self.tokens += int(elapsed * self.rate)self.last = nowself.tokens = (self.rateif self.tokens > self.rateelse self.tokens)if self.tokens >= amount:self.tokens -= amountelse:amount = 0return amountthrottle = Throttle(rate)req_groups = [requests[i: i+rate]for i in range(0, len(requests), rate)
]ret = []
for req_group in req_groups:while throttle.consume():pass  # 阻塞，获得令牌才能进行并发请求ret += grequests.map(req_group)print(ret)

`GRequests-Throttle`

这是一个使用令牌桶(token bucket)方法进行封装的GRequests修改版，使用方法很简单：
首先安装grequests-throttle(清华镜像源更新较慢，推荐使用阿里镜像源)

pip install grequests-throttle

import grequests_throttle as gtret = gt.map(requests, rate=rate)
print(ret)

总结

如果并发请求数量较小，可以考虑使用time.sleep(1)简单快捷；当并发请求数量较大时，使用令牌桶(token bucket)方法能最大化利用每一秒；如果不想写太多代码，可以使用GRequests-Throttle包进行请求流量控制。
注：一般情况下，普通家用电脑使用基于Requests包的并发请求，最大并发量在20~30之间，所以使用并发数量设置太大并没有并没有什么意义。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 限制一个IP 重复请求相同URL 指定时间段请求次数
下一篇 > php限制ip访问次数并发_php nginx限制ip请求次数以及并发次数

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python并发请求下限制QPS(每秒查询率)实现

time.sleep(1)

令牌桶(token bucket)方法

GRequests-Throttle

总结

相关文章

`time.sleep(1)`

`令牌桶(token bucket)方法`

`GRequests-Throttle`