Python并发请求下限制QPS(每秒查询率)实现
这篇博文包含着不少错误。
保留这篇博文,记录我漫漫求学路上走过的弯路和犯过的错误。
前两天有一个需求,需要访问某API服务器请求数据,该服务器限制了QPS=2,因为QPS很小所以就使用阻塞式请求。后来开通了服务,QPS提高到了20,阻塞式请求满足不了这个QPS了,于是使用了GRequests来并发请求数据,但这里又遇到了一个问题:并发太快,服务器通过发送错误码拒绝了很多数据的响应,造成了资源的浪费。
故在此记录以下几种 节流(Throttle) 方法:
以下均假设有如下包和数据前提:
import grequestsurls = ["https://www.baidu.com","https://www.google.com"
]
requests = [grequests.get(url)for url in urls
] * 1000rate = 20 # 表示 20 请求/秒
time.sleep(1)
这是最简单的方法,通过time.sleep(1)阻塞进程来控制每秒并发数量。用公式表达如下: T i m e = 请 求 准 备 时 延 + 请 求 发 送 时 延 + t i m e . s l e e p ( 1 ) Time = 请求准备时延 + 请求发送时延 + time.sleep(1) Time=请求准备时延+请求发送时延+time.sleep(1) 但是这种方法有一个较小的问题:不精确 。数据量越大,误差越大。
from time import sleepreq_groups = [requests[i: i+rate]for i in range(0, len(requests), rate)
]ret = []
for req_group in req_groups:ret += grequests.map(req_group)sleep(1)print(ret)
令牌桶(token bucket)方法
这种方法较精确,可以确保误差不超过±1(当然前提是你的电脑和目标服务器都能承受的了高并发)。以下是耗时的公式表示: T i m e = 请 求 准 备 时 延 + 请 求 发 送 时 延 + 令 牌 桶 阻 塞 时 延 Time = 请求准备时延 + 请求发送时延 + 令牌桶阻塞时延 Time=请求准备时延+请求发送时延+令牌桶阻塞时延 令 牌 桶 阻 塞 时 延 ≈ 1 − 请 求 准 备 时 延 + 请 求 发 送 时 延 令牌桶阻塞时延 ≈ 1 - 请求准备时延 + 请求发送时延 令牌桶阻塞时延≈1−请求准备时延+请求发送时延 这种方法当然也有一点缺陷,CPU看起来会很高(这是由于 while pass),尽管CPU真实使用率很低。
from time import timeclass Throttle:def __init__(self, rate):self.rate = rateself.tokens = 0self.last = 0def consume(self, amount=1):now = time()if self.last == 0:self.last = nowelapsed = now - self.lastif int(elapsed * self.rate):self.tokens += int(elapsed * self.rate)self.last = nowself.tokens = (self.rateif self.tokens > self.rateelse self.tokens)if self.tokens >= amount:self.tokens -= amountelse:amount = 0return amountthrottle = Throttle(rate)req_groups = [requests[i: i+rate]for i in range(0, len(requests), rate)
]ret = []
for req_group in req_groups:while throttle.consume():pass # 阻塞,获得令牌才能进行并发请求ret += grequests.map(req_group)print(ret)
GRequests-Throttle
这是一个使用令牌桶(token bucket)方法进行封装的GRequests修改版,使用方法很简单:
首先安装grequests-throttle(清华镜像源更新较慢,推荐使用阿里镜像源)
pip install grequests-throttle
import grequests_throttle as gtret = gt.map(requests, rate=rate)
print(ret)
总结
如果并发请求数量较小,可以考虑使用time.sleep(1)简单快捷;当并发请求数量较大时,使用令牌桶(token bucket)方法能最大化利用每一秒;如果不想写太多代码,可以使用GRequests-Throttle包进行请求流量控制。
注:一般情况下,普通家用电脑使用基于Requests包的并发请求,最大并发量在20~30之间,所以使用并发数量设置太大并没有并没有什么意义。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
