简单认识KMV Sketch估算算法
介绍
KMV Sketch是Theta Sketch算法的一种,简单来说,KMV Sketch是用来估算大数据中不重复元素的个数,例如某个网站的唯一身份访客数。本文简单翻译自datasketches的文档,用以说明该算法是如何进行估算的。
案例1
如果你去参加音乐会,你排在队尾,如何估计你的前面还有多少个人?如下图,整个队伍的长度是已知的为1000Ft,你与前一个人的距离为2Ft,那么可以简单的估算,整个队伍共有1000Ft/2Ft=500人,此时你用于计算的样本包含的人数为1人。
再次观察这个队伍,你发现人与人之间的距离并不是均匀的,你看到队尾的11个人一共占据了30Ft的长度,那么再次估算人数为1000Ft/30Ft*11=11/(30Ft/1000Ft)=366人,由于此次你用了11个人作为样本,估算值应该比之前更精确。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
