Redian新闻
>
P99 是如何计算的?

P99 是如何计算的?

公众号新闻

点击上方“芋道源码”,选择“设为星标

管她前浪,还是后浪?

能浪的浪,才是好浪!

每天 10:33 更新文章,每天掉亿点点头发...

源码精品专栏

 
来源:www.kawabangga.com
/posts/4284

Latency(延迟)是我们在监控线上的组件运行情况的一个非常重要的指标,它可以告诉我们请求在多少时间内完成。监控 Latency 是一个很微妙的事情,比如,假如一分钟有 1亿次请求,你就有了 1亿个数字。如何从这些数字中反映出用户的真实体验呢?

之前的公司用平均值来反应所有有关延迟的数据,这样的好处是计算量小,实施简单。只需要记录所有请求的一个时间总和,以及请求次数,两个数字,就可以计算出平均耗时。

但问题是,平均耗时非常容易掩盖真实的问题。比如现在有 1% 的请求非常慢,但是其余的请求很快,那么这 1% 的请求耗时会被其他的 99% 给拉平,将真正的问题掩盖。

所以更加科学的一种监控方式是观察 P99/P95/P90 等,叫做 Quantile。简单的理解,P99 就是第 99% 个请求所用的耗时。假如 P99 现在是 10ms,那么我们可以说 “99% 的请求都在 10ms 内完成”。虽然在一些请求量较小的情况下,P99 可能受长尾请求的影响。但是由于 SRE 一般不会给在量小的业务上花费太多精力,所以这个问题并不是很大。

但是计算就成了一个问题。P99 是计算时间的分布,所以我们是否要保存下来 1 亿个请求的时间,才能知道第 99% 的请求所用的时间呢?

这样耗费的资源太大了。考虑到监控所需要的数据对准确性的要求并不高。比如说 P99 实际上是 15.7ms 但是计算得到数据是 15.5ms,甚至是 14ms,我认为都是可以接受的。

我们关注更多的是它的变化。“P99 耗时从 10.7ms 上涨到了 14ms” 和 “P99耗时从 11ms 上涨到了 15.5ms” 这个信息对于我们来说区别并不是很大。(当然了,如果是用于衡量服务是否达到了服务等级协议 SLO 的话,还是很大的。这样需要合理地规划 Bucket 来提高准确性)。

所以基于这个,Prometheus 采用了一种非常巧妙的数据结构来计算 Quantile: Histogram。

Histogram 本质上是一些桶。举例子说,我们为了计算 P99,可以将所有的请求分成 10 个桶,第一个存放 0-1ms 完成的请求的数量,后面 9 个桶存放的请求耗时上区间分别是 5ms、10ms、50ms、100ms、200ms、300ms、500ms、1s、2s,这样只要保存 10 个数字就可以了。

要计算 P99 的话,只需要知道第 99% 个数字落在了哪一个桶,比如说落在了 300ms-500ms 的桶,那我们就可以说现在的 99% 的请求都在 500ms 之内完成(这样说不太准确,如果准确的说,应该是第 99% 个请求在 300ms – 500ms 之间完成)。这些数据也可以用来计算 P90、P95 等等。

由于我们的监控一般是绘制一条曲线,而不是一个区间。所以 P99 在 300-500 之间是不行的,需要计算出一个数字来。

Prometheus 是假设每一个桶内的数据都是线性分布的,比如说现在 300-500 的桶里面一共有 100 个请求,小于300个桶里面一共有 9850 个请求。所有的桶一共有 1万个请求。

那么我们要找的 P99 其实是第 10000 * 0.99 = 9900 个请求。第 9900 个请求在 300-500 的桶里面是第 9900 – 9850 = 50 个请求。根据桶里面都是线性分布的假设,第 50 个请求在这个桶里面的耗时是 (500 – 300) * (50/100) = 400ms,即 P99 就是 400ms。

可以注意到因为是基于线性分布的假设,不是准确的数据。比如假设 300-500 的桶中耗时最高的请求也只有 310ms,得到的计算结果也会是 400ms。桶的区间越大,越不准确,桶的区间越小,越准确。

写这篇文章,是因为昨天同事跑来问我,“为啥我的日志显示最慢的请求也才 1s 多,但是这个 P999 latency 显示是 3s?”

我查了一下确实如他所说,但是这个结果确实预期的。因为我们设置的桶的分布是:10ms、50ms、100ms、500ms、1s、5s、10s、60s。

如上所说,Prometheus 只能保证 P999 latency 落在了 1s – 5s 之间,但不能保证误差。

如果要计算准确的 Quantile,可以使用 Summary 计算。简单来说,这个算法没有分桶,是直接在机器上计算准确的 P99 的值,然后保存 P99 这个数字。但问题一个是在机器本地计算,而不是在 Prometheus 机器上计算,会占用业务机器的资源;另一个是无法聚合,如果我们有很多实例,知道每一个实例的 P99 是没有什么意义的,我们更想知道所有请求的 P99。显然,原始的信息已经丢失,这个 P99 per instance 是无法支持继续计算的。

另外一个设计巧妙的地方是,300-500 这个桶保存的并不是 300-500 耗时的请求数,而是 <500ms 的请求数。也就是说,后面的桶的请求数总是包含了它前面的所有的桶。这样的好处是,虽然我们保存的数据没有增加(还是10个数字),但是保存的信息增加了。假如说中间丢弃一个桶,依然能够计算出来 P99,在某些情况下非常有用,比如监控资源不够了,我们可以临时不收集前5个桶,依然可以计算 P99。



欢迎加入我的知识星球,一起探讨架构,交流源码。加入方式,长按下方二维码噢

已在知识星球更新源码解析如下:

最近更新《芋道 SpringBoot 2.X 入门》系列,已经 101 余篇,覆盖了 MyBatis、Redis、MongoDB、ES、分库分表、读写分离、SpringMVC、Webflux、权限、WebSocket、Dubbo、RabbitMQ、RocketMQ、Kafka、性能测试等等内容。

提供近 3W 行代码的 SpringBoot 示例,以及超 4W 行代码的电商微服务项目。

获取方式:点“在看”,关注公众号并回复 666 领取,更多内容陆续奉上。

文章有帮助的话,在看,转发吧。

谢谢支持哟 (*^__^*)

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度段润尧:4个因素让量子计算的出现成为必然 | MEET2023【人人都能欣赏的数学证明】为什么0.9999999········=1癸卯兔年共有384天,“闰二月”是咋算的?我画彼得兔9位院士12位专家联合撰文:智能计算的新进展、挑战与未来 | Science合作期刊re:Invent 2022 全回顾:看见云计算的力量,透视未来的云计算19999、23699元,RTX4080,ROG全家桶DIY游戏主机兴旺超市新春特价!八角麻油$14.99!火锅瓦斯$3.99!油菜$0.99!五花肉$1.99!温哥华蟹$9.99!百万并发场景中倒排索引与位图计算的实践兴旺超市元宵节特价!绍兴料酒$4.99!有机小米$15.99!白萝卜$0.49!炒牛肉$5.99!温哥华蟹$8.99!LG gram 14 2023 款轻薄本上架:仅重 999g,首发价 8999 元起8999元手机网红直播“赔本甩卖”只要1999!?5年前配置忽悠人,网友:顶多200...再也不能用ChatGPT写作业了!新算法给AI生成文本加水印,置信度高达99.999999999994%“原价8999直播间卖1999”的手机1880元就能买到?“嘎子哥”被骂上热搜,本人回应!工作室:要发律师函8999元的飞利浦手机,直播间只卖1999元?知名演员保证是真货,但还有一个谜团待解FBEC大会 | 高通中国区VR/AR负责人郭鹏:XR革命是从二维到空间计算的变革8999元、11999元,RTX4070Ti游戏主机不想被骗就别接!匿名电话和这【5个区号】99.99999%是骗子 一听就上当还是第一次见这么画架构图的,果然是阿里 P9 | 极客时间苹果 iPhone 14 / Plus 黄色款开启预购,售 5999/6999 元起拯救未来计算的三种办法!宾州斯沃斯莫尔学院(Swarthmore College),校园秋景奶粉是怎么在工厂里制造的?又是如何干燥成粉的?前阿里巴巴 P9 实践总结:如何画好架构图?| 极客时间问了ChatGPT几个关于云计算的问题,发现...买房 | 内地公摊面积又火了!香港房子的面积是怎么算的?晚景凄凉的老人机器学习中的新数学,加速AI训练离不开数字表示方式和基本计算的变革兴旺超市周末特价!鲜味生抽$2.99!螺霸王螺蛳粉3/$5.99!大番茄$0.88!金钱毽$4.99!游水侧鱼$4.99!8999元、9699元、12199元,RTX4070Ti游戏主机颠覆开发模式的创新发布背后,我看见了云计算的下一个十年光芯片进军AI,打破模拟计算的扩展限制2022庭院:收摊儿兴旺超市周末特价!冰红茶$4.99!茶口粉干$2.99!大番茄$0.88!五花肉$1.99!温哥华大蟹$7.99!《高手在民间 》 摄影师的视角
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。