Redian新闻
>
有大牛可以解释下bloom filter是在什么条件下使用最好
avatar
有大牛可以解释下bloom filter是在什么条件下使用最好# Programming - 葵花宝典
l*a
1
懒得一个个提名了,所有这十年来在本版发言潜水的都是大师,嗯
avatar
a*a
2
不知道是lcd的线坏了还是屏幕坏了,有经验的请帮忙指点,谢谢
avatar
u*s
3
最好能给一个简单的小例子。十分感谢
avatar
S*U
4
本版被三个以上ID 认真称为大师的,只怕一支手数的出来。
avatar
k*f
5
外接显示器,是不是正常显示?
据说水平的线,一般是屏线问题

【在 a*******a 的大作中提到】
: 不知道是lcd的线坏了还是屏幕坏了,有经验的请帮忙指点,谢谢
avatar
f*t
6
给你一堆文件,每个文件都是排序好的数字,问这些文件是否包含某一个数字。给每个
文件建一个bloom filter可以快速排除不包含这个数字的文件。

【在 u********s 的大作中提到】
: 最好能给一个简单的小例子。十分感谢
avatar
l*a
7
要id还不好办,

【在 S**U 的大作中提到】
: 本版被三个以上ID 认真称为大师的,只怕一支手数的出来。
avatar
a*a
8
外接是正常的

【在 k****f 的大作中提到】
: 外接显示器,是不是正常显示?
: 据说水平的线,一般是屏线问题

avatar
s*k
9
不是大牛,不过可以用在比如无效或者问题URL检测上,

【在 u********s 的大作中提到】
: 最好能给一个简单的小例子。十分感谢
avatar
j*l
10
我个人的理解 bloom filter本质就是不解决conflict的hash set 把所有见过的成员全
部hash 然后你问它A见过没 B见过没
因为是hash 所以有conflict的可能 A和B hash成一个value 哪怕只见过A, bloom
filter也会回答你见过B 所以会有false positive
bloom filter适合大量询问是否存在的请求 不care 少量false positive 好处是占用
的space空间小
实际用途之一是我决定部分用户可以用到测试版本 每个用户请求我都问bloom filter
是否是测试用户 如果是就展示测试功能 当然少量非测试用户也被误报 但无碍大局
如果因为可能样本大 bloom filter自身空间小造成false conflict高的情况 可以通过
多次HASH来缓解

【在 u********s 的大作中提到】
: 最好能给一个简单的小例子。十分感谢
avatar
j*l
11
一个问题 如果数字没有排序 能否使用bloom filter?

【在 f*******t 的大作中提到】
: 给你一堆文件,每个文件都是排序好的数字,问这些文件是否包含某一个数字。给每个
: 文件建一个bloom filter可以快速排除不包含这个数字的文件。

avatar
f*t
12
可以

【在 j*******l 的大作中提到】
: 一个问题 如果数字没有排序 能否使用bloom filter?
avatar
u*s
13
可以说说url检测这个例子吗。因为还是会有false positive

【在 s********k 的大作中提到】
: 不是大牛,不过可以用在比如无效或者问题URL检测上,
avatar
u*s
14
我也是类似理解的现在,因为会遇到相同的hash value,所以会有false positive

filter

【在 j*******l 的大作中提到】
: 我个人的理解 bloom filter本质就是不解决conflict的hash set 把所有见过的成员全
: 部hash 然后你问它A见过没 B见过没
: 因为是hash 所以有conflict的可能 A和B hash成一个value 哪怕只见过A, bloom
: filter也会回答你见过B 所以会有false positive
: bloom filter适合大量询问是否存在的请求 不care 少量false positive 好处是占用
: 的space空间小
: 实际用途之一是我决定部分用户可以用到测试版本 每个用户请求我都问bloom filter
: 是否是测试用户 如果是就展示测试功能 当然少量非测试用户也被误报 但无碍大局
: 如果因为可能样本大 bloom filter自身空间小造成false conflict高的情况 可以通过
: 多次HASH来缓解

avatar
f*t
15
由于bloom filter有false positive的特性,在实践中为了提高准确性,会保持一个固
定的bits per entry值。也就是说,随着entry数量的增加,生成的bloom filter也会
变大。所以这是一种典型的空间换时间的做法。
比如用bloom filter来优化key-value数据结构的查询,如果key数量不多而value很大
,空间效率会很高。相反,如果用bloom filter来优化一个set(只有key没有value)
,空间效率就非常低。

【在 u********s 的大作中提到】
: 我也是类似理解的现在,因为会遇到相同的hash value,所以会有false positive
:
: filter

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。