Redian新闻
>
gmail/google 搜索问题,你一定也遇到过
avatar
gmail/google 搜索问题,你一定也遇到过# JobHunting - 待字闺中
C*1
1
G家的员工能不能解释一下,谢谢
不知道为什么gmail搜索要匹配整个字符串。
例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
码是“800-8101234”
这是何等脑残的设计?这个问题有解么
avatar
d*o
2
因为搜索要index
index一般都是根据单词来存储的
用单词来映射和对应
为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实
avatar
s*y
3
试了一下搜索结果好像却是没有,但是typeahead下拉栏里确有正确的,不过只有最近的
可能G的邮件倒排索引的key就是整个的字符串,typeahead的Trie应该比较复杂
avatar
j*r
4
The index tree will be too big for that.

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

avatar
C*1
5
我不觉得算小众需求吧,我周围不少人都抱怨过这个问题。

【在 d****o 的大作中提到】
: 因为搜索要index
: index一般都是根据单词来存储的
: 用单词来映射和对应
: 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实

avatar
C*1
6
另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
面实现类似notepad的搜索功能?

【在 d****o 的大作中提到】
: 因为搜索要index
: index一般都是根据单词来存储的
: 用单词来映射和对应
: 为了满足你这个小众需求 需要重新设计index方法 空间需求大好几倍 不太现实

avatar
z*8
7
我觉得你有一个amazing的idea, 就缺一个程序员了

【在 C***1 的大作中提到】
: 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
: 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
: 面实现类似notepad的搜索功能?

avatar
r*t
8
(非相关组的浅谈)
web 其实是比 gmail 的 index 量还要小的
你在自己的里面搜索可能量不大,但是 server 却是给所有人的
notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒
mitbbs 可能当成了一个不可分割的 unigram

【在 C***1 的大作中提到】
: 另外网页搜索可能需要很大资源,但大部分人的gmail里的文本信息并没有很多。
: 我不是IT专业的,请问在word或者notepad里面搜索使用index么,我能不能在gmail里
: 面实现类似notepad的搜索功能?

avatar
l*u
9
这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
相互又不能共享,那磁盘消耗量会指数上升,性价比太低了
avatar
j*r
10
It's not just cost. You may also have too much noise in the search result.

【在 l****u 的大作中提到】
: 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
: 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
: 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了

avatar
C*1
11
noise不是问题,可以有个搜索选项,如果觉得noise太多可以关掉选项

【在 j**********r 的大作中提到】
: It's not just cost. You may also have too much noise in the search result.
avatar
C*1
12
你说我在我的gmail搜索,google会去搜索整个server?
每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?

【在 r******t 的大作中提到】
: (非相关组的浅谈)
: web 其实是比 gmail 的 index 量还要小的
: 你在自己的里面搜索可能量不大,但是 server 却是给所有人的
: notepad 有上百兆搜起来就慢死,而 gmail 大的多却只有几秒
: mitbbs 可能当成了一个不可分割的 unigram

avatar
C*1
13
对,很多时候就是记不全,然后死活都找不到。。。

【在 l****u 的大作中提到】
: 这一点是很不爽,有时候不记得完整的拼写了,那么gmail就搜不出来
: 还是成本的问题吧,为每个人的邮箱archive做类似web search engine那样的索引,而
: 相互又不能共享,那磁盘消耗量会指数上升,性价比太低了

avatar
l*u
14
icloud里面的Notes貌似更强大些,某些信息(文本)可以存在那儿

【在 C***1 的大作中提到】
: 对,很多时候就是记不全,然后死活都找不到。。。
avatar
r*t
15
是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
多邮件
你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

【在 C***1 的大作中提到】
: 你说我在我的gmail搜索,google会去搜索整个server?
: 每个人的邮件是怎么存储的,不能只搜索存储我邮件的区域么?

avatar
j*r
16
一般的做法是reverse index, 然后可以在输入的时候搜keyword做 autocomplete

【在 r******t 的大作中提到】
: 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
: 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
: 多邮件
: 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
: 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
: 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

avatar
g*s
17
得多脑残的人才能一边骂人脑残一边问问题?

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

avatar
e*n
18
这个问题是很讨厌,以前记得是可以的,不知道什么时候就没了。搜索很不方便。以前
Yahoo,outlook什么的就是搜索不方便我才换gmail的,现在又退步了。

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

avatar
v*a
19
Keep search bbs for a while, maybe it will learn that "bbs" is a word.
avatar
L*y
20
I met this same problem but have no answer. I will do it if gmail hires me
avatar
r*a
21
我也有同样的问题

【在 L********y 的大作中提到】
: I met this same problem but have no answer. I will do it if gmail hires me
avatar
b*s
22
也需要这个功能
希望早日实现
avatar
i*h
23
qq邮箱都可以,竟然有人说gg很难做到?
avatar
z*n
24
文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
真是无知者无畏。

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

avatar
n*d
25
大哥,人家问的是子字符串,你愣给换成打乱顺序; 人家问的是自己的信箱,你愣给换
成全世界的网页。

【在 z****n 的大作中提到】
: 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
: 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
: 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
: 真是无知者无畏。

avatar
g*x
26
分词法啊

【在 C***1 的大作中提到】
: G家的员工能不能解释一下,谢谢
: 不知道为什么gmail搜索要匹配整个字符串。
: 例如搜索“bbs”,虽然“mitbbs”含有“bbs”,却不会出现在搜索结果。
: 又如:记得某个电话号码后四位是“1234”,在gmail里却搜索不到,因为邮件里的号
: 码是“800-8101234”
: 这是何等脑残的设计?这个问题有解么

avatar
w*n
27
能不能用*1234* 搜?

【在 g*****x 的大作中提到】
: 分词法啊
avatar
F*n
28
Partial match用Compressed Trie其实增加不了多少空间
而且这个功能对大多数搜索引擎都是标配根本不难,
gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
大公司都这样以为自己牛就教育用户还振振有词的
其实是已经在变烂的标志。G的一些产品现在非常烂。

【在 r******t 的大作中提到】
: 是只搜你的 但你要想其他10亿人的很多其他词也需要 partial match,并建立索引
: 而你说的那个可以关掉的选项一般都是要关掉的 比如一个 work-,car- 就能匹配非常
: 多邮件
: 你想的功能可能会有 但是做产品加一个功能不是说你觉得周围几个人感觉好像需要就
: 应该加 这是“文科生”思考数据的方式 就算调研一群人想用 实际试用起来是不是真
: 的是他们长期想要的还不一定 对不了解的话题不要张口就说别人设计脑残

avatar
w*i
29
同意,现在到底是用户提需求还是程序猿提需求?

【在 F****n 的大作中提到】
: Partial match用Compressed Trie其实增加不了多少空间
: 而且这个功能对大多数搜索引擎都是标配根本不难,
: gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
: 大公司都这样以为自己牛就教育用户还振振有词的
: 其实是已经在变烂的标志。G的一些产品现在非常烂。

avatar
r*t
30
增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说
搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能
有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做
背景攻击
都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布
式 hash 版本的各种优缺点就振振有词的指教别人怎么做

【在 F****n 的大作中提到】
: Partial match用Compressed Trie其实增加不了多少空间
: 而且这个功能对大多数搜索引擎都是标配根本不难,
: gmail以前好像也有(记不太清楚)后来自以为是的拿掉了
: 大公司都这样以为自己牛就教育用户还振振有词的
: 其实是已经在变烂的标志。G的一些产品现在非常烂。

avatar
w*l
31
我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。

【在 z****n 的大作中提到】
: 文科生的傻问题还骂别人脑残。你估计你打进一个字符串组合,别人要把世界上所有网
: 页看一遍来找出你给的组合。实际情况是预先索引。如果建索引,一个长单词,会有多
: 少字符串的组合,又要耗用多少索引时间和存储。你想过没有?啥都不知道就上来喷,
: 真是无知者无畏。

avatar
r*t
32
做是肯定能做到的只要有资本堆积 但是到底有多值得做就是问题了
实时搜索直接和利润相关 自然被抢着做
gmail 搜索 partial match 几个字母结果太多 可能用户还要花些时间找
所以猜测考虑到目前做这个东西的代价以及带来的效益 就先不做了
所以一个 workaround 就是回忆更多相关信息 比如谁发的 还有其他什么字 标题可能
有什么等等
用户对产品的感觉是功能越丰富越好 大不了当成一个选项允许自己配置 万一真能派上
用场 这样就容易造成产品可配置的东西多 如何管理这些选项 如何让用户方便找到自
己想打开的选项也是问题 所以有很多*功能强大*的工具让人一看工具栏就头疼
当然我也感觉这个功能有时候是好的

【在 w*********l 的大作中提到】
: 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
avatar
j*w
33
it's the time for product queen, marrisa mayer, to return Google.
Users first, period.
avatar
l*i
34
网页和gmail搜索有个区别,网页要是有个你期待的页面没出来大家觉得没什么,,
gmail有个email没搜出来后来又被你找到了就会被骂成渣。话说免费服务不能要求太高
avatar
r*e
35
晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件)
远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail
index是近实时更新的。
这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱

【在 w*********l 的大作中提到】
: 我不觉得也。连实时搜索都做得出来,我不信这点index能让datacenter爆掉。
avatar
F*n
36
我就是做这个的,
根本不难

【在 r******t 的大作中提到】
: 增加不了多少是多少?“自以为是拿掉”这种臆想的话也敢说
: 搜网页,email 搜索,autocomplete 等都是不同的搜索问题 什么叫标配功能
: 有人问问题有人说看法怎么叫振振有词的教育用户 你不喜欢的产品没必要用 不用来做
: 背景攻击
: 都知道 compressed trie 这种结构线性搜索还能省空间,但你有没有研究过它的分布
: 式 hash 版本的各种优缺点就振振有词的指教别人怎么做

avatar
F*n
37
Gmail是实时更新没错但别忘了他的content是增减而不是revision
也就是说只要实时index新增的邮件就行了不需要reindex
Gmail邮件总量虽然大,但每个用户的邮件量并不算大,所以其实都不要做inverted
index, 用Trie就行了, size < N

gmail

【在 r*******e 的大作中提到】
: 晕,这点index。gmail月活跃用户刚刚过了1 billion,邮件总数量(不算垃圾邮件)
: 远超过Web search文档数量。哪个trie能轻松搞定trillion级别的索引?别忘了gmail
: index是近实时更新的。
: 这个量级上能做到全词搜索已经不容易了,gmail搜索结果又不放广告赚钱

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。