Redian新闻
>
如何解决big data follow up
avatar
如何解决big data follow up# JobHunting - 待字闺中
l*r
1
面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大
概如何处理。。。
sorting相关的基本上就往MR上靠,不知道还有没有其他思路?
刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢!
avatar
S*y
2
真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你
可以random sample只用一小部分数据,心里顿时一万头草泥马奔过

【在 l*********r 的大作中提到】
: 面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大
: 概如何处理。。。
: sorting相关的基本上就往MR上靠,不知道还有没有其他思路?
: 刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢!

avatar
m*e
3
具体场景具体分析,LZ给一个场景呗
avatar
r*s
4
hot keyword或者url是这样的。。。


: 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,
他说你

: 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过



【在 S*******y 的大作中提到】
: 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你
: 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过

avatar
z*h
5
Data points一多,KNN会巨慢。要是我就这么说,first ask if the data has high
dimensionality. If they say no, well, we can use KD-tree to speed up K-NN.
If they say yes, I'd say you cannot use the original K-NN, you will have to
cut corners. for example, instead of using all data points, only pick the
most important ones (close to decision boundary). see https://link.springer.
com/article/10.1023%2FA%3A1007626913721?LI=true

【在 l*********r 的大作中提到】
: 面试碰到过好几回,问一个基本算法,答出来之后就被followup问如果data size超大
: 概如何处理。。。
: sorting相关的基本上就往MR上靠,不知道还有没有其他思路?
: 刚刚被问了一个KNN如何处理大数据,这个该怎么答呢? 谢谢!

avatar
D*0
6
那这个真是太厉害了。

【在 S*******y 的大作中提到】
: 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你
: 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过

avatar
l*r
7
关键是我上来就答了用KD tree做KNN,然后被追问数据量大该怎么办 。。。

to
springer.

【在 z*******h 的大作中提到】
: Data points一多,KNN会巨慢。要是我就这么说,first ask if the data has high
: dimensionality. If they say no, well, we can use KD-tree to speed up K-NN.
: If they say yes, I'd say you cannot use the original K-NN, you will have to
: cut corners. for example, instead of using all data points, only pick the
: most important ones (close to decision boundary). see https://link.springer.
: com/article/10.1023%2FA%3A1007626913721?LI=true

avatar
l*r
8
难道讨论的是GD?

【在 S*******y 的大作中提到】
: 真实经历,一次和三哥面试官聊了好久他都不满意,最后结束了问他你怎么办,他说你
: 可以random sample只用一小部分数据,心里顿时一万头草泥马奔过

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。