Redian新闻
>
问一道data engineer面试题,跪求答案
avatar
问一道data engineer面试题,跪求答案# JobHunting - 待字闺中
i*n
1
有A与B两个集合,每个集合各含有million个data point,每个data point由thousand
个feature描述,不过有的feature是missing的或者残缺不全的。已知有一个方程f(a,b
)可以判断两个data point a和b是否equivalent,问题是如何最efficient的找出A与B
中的所有equivalent的data point对。
跪求答案。
avatar
t*3
2
唉,我要是被问到这个问题多好啊。如果所有feature的值的范围可以标准化到一个范
围,比如1到5之间,可以用matrix factorization为每个data point和每个feature各
计算一个vector出来,然后就可以估计每个data point的missing features的值,然后
就可以用f(a,b)来计算equivalent了。注意matrix factorization那一步是可以做到
linear的,参见netflix prize的winning team的成果。

thousand
,b
B

【在 i**********n 的大作中提到】
: 有A与B两个集合,每个集合各含有million个data point,每个data point由thousand
: 个feature描述,不过有的feature是missing的或者残缺不全的。已知有一个方程f(a,b
: )可以判断两个data point a和b是否equivalent,问题是如何最efficient的找出A与B
: 中的所有equivalent的data point对。
: 跪求答案。

avatar
i*n
3
ls是大牛!待我膜拜下这个solution先
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。