Redian新闻
>
新人求教一个HADOOP的问题
avatar
新人求教一个HADOOP的问题# DataSciences - 数据科学
m*e
1
刚接触到HADOOP。工作中碰到一个问题。
公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
part-00000 里。
for example:
/model/2015-03-01/score/part-00000
/model/2015-03-02/score/part-00000
/model/2015-03-03/score/part-00000
.....
data in each file : customer_id,score
I need to get daily scores for about 200K accounts for 6 months. any easy
way to do this?
Thanks!
avatar
l*n
2
200k * 200 * 8 =320,000kb =320m
这数据量excel都能搞定,做个pivot table啥的很容易

【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

avatar
m*e
3
谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个
daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。
avatar
B*g
4
不明白,不就是一个mapreduce吗?

【在 m******e 的大作中提到】
: 谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个
: daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。

avatar
l*n
5
我觉得不用,直接一个R/vba搞定

【在 B*****g 的大作中提到】
: 不明白,不就是一个mapreduce吗?
avatar
w*m
6
Score后的文件不会太大 get到local
然后local用python建一个hash表扫一下
分分钟搞定

★ 发自iPhone App: ChineseWeb 8.7

【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

avatar
h*d
7


【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

avatar
C*e
8
你们实际这么做过么?
把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小,
而是文件个数。

【在 w********m 的大作中提到】
: Score后的文件不会太大 get到local
: 然后local用python建一个hash表扫一下
: 分分钟搞定
:
: ★ 发自iPhone App: ChineseWeb 8.7

avatar
T*u
9
那就把script送到node山去。

【在 C********e 的大作中提到】
: 你们实际这么做过么?
: 把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小,
: 而是文件个数。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。