新人求教一个ＨＡＤＯＯＰ的问题 - 未名空间MITBBS历史存档 | Redian News

国际科技财经博客移民网络热点娱乐民生时事公众号

>DataSciences - 数据科学

>

新人求教一个ＨＡＤＯＯＰ的问题

新人求教一个ＨＡＤＯＯＰ的问题# DataSciences - 数据科学

m*e2015-04-04 07:04

1 楼

刚接触到HADOOP。工作中碰到一个问题。
公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/
part-00000 里。
for example:
/model/2015-03-01/score/part-00000
/model/2015-03-02/score/part-00000
/model/2015-03-03/score/part-00000
.....
data in each file : customer_id,score
I need to get daily scores for about 200K accounts for 6 months. any easy
way to do this?
Thanks!

l*n2015-04-04 07:04

2 楼

200k * 200 * 8 =320,000kb =320m
这数据量excel都能搞定，做个pivot table啥的很容易

【在 m******e 的大作中提到】

: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

m*e2015-04-04 07:04

3 楼

谢谢！　我的问题是　有简单的方法　join 我的driver file　和　１８０　个
daily　score file 吗？写了一个UNIX SCRIPT 和PIG SCRIPT，明天到公司试一下。

B*g2015-04-04 07:04

4 楼

不明白，不就是一个mapreduce吗？

【在 m******e 的大作中提到】

: 谢谢！　我的问题是　有简单的方法　join 我的driver file　和　１８０　个
: daily　score file 吗？写了一个UNIX SCRIPT 和PIG SCRIPT，明天到公司试一下。

l*n2015-04-04 07:04

5 楼

我觉得不用，直接一个R/vba搞定

【在 B*****g 的大作中提到】

: 不明白，不就是一个mapreduce吗？

w*m2015-04-04 07:04

6 楼

Score后的文件不会太大 get到local
然后local用python建一个hash表扫一下
分分钟搞定

★ 发自iPhone App: ChineseWeb 8.7

【在 m******e 的大作中提到】

: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

h*d2015-04-04 07:04

7 楼

【在 m******e 的大作中提到】

: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

C*e2015-04-04 07:04

8 楼

你们实际这么做过么？
把数目这么多的小文件hadoop fs -get到local，很耗时间的，问题不在于文件大小，
而是文件个数。

【在 w********m 的大作中提到】

: Score后的文件不会太大 get到local
: 然后local用python建一个hash表扫一下
: 分分钟搞定
:
: ★ 发自iPhone App: ChineseWeb 8.7

T*u2015-04-04 07:04

9 楼

那就把script送到node山去。

【在 C********e 的大作中提到】

: 你们实际这么做过么？
: 把数目这么多的小文件hadoop fs -get到local，很耗时间的，问题不在于文件大小，
: 而是文件个数。

相关阅读

想咨询一下洛杉矶这边data scientist起薪大概多少汽车配件估价问题讲个找数据科学工作的捷径 aka 刷Kaggle题迅速入门data scient (转载)一般data scientist都是什么背景，一定要phd吗？Hadley Advanced R pdf 请教一个问题，about real estate API 求Hadoop项目练手有人知道behavior question 的书 knock them back 还是knock th (转载)请教大家一个做feature的问题 data analyst和 database administration有什么区别？至转行同学：免费课程邀请你来上， 6/17开始，限前10名 (转载)请问中文情感分析分享一本data science的书，很多牛人的interview University of Florida Postdoctoral Research Scientist Biomedical Informatics SSIS教学免费视频分享 (转载)Well-funded Startup Data Scientist Position 6/17开始的免费数据分析基础课程讲座求问~Transunion 的TLOxp sort a matrix (1M rows x 100 columns) for each row in GPU 有一本介绍linux terminal data science的书叫什么名字来着。。。

热点事件追踪

美国公司裁员Layoff

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

美国堕胎权争议

2024-01-06 18:01

美国枪击案

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-06-29 的新闻