一个巨大的阴谋在发酵 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Fashion - 美丽时尚

一个巨大的阴谋在发酵

一个巨大的阴谋在发酵# Fashion - 美丽时尚

j*v2011-10-03 07:10

1 楼

在自己机器上有十几个.csv文件，每个文件几十GB，每行是用户在某个时刻的信息，目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序，对每个用
户再按时间排序，算下来merge完这个大文件有几百个GB，存在local不现实，想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里，只想一次性地处理数据，哪些open
source tools可以很好地解决这个问题？Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳？谢谢！

M*t2011-10-03 07:10

2 楼

花生版的同仁们
买买提从来就是一个尔虞我诈深不可测的江湖
最近作为长期潜伏在梦版但心始终在花生版的我，敏感的发现了一个巨大阴谋，目前不
知道这是由上而下还是由下而上，但这个可怕计划是这样的：
一小撮居心叵测的蒙面ID想抢占花生版的主业，证据如下：
http://www.mitbbs.com/article_t/Dreamer/32531971.html
是可忍，孰不可忍
号召花生版的女英雄们赶快到梦版去杀他们个片甲不留！

s*c2011-10-03 07:10

3 楼

写个mapreduce就好了啊
id是partition key
timestamp是secondary key

merge
Cascading

【在 j********v 的大作中提到】

: 在自己机器上有十几个.csv文件，每个文件几十GB，每行是用户在某个时刻的信息，目
: 标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序，对每个用
: 户再按时间排序，算下来merge完这个大文件有几百个GB，存在local不现实，想merge
: 的时候直接把输出存在Amazon S3里
: 如果不想把数据存在Cassandra这样的数据库里，只想一次性地处理数据，哪些open
: source tools可以很好地解决这个问题？Hadoop (MapReduce), Hive, Pig, Cascading
: , etc.? 怎样的一种组合最佳？谢谢！

c*12011-10-03 07:10

4 楼

沙发

l*g2011-10-03 07:10

5 楼

你吃饱了

【在 M****t 的大作中提到】

: 花生版的同仁们
: 买买提从来就是一个尔虞我诈深不可测的江湖
: 最近作为长期潜伏在梦版但心始终在花生版的我，敏感的发现了一个巨大阴谋，目前不
: 知道这是由上而下还是由下而上，但这个可怕计划是这样的：
: 一小撮居心叵测的蒙面ID想抢占花生版的主业，证据如下：
: http://www.mitbbs.com/article_t/Dreamer/32531971.html
: 是可忍，孰不可忍
: 号召花生版的女英雄们赶快到梦版去杀他们个片甲不留！