Redian新闻
>
一个巨大的阴谋在发酵
avatar
一个巨大的阴谋在发酵# Fashion - 美丽时尚
j*v
1
在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳? 谢谢!
avatar
M*t
2
花生版的同仁们
买买提从来就是一个尔虞我诈深不可测的江湖
最近作为长期潜伏在梦版但心始终在花生版的我,敏感的发现了一个巨大阴谋,目前不
知道这是由上而下还是由下而上,但这个可怕计划是这样的:
一小撮居心叵测的蒙面ID想抢占花生版的主业,证据如下:
http://www.mitbbs.com/article_t/Dreamer/32531971.html
是可忍,孰不可忍
号召花生版的女英雄们赶快到梦版去杀他们个片甲不留!
avatar
s*c
3
写个mapreduce就好了啊
id是partition key
timestamp是secondary key

merge
Cascading

【在 j********v 的大作中提到】
: 在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
: 标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
: 户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
: 的时候直接把输出存在Amazon S3里
: 如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
: source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
: , etc.? 怎样的一种组合最佳? 谢谢!

avatar
c*1
4
沙发
avatar
l*g
5
你吃饱了

【在 M****t 的大作中提到】
: 花生版的同仁们
: 买买提从来就是一个尔虞我诈深不可测的江湖
: 最近作为长期潜伏在梦版但心始终在花生版的我,敏感的发现了一个巨大阴谋,目前不
: 知道这是由上而下还是由下而上,但这个可怕计划是这样的:
: 一小撮居心叵测的蒙面ID想抢占花生版的主业,证据如下:
: http://www.mitbbs.com/article_t/Dreamer/32531971.html
: 是可忍,孰不可忍
: 号召花生版的女英雄们赶快到梦版去杀他们个片甲不留!

avatar
d*d
6
你太搞笑乐

【在 M****t 的大作中提到】
: 花生版的同仁们
: 买买提从来就是一个尔虞我诈深不可测的江湖
: 最近作为长期潜伏在梦版但心始终在花生版的我,敏感的发现了一个巨大阴谋,目前不
: 知道这是由上而下还是由下而上,但这个可怕计划是这样的:
: 一小撮居心叵测的蒙面ID想抢占花生版的主业,证据如下:
: http://www.mitbbs.com/article_t/Dreamer/32531971.html
: 是可忍,孰不可忍
: 号召花生版的女英雄们赶快到梦版去杀他们个片甲不留!

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。