一个巨大的阴谋在发酵# Fashion - 美丽时尚
j*v
1 楼
在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳? 谢谢!
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳? 谢谢!