Redian新闻
>
怎样利用AMS在R里面做一个大数据的分析?
avatar
怎样利用AMS在R里面做一个大数据的分析?# DataSciences - 数据科学
C*o
1
【 以下文字转载自 History 讨论区 】
发信人: oshzzd (狮子座的), 信区: History
标 题: 贞操和人口爆发
发信站: BBS 未名空间站 (Sat Jul 14 09:30:53 2012, 美东)
众所周知,中国开始有贞操观念始自宋朝,中国的人口爆发也是始于宋朝,这恐怕不是
巧合,而欧美从来没有这样的观念,因此人口数目停滞不前。
就医学所知,性保守的女人生育能力要强很多,现代中国人的生育能力已经下降了,不
信的去宝宝版看看,不少女性都为终于怀上了激动不已。
这两者可能真是联系很深。
avatar
t*m
2
菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R
里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然
需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之
类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢
了。
avatar
l*n
3
Ams是啥?

在R

【在 t********m 的大作中提到】
: 菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R
: 里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然
: 需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之
: 类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢
: 了。

avatar
t*m
4
AWS is Amazon Web Services
avatar
f*8
5
yeah, it is called AWS:)
如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比
原生R快很多。
如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就
得上Spark了?

【在 t********m 的大作中提到】
: AWS is Amazon Web Services
avatar
l*n
6
......
第一次看到这种写法,真有创新精神

【在 t********m 的大作中提到】
: AWS is Amazon Web Services
avatar
t*m
7
sorry, should be AWS.

【在 l******n 的大作中提到】
: ......
: 第一次看到这种写法,真有创新精神

avatar
t*m
8
多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

【在 f***8 的大作中提到】
: yeah, it is called AWS:)
: 如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比
: 原生R快很多。
: 如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就
: 得上Spark了?

avatar
l*n
9
你还是用你自己电脑吧,32g内存应该差不多,不够就减几个column或者filter一下数
据。

AWS
了!

【在 t********m 的大作中提到】
: 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
: 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
: 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
: 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
: 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

avatar
O*O
10
说说你要算啥
估计下计算中的内存需求

AWS
了!

【在 t********m 的大作中提到】
: 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
: 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
: 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
: 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
: 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!

avatar
Z*0
11
你在单机上,load data后用了多少内存?用了20G?下面做数据分析,还需要额外的内
存,这个依赖于你的的research,用什么package来分析数据。
AWS费用不是很高,是按照时间来计算价格的,内存大的instance,费用会高不少。如
果你要用,你应该在你自己的机器上,用1M row的数据,把所有的code,都测试好,测
试运行时间,估算在所有数据在AWS上的运行时间。然后在AWS上,对所有的数据,一次
运行你的code,尽可能减少使用AWS的时间。如果你的分析是ad hoc,你需要explore,
费用就比较难预测。
看这个chart:
https://aws.amazon.com/ec2/pricing/
max:2-3 $/hr
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。