Redian新闻
>
AWS上做Deep learning large scale design
avatar
s*k
2
分别用什么service啊?training用EC2,原始那些training data 放在S3,model
train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
用lambda?还有哪些经验?
avatar
a*r
3
Sorry for keep you waiting, we are Chinese. hehe
avatar
s*k
4
自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
是不是就可以了?

balance

【在 s********k 的大作中提到】
: 分别用什么service啊?training用EC2,原始那些training data 放在S3,model
: train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
: 用lambda?还有哪些经验?

avatar
w*g
5
deep learning训练不适合scale out,最好的办法就是升级单机。
serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
是只读的,scale out很容易。

【在 s********k 的大作中提到】
: 自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
: 可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
: 据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
: 是不是就可以了?
:
: balance

avatar
s*k
6
大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL
?)

【在 w***g 的大作中提到】
: deep learning训练不适合scale out,最好的办法就是升级单机。
: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
: 是只读的,scale out很容易。

avatar
w*g
7
参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
实在实在非要存个啥地方,就存S3。

SQL

【在 s********k 的大作中提到】
: 大牛,比如我训练完了,这些训练好的参数用哪种AWS服务存储最合适(NoSQL还是SQL
: ?)

avatar
f*2
8
应该可以scale out吧,而且大体思路估计有人做过
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf


: deep learning训练不适合scale out,最好的办法就是升级单机。

: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器

: 是只读的,scale out很容易。



【在 w***g 的大作中提到】
: 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
: 实在实在非要存个啥地方,就存S3。
:
: SQL

avatar
s*k
9
现在大规模做都是用 tree based allreduce还是ring based allreduce?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。