AWS上做Deep learning large scale design - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Programming - 葵花宝典

AWS上做Deep learning large scale design

AWS上做Deep learning large scale design# Programming - 葵花宝典

c*g2017-07-07 07:07

1 楼

s*k2017-07-07 07:07

2 楼

分别用什么service啊？training用EC2，原始那些training data 放在S3，model
train出来的数据在DynamoDB ？然后如果在serving stage data很多前面load balance
用lambda？还有哪些经验？

a*r2017-07-07 07:07

3 楼

Sorry for keep you waiting, we are Chinese. hehe

s*k2017-07-07 07:07

4 楼

自己顶一下，板上大牛说说要设计一个large scale的machine learning，有没有什么
可以参考的，比如一个model一台机子跑不下，怎么做分布式？然而训练数据和模型数
据分别存储在哪里？实际中怎么实现？如果上线之后需要更改model，A/B test的方案
是不是就可以了？

balance

【在 s********k 的大作中提到】

: 分别用什么service啊？training用EC2，原始那些training data 放在S3，model
: train出来的数据在DynamoDB ？然后如果在serving stage data很多前面load balance
: 用lambda？还有哪些经验？

w*g2017-07-07 07:07

5 楼

deep learning训练不适合scale out，最好的办法就是升级单机。
serving的话就无所谓了，如果数据比较小还可以用CPU算。服务器
是只读的，scale out很容易。

【在 s********k 的大作中提到】

: 自己顶一下，板上大牛说说要设计一个large scale的machine learning，有没有什么
: 可以参考的，比如一个model一台机子跑不下，怎么做分布式？然而训练数据和模型数
: 据分别存储在哪里？实际中怎么实现？如果上线之后需要更改model，A/B test的方案
: 是不是就可以了？
:
: balance

s*k2017-07-07 07:07

6 楼

大牛，比如我训练完了，这些训练好的参数用哪种AWS服务存储最合适（NoSQL还是SQL
？）

【在 w***g 的大作中提到】

: deep learning训练不适合scale out，最好的办法就是升级单机。
: serving的话就无所谓了，如果数据比较小还可以用CPU算。服务器
: 是只读的，scale out很容易。

w*g2017-07-07 07:07

7 楼

参数就是一个文件，或者一个目录。直接和程序一块儿拷过去就行。
实在实在非要存个啥地方，就存S3。

SQL

【在 s********k 的大作中提到】

: 大牛，比如我训练完了，这些训练好的参数用哪种AWS服务存储最合适（NoSQL还是SQL
: ？）

f*22017-07-07 07:07

8 楼

应该可以scale out吧，而且大体思路估计有人做过
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf

: deep learning训练不适合scale out，最好的办法就是升级单机。

: serving的话就无所谓了，如果数据比较小还可以用CPU算。服务器

: 是只读的，scale out很容易。

【在 w***g 的大作中提到】

: 参数就是一个文件，或者一个目录。直接和程序一块儿拷过去就行。
: 实在实在非要存个啥地方，就存S3。
:
: SQL

s*k2017-07-07 07:07

9 楼

现在大规模做都是用 tree based allreduce还是ring based allreduce？