s*k
2 楼
分别用什么service啊?training用EC2,原始那些training data 放在S3,model
train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
用lambda?还有哪些经验?
train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
用lambda?还有哪些经验?
a*r
3 楼
Sorry for keep you waiting, we are Chinese. hehe
s*k
4 楼
自己顶一下,板上大牛说说要设计一个large scale的machine learning,有没有什么
可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
是不是就可以了?
balance
【在 s********k 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 分别用什么service啊?training用EC2,原始那些training data 放在S3,model
: train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
: 用lambda?还有哪些经验?
可以参考的,比如一个model一台机子跑不下,怎么做分布式?然而训练数据和模型数
据分别存储在哪里?实际中怎么实现?如果上线之后需要更改model,A/B test的方案
是不是就可以了?
balance
【在 s********k 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 分别用什么service啊?training用EC2,原始那些training data 放在S3,model
: train出来的数据在DynamoDB ?然后如果在serving stage data很多前面load balance
: 用lambda?还有哪些经验?
f*2
8 楼
应该可以scale out吧,而且大体思路估计有人做过
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf
: deep learning训练不适合scale out,最好的办法就是升级单机。
: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
: 是只读的,scale out很容易。
【在 w***g 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
: 实在实在非要存个啥地方,就存S3。
:
: SQL
https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf
: deep learning训练不适合scale out,最好的办法就是升级单机。
: serving的话就无所谓了,如果数据比较小还可以用CPU算。服务器
: 是只读的,scale out很容易。
【在 w***g 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 参数就是一个文件,或者一个目录。直接和程序一块儿拷过去就行。
: 实在实在非要存个啥地方,就存S3。
:
: SQL
s*k
9 楼
现在大规模做都是用 tree based allreduce还是ring based allreduce?
b*g
10 楼
用tensorflow吧,可以上几百个gpu worker,几十个parameter sever
https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
-engine
https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
-engine
s*k
11 楼
就是说基本上现在做这些distributed还是用parameter server,不用allreduce?
compute
【在 b******g 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 用tensorflow吧,可以上几百个gpu worker,几十个parameter sever
: https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
: -engine
compute
【在 b******g 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 用tensorflow吧,可以上几百个gpu worker,几十个parameter sever
: https://cloud.google.com/solutions/running-distributed-tensorflow-on-compute
: -engine
相关阅读
闲的蛋疼安装了五个流氓软件j2ee是最好的技术,所有在美國找工作的华人都应该学爽! Android Studio 1.0 Released为何空格鄙视tab? 3空鄙视4空和8空?!round问题老板脑抽要用nools..这几天研究一下jsoncons,看看怎么设计json数据结构C++终于又火了感觉解决JS callback hell的最佳解决办法就是Monaddart又出各种新工具了贵圈真乱之linux (转载)mahout现在还有人用不?前几天有人问rvalue reference的爪哇并发和push用什么框架C++ operator = overloading用copy & swap有啥优点请教如何学java和找工作现在聊fp的多数都是搞scala的,当然都是搞定了java的家伙曲线光滑,什么算法最好?问个小孩子学习编程的问题pypyodbc error access netezza SQL server on win7 (转载)