public cloud还是挺贵的。先自己弄个机器弄个business plan在家里用一段时间。等
有人真正开始用你的service以后,再考虑EC2或者Azure.其实,传统的托管价格比较实
惠。关键是你的整个pipeline是怎么做的,比如你需要periodically run hadoop job
做traning产生model吗? 这又牵涉到你的data store用什么。 看你说的,应该是考虑
mongoDB,CouchDB之类的,总的来说,这方面EC2玩起来最flexible.
如果用微软的平台,可以不花钱加入bizspark.三年之内用windows server, sql
server license不要钱。用Azure有免费的package价值$60K.
decision tree, random forest之类的classifier很快.优化一下你的engine吧。model
可以放到memory cache里面.如果qps确实高,可以很容易增加你的role instance
number。
从cost优化的角度考虑,可以把request分tier做。如某些可以用糙一点的模型。
一般training数据多比较慢,我不觉得classifier本身跑起来很慢。如果用了现成的
package很慢,想办法优化吧。