敢问三爷现在学什么呐？ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

敢问三爷现在学什么呐？

敢问三爷现在学什么呐？# JobHunting - 待字闺中

p*22013-09-21 07:09

1 楼

想周末学点东西不知道学啥。

h*i2013-09-21 07:09

2 楼

统计

想周末学点东西不知道学啥。

【在 p*****2 的大作中提到】

: 想周末学点东西不知道学啥。

r*n2013-09-21 07:09

3 楼

二爷您的node。js搞得怎么样了，有空分享下心得啊
俺想着搞得深入些，没找到门路呢。

【在 p*****2 的大作中提到】

: 想周末学点东西不知道学啥。

p*22013-09-21 07:09

4 楼

准备学习一下这个课程，大牛觉得有用吗？
https://www.coursera.org/course/ml?utm_campaign=2013-september-newsletter&
utm_date=1379509441&utm_source=newsletter&utm_user=2397505&utm_medium=email&
utm_recommendation=1&utm_variant=24

【在 h***i 的大作中提到】

: 统计
:
: 想周末学点东西不知道学啥。

p*22013-09-21 07:09

5 楼

很强大，addictive。大牛搞到什么程度呀？

【在 r*******n 的大作中提到】

: 二爷您的node。js搞得怎么样了，有空分享下心得啊
: 俺想着搞得深入些，没找到门路呢。

p*22013-09-21 07:09

6 楼

另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀
？

【在 h***i 的大作中提到】

: 统计
:
: 想周末学点东西不知道学啥。

w*m2013-09-21 07:09

7 楼

hadoop就是个分散处理数据的平台。和machine learning没直接关系。
machine learning和统计差不多

【在 p*****2 的大作中提到】

:
: 另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀
: ？

p*22013-09-21 07:09

8 楼

ML用到Hadoop的情况多不多呀？data mining呢？

【在 w*********m 的大作中提到】

: hadoop就是个分散处理数据的平台。和machine learning没直接关系。
: machine learning和统计差不多

h*i2013-09-21 07:09

9 楼

ML建立模型，data mining是利用ML其他工具提取有用信息的过程，由于用ML的地方都
是大数据，最后也很可能需要写map reduce populate Hadoop. 能Online ML的就不需
要了。

另外大牛能不能简单谈一下machine learning, data minging和hadoop的关系是什么呀
？

【在 p*****2 的大作中提到】

:
: ML用到Hadoop的情况多不多呀？data mining呢？

w*m2013-09-21 07:09

10 楼

以前ML数据量小，或者数据量大，但可以sample了在用
现在维度太大，常常几十万维度，所以希望用大数据量来做training
mahout就是把ML实现到hadoop上的
但是由于hadoop设计上的缺点，machine之间缺乏communication，并不能很好地支持ML
于是又出现一些新的东西来解决这个问题，例如spark和graphlab
data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
才是data mining。
数数，算variance/mean，找median，甚至matrix computation都可以用hadoop实现。
但ML算法很多是iterative多次，直到converge，还得往distributed cache里load一个
巨大的中间model，而且机器间不好交流，global information难以拿到（优化就是要
找关于所有数据的最优），结果只能trade off用stochastic的办法，communication的
cost和问题巨大。

【在 p*****2 的大作中提到】

:
: ML用到Hadoop的情况多不多呀？data mining呢？

l*n2013-09-21 07:09

11 楼

hadoop就是个map-reduce的实现，讨论ML/DM跟hadoop的关系，实际上就是MR跟ML/DM的
关系。google下"Map-Reduce for Machine Learning on Multicore"这个paper，感觉
是最能体现二者关系的结论。
ML算是DM的超集吧，DM倾向于结论需要human readable，ML的结果只要机器懂不用管人
看不看得明白。

【在 p*****2 的大作中提到】

:
: ML用到Hadoop的情况多不多呀？data mining呢？

w*m2013-09-21 07:09

12 楼

offline解决的是大数据train model的速度问题
online一般是用model做prediction，速度一般不是大问题，主要是有的模型巨大，要
几十个G内存。但有时候问题也很大，比如多类别分类问题，当类别超过几千的时候，
反应时间会达到上百毫秒，这在online prediction是不能接受的。

【在 p*****2 的大作中提到】

:
: ML用到Hadoop的情况多不多呀？data mining呢？

p*22013-09-21 07:09

13 楼

ML
多谢大牛。长见识了。那现在job market上需要的ML主要是什么技能呢？

【在 w*********m 的大作中提到】

: 以前ML数据量小，或者数据量大，但可以sample了在用
: 现在维度太大，常常几十万维度，所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点，machine之间缺乏communication，并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题，例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数，算variance/mean，找median，甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次，直到converge，还得往distributed cache里load一个
: 巨大的中间model，而且机器间不好交流，global information难以拿到（优化就是要

p*22013-09-21 07:09

14 楼

多谢了。讲的很明白。

【在 l*n 的大作中提到】

: hadoop就是个map-reduce的实现，讨论ML/DM跟hadoop的关系，实际上就是MR跟ML/DM的
: 关系。google下"Map-Reduce for Machine Learning on Multicore"这个paper，感觉
: 是最能体现二者关系的结论。
: ML算是DM的超集吧，DM倾向于结论需要human readable，ML的结果只要机器懂不用管人
: 看不看得明白。

p*22013-09-21 07:09

15 楼

一般prediction的时间要求是100ms以下？

【在 w*********m 的大作中提到】

: offline解决的是大数据train model的速度问题
: online一般是用model做prediction，速度一般不是大问题，主要是有的模型巨大，要
: 几十个G内存。但有时候问题也很大，比如多类别分类问题，当类别超过几千的时候，
: 反应时间会达到上百毫秒，这在online prediction是不能接受的。

p*22013-09-21 07:09

16 楼

一般做recommendation需要什么ML的算法呀？

w*m2013-09-21 07:09

17 楼

如果以前不是搞ML的，最好不要转这边。这边top公司ML核心职位竞争非常激烈，全是
牛人。面试经验非常重要，还可能让你推导公司。
我搞了这么多年ML了，要去了牛公司都只能给人打杂，人家还不一定要我。要不就是在
非牛公司做点核心ML。
data engineer容易很多。

【在 p*****2 的大作中提到】

: 一般做recommendation需要什么ML的算法呀？

w*m2013-09-21 07:09

18 楼

看具体应用10ms-500ms都可能

【在 p*****2 的大作中提到】

: 一般做recommendation需要什么ML的算法呀？

w*m2013-09-21 07:09

19 楼

简单的就是数数，象amazon一样，assume没有data sparsity问题，有历史数据。
否则就麻烦了
自己看看netflix competition的paper吧

【在 p*****2 的大作中提到】

: 一般做recommendation需要什么ML的算法呀？

p*22013-09-21 07:09

20 楼

多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
么？统计和DM吗？
DM是不是能把很多ML现有的算法直接拿过来用呢？

【在 w*********m 的大作中提到】

: 如果以前不是搞ML的，最好不要转这边。这边top公司ML核心职位竞争非常激烈，全是
: 牛人。面试经验非常重要，还可能让你推导公司。
: 我搞了这么多年ML了，要去了牛公司都只能给人打杂，人家还不一定要我。要不就是在
: 非牛公司做点核心ML。
: data engineer容易很多。

b*52013-09-21 07:09

21 楼

前几天，不是大家都叫那个人去walnartlab做recommendation么？做recommendation
，不就需要ml？

【在 w*********m 的大作中提到】

r*n2013-09-21 07:09

22 楼

做了一个简单的 web service，给一个URI，返回一个数。
用了 express，支持GET， POST 和 cross-domain。

【在 p*****2 的大作中提到】

:
: 多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
: 么？统计和DM吗？
: DM是不是能把很多ML现有的算法直接拿过来用呢？

w*m2013-09-21 07:09

23 楼

data scientist有两种，一种其实是以前的BI analyst，偏marketing,要求不高，pay
得也不高
另外一种是developement team。pay得较高。但其实和software engineer相差也不大
。也是看牛度。
一般来说都是直接用算法，甚至直接用open source得代码。但要想进牛公司做
scientist。只会用现成得显然不行。
当然，学点基本的ML的东西也好，但如果想以后彻底从事这个职位，要慎重，这个方向
高段职位太看你的历史背景。
另外，除了专门需要做数据分析的公司外，别的公司在小的时候都不需要这样的角色。
所以专门的这样的角色，通常只适合大中公司。

【在 p*****2 的大作中提到】

w*m2013-09-21 07:09

24 楼

他连什么是recommendation都不知道，估计过去是做data engineer的，不是scientist
, 不用懂ML。

recommendation

【在 b**********5 的大作中提到】

: 前几天，不是大家都叫那个人去walnartlab做recommendation么？做recommendation
: ，不就需要ml？

y*u2013-09-21 07:09

25 楼

那个小朋友其实是隐牛
http://cis.upenn.edu/~yaytian/

scientist

【在 w*********m 的大作中提到】

: 他连什么是recommendation都不知道，估计过去是做data engineer的，不是scientist
: , 不用懂ML。
:
: recommendation

w*m2013-09-21 07:09

26 楼

靠，这都能人肉。
不过看来他就是搞这方面的，技术是懂，不懂的是啥是walmart labs

【在 y******u 的大作中提到】

: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

b*52013-09-21 07:09

27 楼

哇，顿时刮目想看。那些是 class project 么？

【在 y******u 的大作中提到】

: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

f*b2013-09-21 07:09

28 楼

赞

【在 y******u 的大作中提到】

: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

p*32013-09-21 07:09

29 楼

下了个hadoop玩了一下，学着配了个pseudo cluster,
下了一下第2章的weather data, 跑了一下程序，
晚上把它挪到EC2上去，就算入门了。

【在 p*****2 的大作中提到】

: 想周末学点东西不知道学啥。

c*y2013-09-21 07:09

30 楼

还是个歌手，，哈哈

【在 y******u 的大作中提到】

: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist

k*62013-09-21 07:09

31 楼

二位好勤奋！赞！

【在 p*****3 的大作中提到】

:
: 下了个hadoop玩了一下，学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序，
: 晚上把它挪到EC2上去，就算入门了。

p*22013-09-21 07:09

32 楼

cross domain什么意思？没用用backbone, angularjs啥的？

【在 r*******n 的大作中提到】

: 做了一个简单的 web service，给一个URI，返回一个数。
: 用了 express，支持GET， POST 和 cross-domain。

r*n2013-09-21 07:09

33 楼

cross domain 是当你用ajax访问其他web server的时候才会遇到，因为安全的原因
浏览器阻止ajax发出这样的请求。
比如你的web server的域名是 www.peking2.com，
在你的home page显示天气的温度，你后端不需要做什么工作，
只要前端用ajax 到 www.weather.com 上获取数据显示在home page，
类似这样做用jQuery
$.get('www.weather.com/location/weather/temp', function(data){
$(#html_element).html(data);
};
来自一个域名下的ajax要访问另外一个域名上的数据，这就是cross domain问题。

【在 p*****2 的大作中提到】

:
: cross domain什么意思？没用用backbone, angularjs啥的？

g*e2013-09-21 07:09

34 楼

这个用apache mod_proxy配置一下就行了吧

【在 r*******n 的大作中提到】

: cross domain 是当你用ajax访问其他web server的时候才会遇到，因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com，
: 在你的home page显示天气的温度，你后端不需要做什么工作，
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page，
: 类似这样做用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据，这就是cross domain问题。

e*t2013-09-21 07:09

35 楼

这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
cookie/session去做malicious的action。
具体例子，如果facebook的cookie不分domain，那当你访问我的网页可以直接有个ajax
call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.

【在 g**e 的大作中提到】

: 这个用apache mod_proxy配置一下就行了吧

g*e2013-09-21 07:09

36 楼

server端经常也是需要的，比如你的page要调用另外一个组的widget，而他们的domain
不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂，还请大牛指点

ajax

【在 e*****t 的大作中提到】

: 这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
: cookie/session去做malicious的action。
: 具体例子，如果facebook的cookie不分domain，那当你访问我的网页可以直接有个ajax
: call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.

p*22013-09-21 07:09

37 楼

这样就可以了吗？我以前做的是在server端做一个proxy service。

【在 r*******n 的大作中提到】

g*e2013-09-21 07:09

38 楼

我们那都是这么干的，有一个专门的team做这事

【在 p*****2 的大作中提到】

:
: 这样就可以了吗？我以前做的是在server端做一个proxy service。

p*22013-09-21 07:09

39 楼

是呀。以前以为只能这么干。现在有什么其他办法吗。

【在 g**e 的大作中提到】

: 我们那都是这么干的，有一个专门的team做这事

R*n2013-09-21 07:09

40 楼

re，现在很多职位都喜欢带上这个词，但其实里面很混，各种level/要求/待遇的都有
IT company里面不少data scientist是stat背景的人，但还有些有职位叫machine
learning engineer / scientist（要求更高些），这个是给CS背景的人

pay

【在 w*********m 的大作中提到】

: data scientist有两种，一种其实是以前的BI analyst，偏marketing,要求不高，pay
: 得也不高
: 另外一种是developement team。pay得较高。但其实和software engineer相差也不大
: 。也是看牛度。
: 一般来说都是直接用算法，甚至直接用open source得代码。但要想进牛公司做
: scientist。只会用现成得显然不行。
: 当然，学点基本的ML的东西也好，但如果想以后彻底从事这个职位，要慎重，这个方向
: 高段职位太看你的历史背景。
: 另外，除了专门需要做数据分析的公司外，别的公司在小的时候都不需要这样的角色。
: 所以专门的这样的角色，通常只适合大中公司。

p*22013-09-21 07:09

41 楼

我说两点node的好处吧
1.单线程，使得并发计算容易了很多很多。不用在烦恼FP里所讲究的immutability, 也
不用烦恼thread里面的synchronization。Node本身就是thread safe的。
2. 高性能，任何操作都不需要等待，使得完成一件时间的时间大大缩短。
习惯了以后看到别人写同步的代码总觉得很浪费。

R*n2013-09-21 07:09

42 楼

总结得很好～
简单的data mining or stat方法，大数据量，这个是目前大多数公司/职位的要求，用
hadoop类似的工具就能满足大部分要求
较复杂的ML甚至创新，且应用到大数据上，这个要求很高，对应的公司/职位也很少(比
如Google里面某些核心组，要求的都是专攻ml或者system的cs高水平phd)

ML

【在 w*********m 的大作中提到】

e*t2013-09-21 07:09

43 楼

当然，怎么都离不开server端。比如说刚刚举的例子，就需要server端设置cookie的
属性啊，比如说domain,path，还有一个很重要的就是httponly flag,这样javascript
，甚至java applet都不可见这个cookie了。
浏览器只是提供这些feature的support，最终都是server端来设置。
防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
别人的website interact，怎么搞。流行的方案自然是oauth.

domain
指点

【在 g**e 的大作中提到】

: server端经常也是需要的，比如你的page要调用另外一个组的widget，而他们的domain
: 不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂，还请大牛指点
:
: ajax

p*22013-09-21 07:09

44 楼

javascript
你说的这个交互还是server到server的吧？

【在 e*****t 的大作中提到】

: 当然，怎么都离不开server端。比如说刚刚举的例子，就需要server端设置cookie的
: 属性啊，比如说domain,path，还有一个很重要的就是httponly flag,这样javascript
: ，甚至java applet都不可见这个cookie了。
: 浏览器只是提供这些feature的support，最终都是server端来设置。
: 防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
: 别人的website interact，怎么搞。流行的方案自然是oauth.
:
: domain
: 指点

e*t2013-09-21 07:09

45 楼

离不开server去拿个token，不过之后就可以browser直接到对方的server了。直接
brwoser到对方server太容易被compromise了。

【在 p*****2 的大作中提到】

:
: javascript
: 你说的这个交互还是server到server的吧？

p*22013-09-21 07:09

46 楼

拿到token以后browser直接到对方server是什么实现机制呢？

【在 e*****t 的大作中提到】

: 离不开server去拿个token，不过之后就可以browser直接到对方的server了。直接
: brwoser到对方server太容易被compromise了。

p*22013-09-21 07:09

47 楼

三爷学的真快呀。

【在 p*****3 的大作中提到】

:
: 下了个hadoop玩了一下，学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序，
: 晚上把它挪到EC2上去，就算入门了。

e*t2013-09-21 07:09

48 楼

永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
计数器，排名，广告这些这么搞？关键是security,如果是public什么问题都没有，可
是如果是需要authentication或者authorization的，人家就需要你somehow是验证过的
来防止XSS。
所以这个东西就是某种token （cookie本质上不也是header里面的token嘛）。oauth就
是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
要用你的facebook或者什么其他网站的permissions。

【在 p*****2 的大作中提到】

:
: 三爷学的真快呀。

r*n2013-09-21 07:09

49 楼

是的
在Node.js里
返回每个请求之前设置http head也就几行代码。
例子：
Access-Control-Allow-Origin: http://foo.example
Access-Control-Allow-Methods: POST, GET, OPTIONS

【在 g**e 的大作中提到】

: 这个用apache mod_proxy配置一下就行了吧

e*t2013-09-21 07:09

50 楼

okay, 我知道你说什么了。这个是client side same origin policy.
放这些header，可以allow执行在foo.example domain上的javascripts access 这个页
面,以及它的DOM and etc.否则，虽然人在浏览器里可以看到(如果不是ajax call)，但
javascripts是没法访问的。
这个跟我之前讨论的还是不完全一样的。

【在 r*******n 的大作中提到】

: 是的
: 在Node.js里
: 返回每个请求之前设置http head也就几行代码。
: 例子：
: Access-Control-Allow-Origin: http://foo.example
: Access-Control-Allow-Methods: POST, GET, OPTIONS

z*e2013-09-21 07:09

51 楼

可以不用拿到整体数据
拿到一定程度的数据之后，直接用统计模型猜不就好了
这样可以有效减少多次遍历，如果有需要，再做二次比较深入的循环之类的
就跟nosql一样，对于重要的数据，上db，次要的，随便找个cassandra什么慢慢玩

ML

【在 w*********m 的大作中提到】

w*m2013-09-21 07:09

52 楼

你是指random sample?

【在 z****e 的大作中提到】

: 可以不用拿到整体数据
: 拿到一定程度的数据之后，直接用统计模型猜不就好了
: 这样可以有效减少多次遍历，如果有需要，再做二次比较深入的循环之类的
: 就跟nosql一样，对于重要的数据，上db，次要的，随便找个cassandra什么慢慢玩
:
: ML

z*e2013-09-21 07:09

53 楼

只要满足一定条件的sample不就可以了
用apache common math lib，里面常用的统计模型都有
直接先扔一个猜测的包含有confidence的结果给客户
然后再增加一个额外的按钮，写上深入全面分析之类的文字
如果用户需要，再点这个按钮，然后再做比较全面的遍历

【在 w*********m 的大作中提到】

: 你是指random sample?

p*22013-09-21 07:09

54 楼

negotiate
oauth我知道，我不理解的是，你拿到facebook的token，然后你页面的JS就可以call
Facebook了？

【在 e*****t 的大作中提到】

: 永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
: 计数器，排名，广告这些这么搞？关键是security,如果是public什么问题都没有，可
: 是如果是需要authentication或者authorization的，人家就需要你somehow是验证过的
: 来防止XSS。
: 所以这个东西就是某种token （cookie本质上不也是header里面的token嘛）。oauth就
: 是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
: 的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
: 要用你的facebook或者什么其他网站的permissions。

p*22013-09-21 07:09

55 楼

这个意思呀。一般什么情况这么用？让别的网站脚本可以访问自己的页面。这个自己的
cookie还是不能被访问吧？

【在 e*****t 的大作中提到】

: okay, 我知道你说什么了。这个是client side same origin policy.
: 放这些header，可以allow执行在foo.example domain上的javascripts access 这个页
: 面,以及它的DOM and etc.否则，虽然人在浏览器里可以看到(如果不是ajax call)，但
: javascripts是没法访问的。
: 这个跟我之前讨论的还是不完全一样的。

w*m2013-09-21 07:09

56 楼

你说的是BI分析？

【在 z****e 的大作中提到】

: 只要满足一定条件的sample不就可以了
: 用apache common math lib，里面常用的统计模型都有
: 直接先扔一个猜测的包含有confidence的结果给客户
: 然后再增加一个额外的按钮，写上深入全面分析之类的文字
: 如果用户需要，再点这个按钮，然后再做比较全面的遍历

t*h2013-09-21 07:09

57 楼

赞！

【在 p*****3 的大作中提到】

:
: 下了个hadoop玩了一下，学着配了个pseudo cluster,
: 下了一下第2章的weather data, 跑了一下程序，
: 晚上把它挪到EC2上去，就算入门了。

f*b2013-09-21 07:09

58 楼

mark

【在 z****e 的大作中提到】

h*d2013-09-21 07:09

59 楼

ML不是非要用统计的方法阿。

【在 w*********m 的大作中提到】

: hadoop就是个分散处理数据的平台。和machine learning没直接关系。
: machine learning和统计差不多