p*2
4 楼
准备学习一下这个课程,大牛觉得有用吗?
https://www.coursera.org/course/ml?utm_campaign=2013-september-newsletter&
utm_date=1379509441&utm_source=newsletter&utm_user=2397505&utm_medium=email&
utm_recommendation=1&utm_variant=24
【在 h***i 的大作中提到】
: 统计
:
: 想周末学点东西不知道学啥。
w*m
10 楼
以前ML数据量小,或者数据量大,但可以sample了在用
现在维度太大,常常几十万维度,所以希望用大数据量来做training
mahout就是把ML实现到hadoop上的
但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
于是又出现一些新的东西来解决这个问题,例如spark和graphlab
data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
才是data mining。
数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
找关于所有数据的最优),结果只能trade off用stochastic的办法,communication的
cost和问题巨大。
【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?
现在维度太大,常常几十万维度,所以希望用大数据量来做training
mahout就是把ML实现到hadoop上的
但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
于是又出现一些新的东西来解决这个问题,例如spark和graphlab
data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
才是data mining。
数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
找关于所有数据的最优),结果只能trade off用stochastic的办法,communication的
cost和问题巨大。
【在 p*****2 的大作中提到】
:
: ML用到Hadoop的情况多不多呀?data mining呢?
p*2
13 楼
ML
多谢大牛。长见识了。那现在job market上需要的ML主要是什么技能呢?
【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
p*2
16 楼
一般做recommendation需要什么ML的算法呀?
w*m
23 楼
data scientist有两种,一种其实是以前的BI analyst,偏marketing,要求不高,pay
得也不高
另外一种是developement team。pay得较高。但其实和software engineer相差也不大
。也是看牛度。
一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
scientist。只会用现成得显然不行。
当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
高段职位太看你的历史背景。
另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
所以专门的这样的角色,通常只适合大中公司。
【在 p*****2 的大作中提到】
:
: 多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
: 么?统计和DM吗?
: DM是不是能把很多ML现有的算法直接拿过来用呢?
得也不高
另外一种是developement team。pay得较高。但其实和software engineer相差也不大
。也是看牛度。
一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
scientist。只会用现成得显然不行。
当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
高段职位太看你的历史背景。
另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
所以专门的这样的角色,通常只适合大中公司。
【在 p*****2 的大作中提到】
:
: 多谢大牛。我主要是想了解以下。刚才正想问一下data scientist这种职位主要是搞什
: 么?统计和DM吗?
: DM是不是能把很多ML现有的算法直接拿过来用呢?
y*u
25 楼
那个小朋友其实是隐牛
http://cis.upenn.edu/~yaytian/
scientist
【在 w*********m 的大作中提到】
: 他连什么是recommendation都不知道,估计过去是做data engineer的,不是scientist
: , 不用懂ML。
:
: recommendation
http://cis.upenn.edu/~yaytian/
scientist
【在 w*********m 的大作中提到】
: 他连什么是recommendation都不知道,估计过去是做data engineer的,不是scientist
: , 不用懂ML。
:
: recommendation
w*m
26 楼
靠,这都能人肉。
不过看来他就是搞这方面的,技术是懂,不懂的是啥是walmart labs
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
不过看来他就是搞这方面的,技术是懂,不懂的是啥是walmart labs
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
b*5
27 楼
哇, 顿时刮目想看。 那些是 class project 么?
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
f*b
28 楼
赞
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
c*y
30 楼
还是个歌手,,哈哈
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
【在 y******u 的大作中提到】
: 那个小朋友其实是隐牛
: http://cis.upenn.edu/~yaytian/
:
: scientist
r*n
33 楼
cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
浏览器阻止ajax发出这样的请求。
比如你的web server的域名是 www.peking2.com,
在你的home page显示天气的温度, 你后端不需要做什么工作,
只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
类似这样做 用jQuery
$.get('www.weather.com/location/weather/temp', function(data){
$(#html_element).html(data);
};
来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。
【在 p*****2 的大作中提到】
:
: cross domain什么意思?没用用backbone, angularjs啥的?
浏览器阻止ajax发出这样的请求。
比如你的web server的域名是 www.peking2.com,
在你的home page显示天气的温度, 你后端不需要做什么工作,
只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
类似这样做 用jQuery
$.get('www.weather.com/location/weather/temp', function(data){
$(#html_element).html(data);
};
来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。
【在 p*****2 的大作中提到】
:
: cross domain什么意思?没用用backbone, angularjs啥的?
g*e
34 楼
这个用apache mod_proxy配置一下就行了吧
【在 r*******n 的大作中提到】
: cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com,
: 在你的home page显示天气的温度, 你后端不需要做什么工作,
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
: 类似这样做 用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。
【在 r*******n 的大作中提到】
: cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com,
: 在你的home page显示天气的温度, 你后端不需要做什么工作,
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
: 类似这样做 用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。
g*e
36 楼
server端经常也是需要的,比如你的page要调用另外一个组的widget,而他们的domain
不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点
ajax
【在 e*****t 的大作中提到】
: 这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
: cookie/session去做malicious的action。
: 具体例子,如果facebook的cookie不分domain,那当你访问我的网页可以直接有个ajax
: call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.
不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点
ajax
【在 e*****t 的大作中提到】
: 这个很多时候是客户端(browser)的事情,因为要防止有的网页利用你已经logged in的
: cookie/session去做malicious的action。
: 具体例子,如果facebook的cookie不分domain,那当你访问我的网页可以直接有个ajax
: call去facebook发一条消息。记得过去myspace就遭受过XSS的attack.
p*2
37 楼
这样就可以了吗?我以前做的是在server端做一个proxy service。
【在 r*******n 的大作中提到】
: cross domain 是当你用ajax访问其他web server的时候才会遇到,因为安全的原因
: 浏览器阻止ajax发出这样的请求。
: 比如你的web server的域名是 www.peking2.com,
: 在你的home page显示天气的温度, 你后端不需要做什么工作,
: 只要前端用ajax 到 www.weather.com 上获取数据显示在home page,
: 类似这样做 用jQuery
: $.get('www.weather.com/location/weather/temp', function(data){
: $(#html_element).html(data);
: };
: 来自一个域名下的ajax要访问另外一个域名上的数据,这就是cross domain问题。
R*n
40 楼
re,现在很多职位都喜欢带上这个词,但其实里面很混,各种level/要求/待遇的都有
IT company里面不少data scientist是stat背景的人,但还有些有职位叫machine
learning engineer / scientist(要求更高些),这个是给CS背景的人
pay
【在 w*********m 的大作中提到】
: data scientist有两种,一种其实是以前的BI analyst,偏marketing,要求不高,pay
: 得也不高
: 另外一种是developement team。pay得较高。但其实和software engineer相差也不大
: 。也是看牛度。
: 一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
: scientist。只会用现成得显然不行。
: 当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
: 高段职位太看你的历史背景。
: 另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
: 所以专门的这样的角色,通常只适合大中公司。
IT company里面不少data scientist是stat背景的人,但还有些有职位叫machine
learning engineer / scientist(要求更高些),这个是给CS背景的人
pay
【在 w*********m 的大作中提到】
: data scientist有两种,一种其实是以前的BI analyst,偏marketing,要求不高,pay
: 得也不高
: 另外一种是developement team。pay得较高。但其实和software engineer相差也不大
: 。也是看牛度。
: 一般来说都是直接用算法,甚至直接用open source得代码。但要想进牛公司做
: scientist。只会用现成得显然不行。
: 当然,学点基本的ML的东西也好,但如果想以后彻底从事这个职位,要慎重,这个方向
: 高段职位太看你的历史背景。
: 另外,除了专门需要做数据分析的公司外,别的公司在小的时候都不需要这样的角色。
: 所以专门的这样的角色,通常只适合大中公司。
p*2
41 楼
我说两点node的好处吧
1.单线程,使得并发计算容易了很多很多。不用在烦恼FP里所讲究的immutability, 也
不用烦恼thread里面的synchronization。Node本身就是thread safe的。
2. 高性能,任何操作都不需要等待,使得完成一件时间的时间大大缩短。
习惯了以后看到别人写同步的代码总觉得很浪费。
1.单线程,使得并发计算容易了很多很多。不用在烦恼FP里所讲究的immutability, 也
不用烦恼thread里面的synchronization。Node本身就是thread safe的。
2. 高性能,任何操作都不需要等待,使得完成一件时间的时间大大缩短。
习惯了以后看到别人写同步的代码总觉得很浪费。
R*n
42 楼
总结得很好~
简单的data mining or stat方法,大数据量,这个是目前大多数公司/职位的要求,用
hadoop类似的工具就能满足大部分要求
较复杂的ML甚至创新,且应用到大数据上,这个要求很高,对应的公司/职位也很少(比
如Google里面某些核心组,要求的都是专攻ml或者system的cs高水平phd)
ML
【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
简单的data mining or stat方法,大数据量,这个是目前大多数公司/职位的要求,用
hadoop类似的工具就能满足大部分要求
较复杂的ML甚至创新,且应用到大数据上,这个要求很高,对应的公司/职位也很少(比
如Google里面某些核心组,要求的都是专攻ml或者system的cs高水平phd)
ML
【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
e*t
43 楼
当然,怎么都离不开server端。 比如说刚刚举的例子,就需要server端设置cookie的
属性啊,比如说domain,path,还有一个很重要的就是httponly flag,这样javascript
,甚至java applet都不可见这个cookie了。
浏览器只是提供这些feature的support,最终都是server端来设置。
防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
别人的website interact,怎么搞。流行的方案自然是oauth.
domain
指点
【在 g**e 的大作中提到】
: server端经常也是需要的,比如你的page要调用另外一个组的widget,而他们的domain
: 不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点
:
: ajax
属性啊,比如说domain,path,还有一个很重要的就是httponly flag,这样javascript
,甚至java applet都不可见这个cookie了。
浏览器只是提供这些feature的support,最终都是server端来设置。
防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
别人的website interact,怎么搞。流行的方案自然是oauth.
domain
指点
【在 g**e 的大作中提到】
: server端经常也是需要的,比如你的page要调用另外一个组的widget,而他们的domain
: 不同。主流浏览器现在都有xss prevention了吧。我front end基本不懂,还请大牛指点
:
: ajax
p*2
44 楼
javascript
你说的这个交互还是server到server的吧?
【在 e*****t 的大作中提到】
: 当然,怎么都离不开server端。 比如说刚刚举的例子,就需要server端设置cookie的
: 属性啊,比如说domain,path,还有一个很重要的就是httponly flag,这样javascript
: ,甚至java applet都不可见这个cookie了。
: 浏览器只是提供这些feature的support,最终都是server端来设置。
: 防止XSS现在大多数网站都搞的okay,现在cross-domain的问题是如果你的website要和
: 别人的website interact,怎么搞。流行的方案自然是oauth.
:
: domain
: 指点
e*t
48 楼
永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
计数器,排名,广告这些这么搞?关键是security,如果是public什么问题都没有,可
是如果是需要authentication或者authorization的,人家就需要你somehow是验证过的
来防止XSS。
所以这个东西就是某种token (cookie本质上不也是header里面的token嘛)。oauth就
是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
要用你的facebook或者什么其他网站的permissions。
【在 p*****2 的大作中提到】
:
: 三爷学的真快呀。
计数器,排名,广告这些这么搞?关键是security,如果是public什么问题都没有,可
是如果是需要authentication或者authorization的,人家就需要你somehow是验证过的
来防止XSS。
所以这个东西就是某种token (cookie本质上不也是header里面的token嘛)。oauth就
是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
要用你的facebook或者什么其他网站的permissions。
【在 p*****2 的大作中提到】
:
: 三爷学的真快呀。
r*n
49 楼
是的
在Node.js里
返回每个请求之前 设置http head也就几行代码。
例子:
Access-Control-Allow-Origin: http://foo.example
Access-Control-Allow-Methods: POST, GET, OPTIONS
【在 g**e 的大作中提到】
: 这个用apache mod_proxy配置一下就行了吧
在Node.js里
返回每个请求之前 设置http head也就几行代码。
例子:
Access-Control-Allow-Origin: http://foo.example
Access-Control-Allow-Methods: POST, GET, OPTIONS
【在 g**e 的大作中提到】
: 这个用apache mod_proxy配置一下就行了吧
e*t
50 楼
okay, 我知道你说什么了。这个是client side same origin policy.
放这些header,可以allow执行在foo.example domain上的javascripts access 这个页
面,以及它的DOM and etc.否则,虽然人在浏览器里可以看到(如果不是ajax call),但
javascripts是没法访问的。
这个跟我之前讨论的还是不完全一样的。
【在 r*******n 的大作中提到】
: 是的
: 在Node.js里
: 返回每个请求之前 设置http head也就几行代码。
: 例子:
: Access-Control-Allow-Origin: http://foo.example
: Access-Control-Allow-Methods: POST, GET, OPTIONS
放这些header,可以allow执行在foo.example domain上的javascripts access 这个页
面,以及它的DOM and etc.否则,虽然人在浏览器里可以看到(如果不是ajax call),但
javascripts是没法访问的。
这个跟我之前讨论的还是不完全一样的。
【在 r*******n 的大作中提到】
: 是的
: 在Node.js里
: 返回每个请求之前 设置http head也就几行代码。
: 例子:
: Access-Control-Allow-Origin: http://foo.example
: Access-Control-Allow-Methods: POST, GET, OPTIONS
z*e
51 楼
可以不用拿到整体数据
拿到一定程度的数据之后,直接用统计模型猜不就好了
这样可以有效减少多次遍历,如果有需要,再做二次比较深入的循环之类的
就跟nosql一样,对于重要的数据,上db,次要的,随便找个cassandra什么慢慢玩
ML
【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
拿到一定程度的数据之后,直接用统计模型猜不就好了
这样可以有效减少多次遍历,如果有需要,再做二次比较深入的循环之类的
就跟nosql一样,对于重要的数据,上db,次要的,随便找个cassandra什么慢慢玩
ML
【在 w*********m 的大作中提到】
: 以前ML数据量小,或者数据量大,但可以sample了在用
: 现在维度太大,常常几十万维度,所以希望用大数据量来做training
: mahout就是把ML实现到hadoop上的
: 但是由于hadoop设计上的缺点,machine之间缺乏communication,并不能很好地支持ML
: 于是又出现一些新的东西来解决这个问题,例如spark和graphlab
: data mining这个词的定义很含糊。有人认为数数就是data mining。有人认为ML和优化
: 才是data mining。
: 数数,算variance/mean,找median,甚至matrix computation都可以用hadoop实现。
: 但ML算法很多是iterative多次,直到converge,还得往distributed cache里load一个
: 巨大的中间model,而且机器间不好交流,global information难以拿到(优化就是要
p*2
54 楼
negotiate
oauth我知道,我不理解的是,你拿到facebook的token,然后你页面的JS就可以call
Facebook了?
【在 e*****t 的大作中提到】
: 永远可以你的webpage永远可以含有去别的website的link或者ajax call啊。否则那些
: 计数器,排名,广告这些这么搞?关键是security,如果是public什么问题都没有,可
: 是如果是需要authentication或者authorization的,人家就需要你somehow是验证过的
: 来防止XSS。
: 所以这个东西就是某种token (cookie本质上不也是header里面的token嘛)。oauth就
: 是让你的server和人家的server negotiate一个token,这个token包含了一个negotiate
: 的expiration time和允许的permissions,这就是为什么你访问很多网站会出现说他们
: 要用你的facebook或者什么其他网站的permissions。
相关阅读
内推Java软件工程师请问有人在PSE&G工作吗?求推荐。Google team match技巧有人参加cppcon吗 ? 有什么新发现今年?工资要低了不如就事论事 说说gatech online昨天最后一轮被烙印黑,能发心给HR说说么?Airbnb Uber Lyft现在算什么级别女职员就必须忍受或者习惯男上司骚扰吗?请教export licenses的填写问题湾区自动驾驶码工行情加班推门看到领太没法形容的隐私有卡千老转omscs笑到最后没了PP现在怎么换工作现在各种刷题培训班太杂了,查查这些所谓FLAG背景的简历吧各位大拿干到现在觉得cs里最牛逼的是哪个职场交际不宜太深,也不必靠太近板上有apple和airbnb内推么没有人设的老板未必是好老板,但有人设的早晚要栽跟头上次那个找工作的爆料滴滴G-Tech毕业的面试官