avatar
初入data science的困惑# DataSciences - 数据科学
a*7
1
今天早上在微博上看到的,好感人的照片。。。
--------------------
2011年5月13日,贵州省纳雍县羊场乡新丰小学,路娅杰(右)的妹妹赶到学校来蹭饭
,吃得太大口太急了,噎住了。当日,该校的免费午餐正式开餐了。
avatar
d*r
2
【此篇文章是由自动发信系统所张贴】
⊙ 此次投票的允许资格为:
1. 上站次数需大于 20 次 .
2. 文章数目需大于 20 篇.
3. 上站总时数需大于 0 小时.
4. 上站物理时间需大于 0 天.
⊙ 投票开启于:Mon Mar 28 16:40:50 2011 类别:复选
⊙ 主题:【每周一题】红颜易老 刹那芳华
⊙ 票选题目描述:
上周作业的链接:
" target="_blank" class="a2">http://www.mitbbs.com/article_t2/PhotoProcessing/6117.html
各位童鞋看看你最喜欢谁完成的作业,投票4.4日截止。
【选项如下】
(1) cool11373
(2) floweringing
(3) lillblues
(4) pentaxian
avatar
s*o
3
理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。
avatar
S*t
4
。。。。
avatar
s*o
5
还有一个麻烦,我原来学校的物理系,没有印度faculty,九十多研究生里只有三个印度
人,从没觉得听力有问题。而现在的部门一多半都是印度人,各层级的boss印度人也差
不多占了一半。苍天哪,英语听力严重受损阿,听不懂啊!

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
A*8
6
好感动
avatar
d*n
7
让我给你讲个故事吧:
曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。
年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他
,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼
,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的
大鱼和老板请喝酒羡慕得不得了。
日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁
。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了
网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧
熙熙攘攘,充满了年轻水手的梦想。
每次我在酒吧里看到年轻的水手出现,就讲这个故事给他听,让他给我买酒。

【在 s*********o 的大作中提到】
: 还有一个麻烦,我原来学校的物理系,没有印度faculty,九十多研究生里只有三个印度
: 人,从没觉得听力有问题。而现在的部门一多半都是印度人,各层级的boss印度人也差
: 不多占了一半。苍天哪,英语听力严重受损阿,听不懂啊!

avatar
N*f
8
母性初成……正所谓“穷人的孩子早当家”。

【在 a*********7 的大作中提到】
: 今天早上在微博上看到的,好感人的照片。。。
: --------------------
: 2011年5月13日,贵州省纳雍县羊场乡新丰小学,路娅杰(右)的妹妹赶到学校来蹭饭
: ,吃得太大口太急了,噎住了。当日,该校的免费午餐正式开餐了。

avatar
j*g
9
Hadoop, Hive, Pig, MapR, Mahout是网
lz是水手
你是老板还是网工呢?

【在 d****n 的大作中提到】
: 让我给你讲个故事吧:
: 曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。
: 年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他
: ,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼
: ,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的
: 大鱼和老板请喝酒羡慕得不得了。
: 日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁
: 。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了
: 网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧
: 熙熙攘攘,充满了年轻水手的梦想。

avatar
h*r
10
哪里的微博?
对了,OCEF有官方微薄吗?

【在 a*********7 的大作中提到】
: 今天早上在微博上看到的,好感人的照片。。。
: --------------------
: 2011年5月13日,贵州省纳雍县羊场乡新丰小学,路娅杰(右)的妹妹赶到学校来蹭饭
: ,吃得太大口太急了,噎住了。当日,该校的免费午餐正式开餐了。

avatar
a*g
11
现在能把数据整理出来,就能得到不少以前不知道的信息了
至于数理能力的优势,那是建模方面的优势了,没有独特的数据或者有发展独特模型的
需求,都用不上啊
avatar
a*7
12
朋友转别人转的,我看到的时候已经辗转多次了。
OCEF听说有,不过暂时用得不多。有计划要多利用,不过还需要一个人来负责。这
也算网络募捐组的事情,过一阵看能不能弄起来吧。。。

【在 h*********r 的大作中提到】
: 哪里的微博?
: 对了,OCEF有官方微薄吗?

avatar
S*y
13
Big data trumps both human intuition and sophisticated algorithms.
avatar
b*0
14
我们的Social media presence亟待加强。
这也是我们公关组正着手work on 的一项任务。

【在 a*********7 的大作中提到】
: 朋友转别人转的,我看到的时候已经辗转多次了。
: OCEF听说有,不过暂时用得不多。有计划要多利用,不过还需要一个人来负责。这
: 也算网络募捐组的事情,过一阵看能不能弄起来吧。。。

avatar
z*3
15
太小看java了
jvm和java没那么容易搞
最好投入点时间把java好好学学
慢慢就好了,java不难,但是如果没有几个月的投入
足够让你晕菜,放下身段,找本java教材好好看看
这行动手和实践相结合,该实践时候还是要实践
不懂java,弱点很明显

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
z*3
16
现在你的门槛就是不会java
java对于软件这行来说尤其重要
会跟不会差距甚大
python等脚本不能跟java比
从各方面来看,效率,兼容性这些
而且会java才能谈得上分布式这些
hadoop用rmi的,而不是web service这些
效率也比web service要高,所以你现在最大的问题就是不会java
建议你认真学习java,java过后,你跟cs毕业的差距至少抹平了一半
avatar
z*3
17
学校最讨厌一点就是对jvm和java不重视
很多老师为了不让学生折腾
所以都选用python这些来教,java要折腾安装这些,非常麻烦
用python不用折腾,所以老师都喜欢用python
减少自己上课时候的负担,反正原理传递出去了
至于用啥语言,不是老师的职责之所在
但是跑到外面去打工,java和jvm又无处不在
avatar
t*u
18
学校做数值计算的一般都是c啊
快啊,反正不用考虑平台什么

【在 z*******3 的大作中提到】
: 学校最讨厌一点就是对jvm和java不重视
: 很多老师为了不让学生折腾
: 所以都选用python这些来教,java要折腾安装这些,非常麻烦
: 用python不用折腾,所以老师都喜欢用python
: 减少自己上课时候的负担,反正原理传递出去了
: 至于用啥语言,不是老师的职责之所在
: 但是跑到外面去打工,java和jvm又无处不在

avatar
z*3
19
postdoc写程序用c,fortran这些,用hpc这些
但是现在上课都用python,python对于c和fortran这些写的包封装也相对容易
一般上课跟postdoc搞的那些无关,上课最重要的是把理论传播出去
用c教就更痛苦,c写起来搞死一堆人,还不如java
主要都是master或者bachelor课,phd基本上没课了

【在 t*********u 的大作中提到】
: 学校做数值计算的一般都是c啊
: 快啊,反正不用考虑平台什么

avatar
t*u
20
非马公的 一般也没有什么编程课了吧

【在 z*******3 的大作中提到】
: postdoc写程序用c,fortran这些,用hpc这些
: 但是现在上课都用python,python对于c和fortran这些写的包封装也相对容易
: 一般上课跟postdoc搞的那些无关,上课最重要的是把理论传播出去
: 用c教就更痛苦,c写起来搞死一堆人,还不如java
: 主要都是master或者bachelor课,phd基本上没课了

avatar
z*3
21
big data课哪有不写代码的
大部分都是cs或者com开头的课程
这种课都需要写代码

【在 t*********u 的大作中提到】
: 非马公的 一般也没有什么编程课了吧
avatar
t*u
22
不实在讨论非马工的情况么

【在 z*******3 的大作中提到】
: big data课哪有不写代码的
: 大部分都是cs或者com开头的课程
: 这种课都需要写代码

avatar
z*3
23
ft
data science首先是cs的分支,ml都是ai的一部分
其次才是应用数学或者说应用统计学
对于非cs毕业的同学,要想从事这个行业
首先应该把cs基础给补上,否则太空中楼阁了
现在还没进化到那个程度
而补课的时候,应该稍微重视一下一些通用语言的学习
完全不会这个在干活时候肯定受影响

【在 t*********u 的大作中提到】
: 不实在讨论非马工的情况么
avatar
t*u
24
你要这样说的话,很多年前cs就是在数学系里面的
没有什么那个在前那个在后的
很多东西其他的系都要学,只不过现在米尤全民搞信息,公司就只要招学cs的而已
Cs与其他不同的东西反而不考,最后面试也就变成了刷题,当然专业就成了入场卷而已

【在 z*******3 的大作中提到】
: ft
: data science首先是cs的分支,ml都是ai的一部分
: 其次才是应用数学或者说应用统计学
: 对于非cs毕业的同学,要想从事这个行业
: 首先应该把cs基础给补上,否则太空中楼阁了
: 现在还没进化到那个程度
: 而补课的时候,应该稍微重视一下一些通用语言的学习
: 完全不会这个在干活时候肯定受影响

avatar
z*3
25
这么说倒也没错
cs本身也是数学的一部分
但是cs跟统计没有太多交叉
cs很多东西其他系也在搞
这个也没错
但就是java其他系不怎么搞,比如ee,物理的几乎都不懂java
因为没学过
而java是软件工程基础,分布式中也有大量应用
几乎所有的相关课程都用java来上
所以楼主需要补上这门课

【在 t*********u 的大作中提到】
: 你要这样说的话,很多年前cs就是在数学系里面的
: 没有什么那个在前那个在后的
: 很多东西其他的系都要学,只不过现在米尤全民搞信息,公司就只要招学cs的而已
: Cs与其他不同的东西反而不考,最后面试也就变成了刷题,当然专业就成了入场卷而已

avatar
t*u
26
看方向把,网络类的估计用的多,
搞底层的或者纯数值的还是c
我知道很多涉及到核能的软件都得上fortran,核物理系的基本都用那个

【在 z*******3 的大作中提到】
: 这么说倒也没错
: cs本身也是数学的一部分
: 但是cs跟统计没有太多交叉
: cs很多东西其他系也在搞
: 这个也没错
: 但就是java其他系不怎么搞,比如ee,物理的几乎都不懂java
: 因为没学过
: 而java是软件工程基础,分布式中也有大量应用
: 几乎所有的相关课程都用java来上
: 所以楼主需要补上这门课

avatar
d*n
27
可惜不是这样子滴。

【在 S******y 的大作中提到】
: Big data trumps both human intuition and sophisticated algorithms.
avatar
v*n
28
他们公司的hiring procedure有问题吧? 楼主这种背景应该去IB或者trading公司呀。

【在 d****n 的大作中提到】
: 让我给你讲个故事吧:
: 曾经有个海,海里的鱼乌央乌央,钓也钓不完。但是出海要半年,要有船和渔网。
: 年轻的水手找到了好心的码头老板愿意租船给他,找到了勤劳的网工愿意织渔网卖给他
: ,于是就出海了。过了6个月,水手钓鱼的水平果然了得,满载而归,钓到了最大的鱼
: ,老板请他去当地的酒吧喝了酒,让女招待把钓到的大鱼宴请了宾客。网工看到水手的
: 大鱼和老板请喝酒羡慕得不得了。
: 日子就这么一年年过去了,年轻的水手变成了中年的水手,家里的钓鱼照片贴满了墙壁
: 。老板不再只有一条船而是有几十条船了。酒吧的女招待年纪大了但没嫁给水手嫁给了
: 网工。网工也不再自己织网了,找了一批退休但是没有离开小镇的水手织网。码头依旧
: 熙熙攘攘,充满了年轻水手的梦想。

avatar
v*n
29
真正的合格的软工是language independent的。。。 楼主的title 虽然可能是data
scientist 但其实还是软工的角色。

【在 z*******3 的大作中提到】
: 现在你的门槛就是不会java
: java对于软件这行来说尤其重要
: 会跟不会差距甚大
: python等脚本不能跟java比
: 从各方面来看,效率,兼容性这些
: 而且会java才能谈得上分布式这些
: hadoop用rmi的,而不是web service这些
: 效率也比web service要高,所以你现在最大的问题就是不会java
: 建议你认真学习java,java过后,你跟cs毕业的差距至少抹平了一半

avatar
h*3
30
连data都不会manipulate的人,怎么能做好data science了?
理工科虽然不分家,但是理论物理的人还是过于偏向纯理科,而工科训练严重不足。在
实际的data science工业界,工科占据主导,而数理上的modeling不是很重要的技能。
现在各大公司data science招人,都宁愿招engineering背景强而modeling弱的,也不
愿意招modeling强而engineering弱的人。因为实际当中的modeling大部分都很简单。
上过大学数学的人,翻一下课本,查查wiki,看看coursea就会了。而Engineering的背
景需要一个一个的项目累积起来,没有那么容易。

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
j*y
31
说实话大家吧data science搞的gds上,真正发明model的人很少。
纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
里面
gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
果就是。
但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
解,
这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
错,
但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
z*e
32
理论上
是的
只是现在分布式的各种乱七八糟的产品,普遍一个感觉
不正规,或者说,不象pc上那么傻瓜化
server上的东西很多都是命令行
有java就谢天谢地了,至少能搞定垮平台
主要是server side,傻瓜化各种操作的需求并不强烈
因为多数人不用,所以linux什么到现在还主要是通过命令行来操作
现在只能寄希望于cloud能简化os层面的操作,但是hadoop这个app层面的简化
还有非常长的路要走,目前看还遥遥无期
从这个现状出发,不会hadoop这些,对工作有很大影响
这也没办法,这是status quo
就像很多软工其实都不喜欢linux那些command line
还有git,但是没办法,该做还是要做,要不然工作受影响
另外,软工做到language independent的也几乎不可能
熟悉一个语言的ecosystem非常的消耗时间,熟悉任何一个产品,都需要时间
而这个时间短则几个月,长则半年,一年甚至几年都有
而且好的语言本身的ecosystem也在迅速膨胀,稍微一不留神,就被拉下了
说合格软工都不在乎语言的,这只是理想状态,甚至我觉得永远都不可能实现
面试时候其实都会多少问问之前做了什么,然后看看是否match
这个match最简单的就是,看看之前用的产品跟现在用的产品是否一致

【在 v**n 的大作中提到】
: 真正的合格的软工是language independent的。。。 楼主的title 虽然可能是data
: scientist 但其实还是软工的角色。

avatar
z*e
33
说说你们用了什么模型
我们现在这边就在整合整个国家内所有医院的数据库
目前看,效果相当不错,你们如果不用的话
没准我们能用上,多谢

ml

【在 j****y 的大作中提到】
: 说实话大家吧data science搞的gds上,真正发明model的人很少。
: 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
: 里面
: gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
: 果就是。
: 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
: 解,
: 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
: 错,
: 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。

avatar
z*e
34
现在ib什么也都在hadoop
去做矿工现在trader自己也没血了
就不容易分汤给矿工喝

【在 v**n 的大作中提到】
: 他们公司的hiring procedure有问题吧? 楼主这种背景应该去IB或者trading公司呀。
avatar
t*u
35
后面那个second
有些语言真的反人类 例如sas
这个必须得经常用着

【在 z****e 的大作中提到】
: 理论上
: 是的
: 只是现在分布式的各种乱七八糟的产品,普遍一个感觉
: 不正规,或者说,不象pc上那么傻瓜化
: server上的东西很多都是命令行
: 有java就谢天谢地了,至少能搞定垮平台
: 主要是server side,傻瓜化各种操作的需求并不强烈
: 因为多数人不用,所以linux什么到现在还主要是通过命令行来操作
: 现在只能寄希望于cloud能简化os层面的操作,但是hadoop这个app层面的简化
: 还有非常长的路要走,目前看还遥遥无期

avatar
z*e
36
那多少是咨询公司故意的
要是都那么直接,你老板就不掏钱请他们了

【在 t*********u 的大作中提到】
: 后面那个second
: 有些语言真的反人类 例如sas
: 这个必须得经常用着

avatar
P*6
37
那你们现在用的模型是不是也比较简单?

【在 z****e 的大作中提到】
: 说说你们用了什么模型
: 我们现在这边就在整合整个国家内所有医院的数据库
: 目前看,效果相当不错,你们如果不用的话
: 没准我们能用上,多谢
:
: ml

avatar
b*a
38
饱汉不知饿汉饥啊,
我好想搞你这类东西

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
g*o
39
gds是gibbs? 我觉得还好理解吧..

ml

【在 j****y 的大作中提到】
: 说实话大家吧data science搞的gds上,真正发明model的人很少。
: 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
: 里面
: gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
: 果就是。
: 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
: 解,
: 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
: 错,
: 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。

avatar
z*e
40
有一点不太明白
为什么你们要让病人看懂呢?
医院难道不是医生在用这些系统?
病人不是医生说啥就听啥?

ml

【在 j****y 的大作中提到】
: 说实话大家吧data science搞的gds上,真正发明model的人很少。
: 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
: 里面
: gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
: 果就是。
: 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
: 解,
: 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
: 错,
: 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。

avatar
s*w
41
wondering how to find an offer easily? how was the interview? Thanks

【在 s*********o 的大作中提到】
: 理论物理出身,一直呆在学校,临近毕业开始投简历试水,很容易就得了一个offer.是
: 一家公司刚成立两年的data science部门。当初投这个位置是因为自己的数理背景强,
: 想做数据分析。现在入职一段时间了,一点数据分析的工作也没沾到,倒是Hadoop,
: Hive, Pig, MapR, Mahout一股脑的砸过来,我都晕了。一起来的CS背景的比我上手快
: 很多。感觉自己的长项用不上,而IT又是我的软肋,每天忙忙碌碌,仔细想想似乎基本
: 上没什么长进。第一次遇到看书看不懂的情况,有点小沮丧啊。

avatar
f*x
42
你的观点和我接触那帮做数据的给出的结论一模一样
其实本身面试也不难,都是些基础模型

ml

【在 j****y 的大作中提到】
: 说实话大家吧data science搞的gds上,真正发明model的人很少。
: 纽约金融部门很多还是线性模型最有用,医院基本都是logistic regression, 很多ml
: 里面
: gds的模型实际根本不work,或根本不用,也就IT一些公司用一个gds的模型,反正有结
: 果就是。
: 但是金融,医院的很多model不能是个blackbox,里面的东西必须要让客户清楚,要能理
: 解,
: 这个只有线性模型可以。我实际和医院的人合作过project,虽然gds的model结果很不
: 错,
: 但是他们反复纠结,最后不用,因为那东西病人无法理解,那就不能用。

avatar
t*u
43
拿到面试的入场券靠什么呢

【在 f********x 的大作中提到】
: 你的观点和我接触那帮做数据的给出的结论一模一样
: 其实本身面试也不难,都是些基础模型
:
: ml

avatar
B*g
44
建立吹牛B

【在 t*********u 的大作中提到】
: 拿到面试的入场券靠什么呢
avatar
t*u
45
给个吹的方向

【在 B*****g 的大作中提到】
: 建立吹牛B
avatar
B*g
46
linkedin上找个烙印的抄,然后记住每一条都要想好怎么圆

【在 t*********u 的大作中提到】
: 给个吹的方向
avatar
f*x
47
基本上就是工作要求啥,你简历就写会啥,搞数据建模那个部门,学历以统计为主,但
其实什么专业都有

【在 t*********u 的大作中提到】
: 拿到面试的入场券靠什么呢
avatar
t*u
48
显现好像找人就认 统计和cs

【在 f********x 的大作中提到】
: 基本上就是工作要求啥,你简历就写会啥,搞数据建模那个部门,学历以统计为主,但
: 其实什么专业都有

avatar
j*y
49
gds意思是高大上。。。
你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已,
以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么
复杂。
但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data
怎么选,
还有别的问题。

【在 g*****o 的大作中提到】
: gds是gibbs? 我觉得还好理解吧..
:
: ml

avatar
j*y
50
病人要在医生的配合下填表,里面的数据要用来做预测,医生必须解释这些数据
对他结果的可能影响,实际上,很多医院统计用的都是简单的regression,
他们无法接受任何非线性的东西。

【在 z****e 的大作中提到】
: 有一点不太明白
: 为什么你们要让病人看懂呢?
: 医院难道不是医生在用这些系统?
: 病人不是医生说啥就听啥?
:
: ml

avatar
t*u
51
nod
商学院自己给自己设门槛
其实里面的东西不怎么样

已,
data

【在 j****y 的大作中提到】
: gds意思是高大上。。。
: 你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已,
: 以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么
: 复杂。
: 但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data
: 怎么选,
: 还有别的问题。

avatar
z*e
52
我觉得data sci里面根据数据结构组织程度可以划分出很多档次
象web page这种,就近乎无结构,google就通过找到被url的次数作为reference
然后根据这个被url次数做排序,来大幅提升效率
但是医院的数据,基本上都有比较清晰的结果
就像你说的,填表,所以这个时候,统计派上用场的地方就少了
我们总结下来,这种整合可以通过拓扑也就是建立ontology来完成
无非一堆metadata之间的关系,建图,然后找路径就好了
但是最麻烦的是,如果是纯粹混乱的数据结构
就像各种web pages那种,互相之间没有url,那怎么办?
这个领域我觉得统计的用场是大大的
目前我做到的是通过一个树状结构来查找最大不同的意思酱紫

【在 j****y 的大作中提到】
: 病人要在医生的配合下填表,里面的数据要用来做预测,医生必须解释这些数据
: 对他结果的可能影响,实际上,很多医院统计用的都是简单的regression,
: 他们无法接受任何非线性的东西。

avatar
z*e
53
我写在一些内部交流的文章里面的
根据数据结构做一个scale
有完整的数据结构的,比如db里面的table
这种用ontology建图,然后用图论上的各种理论去优化
这是一个极端,这个极端可以通过engineering来解决
因为没有太多统计的东西,数据之间的关联很清晰,传统cs足够用
另外一个极端就是完全无结构的数据
这个时候必需用svd来挖掘出topics,然后分类
然后用language model或者是statistics model或者是svm这些
找出关联,排序,然后反馈,最好用datamart建缓冲
这样可以提升效率
这个极端统计就用得灰常多了,因为数据之间关联不清晰,需要挖掘出来
传统cs没有对付这种的经验,需要借助数学其他分支
大多数都介于两者之间,当然对于无结构数据的处理更有挑战性
或者说技术含量
这块有一个gds的说法,叫做semantic
avatar
z*e
54
我们除了医院以外,最近一个topic就是如何根据政治人物的各种公开数据
挖掘出这个政治人物跟企业献金之间的关联,这个就是纯粹无结构的数据
要挖掘出关联来,这个多少考验一点统计知识,因为公开数据结构很混乱
来源很复杂,网页,数据库,excel,xml,json,甚至txt,什么都有
那怎么搞,就比较考验统计,尤其是txt和web page里面的数据
avatar
T*u
55
这个严重同意。开会的时候能搞多fancy搞多fancy,怎么吸引眼球怎么来;做产品的话
,能搞多简单就搞多简单。性能提高5%,model的复杂程度要提高20%。这20%复杂程度
带来的维护的开销和risk远远大于那性能提高5%的收益。

已,
data

【在 j****y 的大作中提到】
: gds意思是高大上。。。
: 你看看finance系发的很多好paper,全部一个ols搞定,无法就是加点检测的东西而已,
: 以前我看过quant的版的讨论,他们说很多实际赚钱用的模型都很trival,根本没那么
: 复杂。
: 但不是说没有复杂的。但一个模型的结果,更多时和你选择什么样的factor,你的data
: 怎么选,
: 还有别的问题。

avatar
c*z
56
大牛你好
你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page
content data差不多算没有结构的。
多谢大牛!
PS:大牛的邮箱满了。

【在 z****e 的大作中提到】
: 我写在一些内部交流的文章里面的
: 根据数据结构做一个scale
: 有完整的数据结构的,比如db里面的table
: 这种用ontology建图,然后用图论上的各种理论去优化
: 这是一个极端,这个极端可以通过engineering来解决
: 因为没有太多统计的东西,数据之间的关联很清晰,传统cs足够用
: 另外一个极端就是完全无结构的数据
: 这个时候必需用svd来挖掘出topics,然后分类
: 然后用language model或者是statistics model或者是svm这些
: 找出关联,排序,然后反馈,最好用datamart建缓冲

avatar
t*u
57
coqiu

【在 c***z 的大作中提到】
: 大牛你好
: 你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page
: content data差不多算没有结构的。
: 多谢大牛!
: PS:大牛的邮箱满了。

avatar
z*e
58
location和工种不太对呀
我是做分布式系统开发的,严格来说不是data scientist
这边的data scientist主要是大学的professor在搞
一般公司里没有这么高级的职位,只有政府有
但是政府需要入籍十年以上,还有政审
palantir什么拿到的都是政府的单
不是公民进不去,我拿到的移民局的offer就这样飞了……
可以问问在美西的同学

【在 c***z 的大作中提到】
: 大牛你好
: 你说的这些我多少都懂一点,能不能求个内推?我目前主要搞click stream/page
: content data差不多算没有结构的。
: 多谢大牛!
: PS:大牛的邮箱满了。

avatar
c*z
59
知道了。谢谢大牛。
大牛什么时候起事搞自己的公司可不可以叫上我啊。

【在 z****e 的大作中提到】
: location和工种不太对呀
: 我是做分布式系统开发的,严格来说不是data scientist
: 这边的data scientist主要是大学的professor在搞
: 一般公司里没有这么高级的职位,只有政府有
: 但是政府需要入籍十年以上,还有政审
: palantir什么拿到的都是政府的单
: 不是公民进不去,我拿到的移民局的offer就这样飞了……
: 可以问问在美西的同学

avatar
z*e
60
好的,关键还是一些资源的收集
说白了就是人,没有特别好的人,只能一个个试过去
有些艺术性的东西,合适的人不太好找

【在 c***z 的大作中提到】
: 知道了。谢谢大牛。
: 大牛什么时候起事搞自己的公司可不可以叫上我啊。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。