data scientist 的 code test是不是集中在数据寻找上# DataSciences - 数据科学z*n2014-07-01 07:071 楼笔记摘要:http://www.doc88.com/p-4900112112.html视频点播录像:http://www.amtb.org.tw/section1/jiangtang.asp?web_choice=10&web_rel_index=110
P*62014-07-01 07:072 楼很遗憾听到斑竹被layoff的消息。希望斑竹能借此更上一层楼。我看了一下斑竹和他人的面试经验,感觉code test是不是集中在数据寻找上? 比如数据库,树。这个看起来比较合理。当然范围也很大,不过,果然如此,刷题可能更有针对性一些
z*e2014-07-01 07:073 楼刷题只能刷本科的算法和数据结构简单说是单机算法和内存中的数据结构data science则涉及cs的方方面面分布式,数据存储,网络,应用统计,线性代数ai,全部都用就可视化稍微弱点,其他的都用上了,只会觉得自己会的太少
P*62014-07-01 07:074 楼说的对,我的意思是不考虑统计,线性代数,就计算机方面而言,data science 是不是只(或主要如70%)涉及数据提取相关。这样至少有所侧重。当然如你所说,要扩大到计算机集群上(比如并行计算对算法的改变)。这个范围就又扩大了。正因为这样,才不得不有所选择。说实话,我怀疑有谁会是所有方面的专家(我的意思是专家,而不是基本考题能过的水平, 比如说就算能回答上nerual network back propagation, 也还谈不上是这方面的专家)。作为一个团队来讲,每个人精通一个或几个方面,然后别的也都懂,相互补充和backup比较可行。我觉得又大又全,什么都会的思路是底层打工或小作坊的思路。就是图找工作面广。如果说错了,欢迎指正。【在 z****e 的大作中提到】: 刷题只能刷本科的算法和数据结构: 简单说是单机算法和内存中的数据结构: data science则涉及cs的方方面面: 分布式,数据存储,网络,应用统计,线性代数: ai,全部都用: 就可视化稍微弱点,其他的都用上了,只会觉得自己会的太少
j*n2014-07-01 07:075 楼所以说单纯的问 data science 面试什么是没有意义的。 你应该结合你自己的背景,看自己的强项在哪里,然后投对口的职位。data science 里面有纯码工类型,那就上来就刷题,没啥说的;有 数学 背景,上来就是推公式;也有传统的 BI 背景的,那就是上来就写 SQL 数据库.data science 是个很虚的概念,没有必要追究 data science or not.【在 P*****6 的大作中提到】: 说的对,我的意思是不考虑统计,线性代数,就计算机方面而言,data science 是不: 是只(或主要如70%)涉及数据提取相关。这样至少有所侧重。当然如你所说,要扩大: 到计算机集群上(比如并行计算对算法的改变)。这个范围就又扩大了。正因为这样,: 才不得不有所选择。说实话,我怀疑有谁会是所有方面的专家(我的意思是专家,而不: 是基本考题能过的水平, 比如说就算能回答上nerual network back propagation, 也: 还谈不上是这方面的专家)。作为一个团队来讲,每个人精通一个或几个方面,然后别: 的也都懂,相互补充和backup比较可行。我觉得又大又全,什么都会的思路是底层打工: 或小作坊的思路。就是图找工作面广。如果说错了,欢迎指正。
P*62014-07-01 07:076 楼我也是这么认为,如果面试问题多样化,就强调自己的优势,然后表明其它的大部分也基本能马上跟上,与人合作就行了。【在 j*****n 的大作中提到】: 所以说单纯的问 data science 面试什么是没有意义的。 你应该结合你自己的背景,: 看自己的强项在哪里,然后投对口的职位。data science 里面有纯码工类型,那就上: 来就刷题,没啥说的;有 数学 背景,上来就是推公式;也有传统的 BI 背景的,那就: 是上来就写 SQL 数据库.: data science 是个很虚的概念,没有必要追究 data science or not.
j*n2014-07-01 07:077 楼关键是有一样能出众. 半吊子多的很,精通一样就足够拿offer, 不会SQL学一学1个星期就能和熟练手差不了多少了。 你是啥背景?【在 P*****6 的大作中提到】: 我也是这么认为,如果面试问题多样化,就强调自己的优势,然后表明其它的大部分也: 基本能马上跟上,与人合作就行了。
z*e2014-07-01 07:078 楼这种时代,想做螺丝钉,风险很大以前ibm就以培养螺丝钉著称,什么都不懂,就懂他做那一小块离开了ibm就不行了,搞得很多猎头都不喜欢去ibm挖人以前ibm不裁员,有纯蓝的说法,就是在ibm干一辈子,然后退休但是后来不行了,ibm年年都裁员,it不是一个混日子的地方唯一不变的就是改变,ds这块严格说来是以前db和分布式的延伸或者再精确一点,就是数据挖掘的一个发展也许我们不指望一个人什么都会,这是一个绝对理想的状态,可能永远都实现不了但是从这个理想状态出发,选择最逼近这个状态的候选人这应该是所有公司雇人的基本思路对个人来说,这也是一个发展自身新技能的机会比如对于以前做分布式的同学来说,他们看到了hadoop编程框架对于以前做dba的同学来说,他们看到了cassandra, hbase等db和hive这个dw对于以前做bi的同学来说,他们看到了pig所以各取所需,但是你要说以前搞嵌入式的看到了啥……这个我真不知道,也许有吧【在 P*****6 的大作中提到】: 说的对,我的意思是不考虑统计,线性代数,就计算机方面而言,data science 是不: 是只(或主要如70%)涉及数据提取相关。这样至少有所侧重。当然如你所说,要扩大: 到计算机集群上(比如并行计算对算法的改变)。这个范围就又扩大了。正因为这样,: 才不得不有所选择。说实话,我怀疑有谁会是所有方面的专家(我的意思是专家,而不: 是基本考题能过的水平, 比如说就算能回答上nerual network back propagation, 也: 还谈不上是这方面的专家)。作为一个团队来讲,每个人精通一个或几个方面,然后别: 的也都懂,相互补充和backup比较可行。我觉得又大又全,什么都会的思路是底层打工: 或小作坊的思路。就是图找工作面广。如果说错了,欢迎指正。
P*62014-07-01 07:079 楼首先,我觉得data scientist 确实要比较全面一点。 但是在此基础上,我更同意jetchen的观点。以现在的世界杯举例,如果队里都是老马这样的全才,当然好。(其实老马也不全,头球不行,后卫干不了,只是举例)但是实际不可能,去招各方面都逼近老马的绝不是最好的选择。很可能最后招来的是什么都是平庸的。最后团队也是平庸的。比如data scientist需要三种技能,最好是3,最差是0。对团队而言,招3,1,1得分通常好过2,2,2的,虽然总分较低。因为团队可以合作达到最后整体各方面3分的最佳效果。而都是2,2,2的最后也就是2的水准。当然如果是3,0,0会造成沟通欠佳,难以整合。好比后卫最好是卡洛斯,能助攻,一点不能助攻,就不能跟肥罗配合了。所以我的意思是面试的时候,最好有点有面,突出优点,面上的东西有些不是很会也没有关系,强调合作能力,和快速学习能力可能混过去。【在 z****e 的大作中提到】: 这种时代,想做螺丝钉,风险很大: 以前ibm就以培养螺丝钉著称,什么都不懂,就懂他做那一小块: 离开了ibm就不行了,搞得很多猎头都不喜欢去ibm挖人: 以前ibm不裁员,有纯蓝的说法,就是在ibm干一辈子,然后退休: 但是后来不行了,ibm年年都裁员,it不是一个混日子的地方: 唯一不变的就是改变,ds这块严格说来是以前db和分布式的延伸: 或者再精确一点,就是数据挖掘的一个发展: 也许我们不指望一个人什么都会,这是一个绝对理想的状态,可能永远都实现不了: 但是从这个理想状态出发,选择最逼近这个状态的候选人: 这应该是所有公司雇人的基本思路
z*e2014-07-01 07:0710 楼从我的经历来看,螺丝钉是没有活路的我本科学软件工程的,这些理论我太熟悉了但是我不认同这种说法,做成螺丝钉会被阿三或者外包所替换迟早的事,而现在新趋势是连外包都不用了,直接上开源如果你真的了解市场,就应该知道,现在一个人要做多件事是常态我要是老板,就喜欢招古德霸这种来干活,因为他什么都做现在没有多少职位是说你就搞这个,然后搞一辈子,其他什么都不用搞如果要搞,招其他人来搞,越来越少,对多面手的需求越来越多因为软件工具自身越来越简单,尤其是同一个领域的软件工具各种傻瓜化可视化的工具越来越多,性能越来越强大然后做得好的工具直接开源,这样就不需要受过训练的工程师来做了直接从网络上down下来,安装一下,就可以用了,还雇人做什么?这不是踢球,踢球一定是11个人,没有也得补齐,但是工作不是这么说得老板能让10人搞定的事,往往不会掏钱去雇另外一个人,补齐11个人没有意义,外包一样死,因为外包好歹是收钱的,跟开源没法竞争这就是所谓的startup文化,搞it唯一不变的就是改变和发展停在原地踏步,迟早被淘汰,就像某人说的以前学了corba,后来都rmi了,庆幸没白学,结果过几年一看都web service了,corba的知识就彻底没用了,现在会corba根本没有人要没有意义,以前还有很多公司做os,做db,现在去哪里找,都是开源的直接上从it角度看,data science其实跟sde差别没那么大可以说就是分布式的合理延伸,很多时候ds就是sde在做,title都是忽悠1【在 P*****6 的大作中提到】: 首先,我觉得data scientist 确实要比较全面一点。 但是在此基础上,我更同意: jetchen的观点。以现在的世界杯举例,如果队里都是老马这样的全才,当然好。(其: 实老马也不全,头球不行,后卫干不了,只是举例)但是实际不可能,去招各方面都逼: 近老马的绝不是最好的选择。很可能最后招来的是什么都是平庸的。最后团队也是平庸: 的。比如data scientist需要三种技能,最好是3,最差是0。对团队而言,招3,1,1: 得分通常好过2,2,2的,虽然总分较低。因为团队可以合作达到最后整体各方面3分的: 最佳效果。而都是2,2,2的最后也就是2的水准。当然如果是3,0,0会造成沟通欠佳: ,难以整合。好比后卫最好是卡洛斯,能助攻,一点不能助攻,就不能跟肥罗配合了。: 所以我的意思是面试的时候,最好有点有面,突出优点,面上的东西有些不是很会也没: 有关系,强调合作能力,和快速学习能力可能混过去。
P*62014-07-01 07:0713 楼这个要细谈,估计我们没有什么大的差异。说话侧重不同。我其实是喜欢各种都会的。就是发现不能样样精。【在 z****e 的大作中提到】: 从我的经历来看,螺丝钉是没有活路的: 我本科学软件工程的,这些理论我太熟悉了: 但是我不认同这种说法,做成螺丝钉会被阿三或者外包所替换: 迟早的事,而现在新趋势是连外包都不用了,直接上开源: 如果你真的了解市场,就应该知道,现在一个人要做多件事是常态: 我要是老板,就喜欢招古德霸这种来干活,因为他什么都做: 现在没有多少职位是说你就搞这个,然后搞一辈子,其他什么都不用搞: 如果要搞,招其他人来搞,越来越少,对多面手的需求越来越多: 因为软件工具自身越来越简单,尤其是同一个领域的软件工具: 各种傻瓜化可视化的工具越来越多,性能越来越强大
r*d2014-07-01 07:0714 楼高级的ds是有行业经验的,见多识广。比如hedge fund里面做algorithimic trading research and development的就有金融经验,看心脏病的医生有临床经验,要不然永远就是一个洗菜的。
S*y2014-07-01 07:0715 楼Ding!【在 z****e 的大作中提到】: 这种时代,想做螺丝钉,风险很大: 以前ibm就以培养螺丝钉著称,什么都不懂,就懂他做那一小块: 离开了ibm就不行了,搞得很多猎头都不喜欢去ibm挖人: 以前ibm不裁员,有纯蓝的说法,就是在ibm干一辈子,然后退休: 但是后来不行了,ibm年年都裁员,it不是一个混日子的地方: 唯一不变的就是改变,ds这块严格说来是以前db和分布式的延伸: 或者再精确一点,就是数据挖掘的一个发展: 也许我们不指望一个人什么都会,这是一个绝对理想的状态,可能永远都实现不了: 但是从这个理想状态出发,选择最逼近这个状态的候选人: 这应该是所有公司雇人的基本思路
P*62014-07-01 07:0716 楼这个没错,计算机,Machine/statistic learning, 行业经验我觉得是DS的三根支柱,有两个不错,再会第三个就可以了。三项全能很难。但是zhaoce说的也不错,由于最近大量数据的快速积累,造成处理大数据的需求要远高于后两者。这个形势跟不上,至少做DS很危险。【在 r*****d 的大作中提到】: 高级的ds是有行业经验的,见多识广。: 比如hedge fund里面做algorithimic trading research and development的就有金融: 经验,: 看心脏病的医生有临床经验,: 要不然永远就是一个洗菜的。
r*d2014-07-01 07:0717 楼理解你的想法,不过我还是觉得行业经验是本,其他两个是工具。计算机那边,推陈出新那么快,前浪沙滩上的倾向性很明显;统计这边虽然技术相对稳定,但如果没有行业经验指导,也不得其神。我们大家加油就对了 :)【在 P*****6 的大作中提到】: 这个没错,计算机,Machine/statistic learning, 行业经验我觉得是DS的三根支柱,: 有两个不错,再会第三个就可以了。三项全能很难。但是zhaoce说的也不错,由于最近: 大量数据的快速积累,造成处理大数据的需求要远高于后两者。这个形势跟不上,至少: 做DS很危险。