Redian新闻
>
分享两个data scientist职位的面经
avatar
分享两个data scientist职位的面经# DataSciences - 数据科学
p*y
1
纪念张纯如
铜像捐款链接:
http://www.cmain.org/new/index.php?_m=mod_product&_a=view&p_id=
张纯如,一个真正的民族英雄,CMAIN重新建立这个张纯如FUND, 用来建立一个铜像,
树立在旧金山的CHINA TOWN,让所有经过那里的人都了解这一段历史,了解一个女子,
曾经为了揭露被蓄意隐瞒的历史,付出了自己的生命。
英文原版的在这里购买
http://www.amazon.com/The-Rape-Nanking-Forgotten-Holocaust/dp/0
中文在线阅读转自 凤凰网读书频道
http://v.book.ifeng.com/read/book/ts/32902.htm
简介: 1937年12月,日军攻入中国古都南京。几周之内,30多万中国平民和士兵遭到
有计划地强暴、折磨和屠杀——死亡人数超过广岛和长崎原子弹爆炸遇难人数的总和。
张纯如从三个视角讲述了南京大屠杀的故事:一是日本人的视角,二是中国人的视角,
三是一群不肯抛弃南京的西方人的视角,他们创立了安全区,最终拯救了近30万名中国
人。张纯如不仅在书中详述了日军疯狂暴行的细节,而且分析了在军国主义文化背景下
成长起来的日本士兵对人类生命的漠视。张纯如对南京大屠杀的幸存者进行了大量采访
,并首次发掘了许多重要文献。该书是关于这段恐怖历史的权威之作。
民族之殤亦是民族之恥
avatar
Y*i
2
西式传统中还有一个专门给准新娘的bridal shower环节.
这个是在婚礼前一个月左右举行,必须由未来婆家筹办,婆家的女眷都会应邀出席,主要
是一顿午饭,出席的女眷会带上礼物,送给准新娘.
这个shower的主要作用是让准新娘和未来婆家的女人们见面,大家互相认识一下,毕竟大
家以后都是一家人了.
这里说个小细节,由于我未来婆婆家那边很早年就移民到美国了,他们的作风已经很西化
了,对于西方文化很了解,所以我的婚礼是西式的.
Bridal Shower上除了我收了一大堆礼物外,我还收到我rehearsal上会用到的bouquet.
我未来婆婆说这是传统,这个bouquet是我未来婆婆亲手做的,用的材料是包装礼物的假
花和包装带.我未来婆婆当时坐在我旁边,我拆了礼物,包装带和假花她都收集起来,我一
开始以为她大概收集好了一起丢掉,结果她在我旁边捣鼓了大半天,把那堆东西捣鼓成了
一bouquet,她给我,叫我收好,rehearsal那天就用这个假的bouquet,这个是好的,是风俗
习惯.
感谢我未来婆婆,教会了我很多东西,还在我婚礼筹备中间帮了很多忙.
avatar
M*Q
3
最近面了两个data scientist的职位,title虽然是data scientist,
但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
学的,做一些运筹优化和learning的东西。
第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
相对随意的多,主要就是讲讲简历上面的东西。
第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
检验方面的东西,熟悉常用的test就可以了。
youtube的第二轮上来问你有什么analysis的经验,我就讲了个project,问了很多
project里面的细节。后来问了一个问题,假设engineer有1000个同样的硬件,6个月之
后一个也没有坏,问这个reliability如何,我不知道怎么回答,说了一些东西。第二
个问题,就是linear regression, 什么是linear regression,举个例子, 怎么估计
参数,估计完了参数干什么。
两个都已经挂掉了,发在版上,有人申请同样职位的话可以借鉴一下。
avatar
p*y
4
该书中译本《南京浩劫:被遗忘的大屠杀》在2007年南京大屠杀70周年时出版,又已过
了5年。2012年是南京大屠杀75周年,在这5年间发生了许多事情,其中包括我为我女儿
纯如写的英文回忆录《TheWomanWhoCouldNotForget:
IrisChangBeforeandBeyondTheRapeofNanking》已于2011年在美国出版,中译本《张纯
如:无法忘却历史的女子》也已由中信出版社在2012年4月出版。在回忆录中我详细记
载了纯如自出生到逝世的36年短暂的一生,其中最重要的一章即她写作该书的详细经过
。中信出版社为南京大屠杀75周年重新翻译出版纯如的这本着作,我感到非常荣幸能为
这本书再作介绍。
纯如在该书写作及出版的过程中付出许多努力,最后克服困难完成写作。纯如在
1995年1月就前往美国国会图书馆及耶鲁大学神学院图书馆收集数据,后来又在1995年7
月到南京实地采访南京大屠杀的幸存者。回美后,纯如努力阅读整理所得资料,并在
1996年找到南京大屠杀期间安全区领袖德国商人拉贝的外孙女而发现了《拉贝日记》。
这一连串的活动都是纯如孜孜不息地努力得到的结果。纯如在写作过程中阅读了大量有
关屠杀的血腥的文献和报告,以致精神上受到很大的震撼,导致失眠、厌食。但她仍然
坚持完成该书,她对我说:“作为一个作家,我要拯救那些被遗忘的人。为那些不能发
声的人发言。”这都基于她为受害者鸣不平的执着。这是她维护历史真相、保护人权的
一种热忱的表现,当然亦是她本身敬业精神所至。
该书于1997年11月南京大屠杀60周年之际出版,出版后不久就登上了《纽约时报》
非小说类畅销书排行榜,并达3个月之久。纯如是当时唯一一位作品登上非小说类排行
榜的美籍华人,因此该书立刻受到了美国出版界的重视,在美国引起轰动。后来该书被
翻译成十几种语言文字,成为一本国际畅销书。一般来说,美国主流社会对第二次世界
大战中犹太人被德国纳粹迫害的历史非常熟悉,对“二战”中日本对中国及邻国的侵略
历史却所知有限。这要归根于美国等西方国家对亚洲“二战”历史的漠视。该书当时是
唯一用英语专题讨论南京大屠杀的书,不仅叙述了这段不为西方国家所了解的可悲历史
,更重要的是深刻地揭示了人性的善与恶,批评了人类的种族歧视现象,并探讨了幸存
者人权的问题,体现了纯如维护人权及正义的热忱。该书对美国等西方国家了解“二战
”亚洲战场中日本侵华历史有极大的贡献和深远的影响。
1999年9月,纯如在一封给我们的家书中写道:“南京大屠杀终于在世界历史中展
开了自己最真实的那一页。我上周去本地的书店时,发现许多新近出版的有20世纪历史
的着作中都写到了南京大屠杀。例如,马丁·吉尔伯特在他的长篇巨着《20世纪世界史
(第二卷):1933~1951年》中就写到了南京大屠杀,甚至还直接引用了我书中的内容
。彼得·詹宁斯的《世纪》以及史蒂芬·安布罗斯的《新编”二战“历史》中也提到了
南京大屠杀。”该书的出版改变了西方英语国家没有关于南京大屠杀这一历史事件详细
记载的状况。
另外,该书在国际上产生了影响,例如2005年,当日本想进入联合国安全理事会成
为常任理事国时,在美国的华人发动签名请愿上诉运动,反对日本得到这个特殊地位。
那时全球网民在短短几周内就征集了数千万签名,向联合国请愿,成功地阻止日本野心
得逞。很多文章及新闻报道都提到日本没有资格进入联合国安理会的原因,就是日本仍
然没有真诚地为“二战”中的战争罪行道歉。而提到日本在华罪行时,首先想到的就是
南京大屠杀,许多的报道均提到纯如的这本书。由此可见,南京大屠杀惨剧因这本书在
国际上己被广泛地认知。
avatar
P*l
5
很赞,mm这系列文章给大家好好地普及了西式婚礼的细节,可以作为大家办西式婚礼的
指南了,呵呵

【在 Y**i 的大作中提到】
: 西式传统中还有一个专门给准新娘的bridal shower环节.
: 这个是在婚礼前一个月左右举行,必须由未来婆家筹办,婆家的女眷都会应邀出席,主要
: 是一顿午饭,出席的女眷会带上礼物,送给准新娘.
: 这个shower的主要作用是让准新娘和未来婆家的女人们见面,大家互相认识一下,毕竟大
: 家以后都是一家人了.
: 这里说个小细节,由于我未来婆婆家那边很早年就移民到美国了,他们的作风已经很西化
: 了,对于西方文化很了解,所以我的婚礼是西式的.
: Bridal Shower上除了我收了一大堆礼物外,我还收到我rehearsal上会用到的bouquet.
: 我未来婆婆说这是传统,这个bouquet是我未来婆婆亲手做的,用的材料是包装礼物的假
: 花和包装带.我未来婆婆当时坐在我旁边,我拆了礼物,包装带和假花她都收集起来,我一

avatar
c*z
6
For the youtube one, this might help
http://statweb.stanford.edu/~serban/116/bayes.pdf
thanks a lot for sharing!

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

avatar
p*y
7
2007年为南京大屠杀70周年,各地举办许多活动纪念这段历史。其中有加拿大制作的电
影《张纯如:南京大屠杀》和美国制作的纪录片《南京》,在国际上都轰动一时。影片
《张纯如:南京大屠杀》描述了纯如追溯这段历史的经过;《南京》以纪录片的形式描
述南京大屠杀,是美国在线前副总裁特德·莱昂西斯受到纯如这本书的启发和感召,个
人投资200万美元拍摄而成。2009年,中、德、法合作制作的电影《约翰·拉贝》是根
据《拉贝日记》拍摄而成,描述拉贝在南京大屠杀期间英勇拯救并保护中国难民的事迹
。《拉贝日记》是纯如1996年在德国找到拉贝的后裔而发现的,这是南京大屠杀一个非
常重要的不可磨灭的证言。所有历史学家都认为,发现《拉贝日记》是纯如对这段历史
最大的贡献之一。所以该书在帮助世界民众了解这段历史方面起了很大的作用。
当时纯如的这本书一出版,美国的各大报纸刊登了许多关于该书的书评,这些书评
对这本书有着高度的评价。就在这本书受到许多人的推崇时,日本右翼分子感到惶恐不
安,他们开始了针对这本书的一连串攻击。不久,美国国内也有一些所谓的“历史学家
”开始批评这本书。但与正面的评论相比,批评的声音只是极少数。这也是一种正常的
现象,是任何成功的作家(特别是成功的年轻作家)不可避免的。其实,纯如从来都未
自我标榜过这本书是这段历史的权威着作。她在该书的前言中明确表示,希望这本书起
到抛砖引玉的作用,引起更多的人对这段历史的兴趣,进行更多的研究。美国着名的“
二战”史历史学家史蒂芬·安布罗斯曾经说:“张纯如是近代最卓越的年轻历史作家,
因为她懂得如何将历史写得令人感兴趣。”这大概是对该书的某些批评者最好的回答。
由于这本书的关系,我们也逐渐了解到政治的复杂和黑暗。战后,日本在美国的扶
持下变为一个经济大国,并使用大量的金钱对美国各阶层展开攻势,粉饰日本是一个自
由、民主及爱好和平的国家,但对“二战”中日本侵略亚洲各国的历史避而不谈,反而
把日本描述为“二战”的受害者,将日本对这些国家的侵略美化为拯救这些国家。我们
还要注意,有些在美国研究中国或亚洲的所谓“历史专家”其实是在日本大量的金钱资
助下为日本说话的。在美国大学里有些研究中日历史的经费也是来自日本,因此他们的
研究很难保持客观。这一切,当然美国应该对此负一部分责任。战后为了拉拢日本,使
之成其盟国,以便对付共产主义国家,美国保持了日本战前的政治结构,并使许多日本
战犯逃避了应有的惩罚,这批战犯及他们的后裔成为当今日本政治的核心人物。
写到这里使我最为痛心的是南京大屠杀75年后,日本仍然未真诚地向中国道歉和赔
偿。日本右翼分子甚至否认南京大屠杀,掩盖战争罪行,篡改历史。最近日本对钓鱼岛
的“购岛”及“国有化”一连串的闹剧,更可见日本军国主义阴魂不散,仍在为日本做
“大东亚共荣圈”的白日梦。因此我们绝不能遗忘这段历史,而且要努力教育下一代铭
记这段历史。
因为日本自“二战”后从未对自己的罪行真正地进行过道歉,所以这本书最终的目
的是呼吁日本真诚地反省,力促日本对受害国家的人民道歉及赔偿。纯如在前言中用警
语“忘记过去的人注定要重蹈覆辙”来警醒世界。
1994年获得诺贝尔文学奖的日本小说家大江健三郎曾在《纽约时报》上发表题为《
否认历史将摧毁日本》的文章(1995年7月2日),他指出:“日本一定要对(第二次世
界大战的)侵略进行道歉和赔偿。这是基本的要求,大多数有良知的日本人都赞成。但
是有一群保守的日本党派和商界领袖反对。”如果日本未来希望得到各国的尊敬,唯一
的途径就是要对“二战”中其对邻国发动的侵略战争的罪行进行真诚的道歉和赔偿,这
样中日之间才能实现真正的友好与和平。纯如在书中强调,她写本书的目的不是煽动仇
日情绪,恰恰相反,是为了避免悲剧的重演,是为了包括日本人在内的全人类的未来。
avatar
M*Q
8
我其实没有明白这个问题从哪个角度入手。选择用Bayes的原因是?

【在 c***z 的大作中提到】
: For the youtube one, this might help
: http://statweb.stanford.edu/~serban/116/bayes.pdf
: thanks a lot for sharing!

avatar
p*y
9
纯如不幸于2004年去世。在我写的回忆录里,除了描述她一生为真理正义而奋斗,我特
别强调我们应该记住的是她精彩的一生。纯如自始至终坚信一个人的力量可以改变这个
世界。正如《华盛顿邮报》的专栏作家乔治·威尔所说:“由于张纯如的这本书,”第
二次南京大屠杀“为之终结。”
在此寄语读者:“勿忘历史,以史为鉴!”并以此与各位共勉。
张盈盈
2012年9月27日写于美国加州圣何塞市
1937年12月13日,国民党统治下的中华民国首都南京陷入日本侵略者之手。对日本
而言,这是中日战争中具有决定意义的转折点,是日军在长江流域与蒋介石的军队奋战
半年取得的最辉煌胜利。对中国军队而言,他们英勇保卫上海的战斗最终失败,最精锐
的部队也伤亡惨重,而南京陷落则是一种痛苦甚至致命的挫败。
今天,我们或许可以把南京陷落看作一种截然不同的转折点。这座古城所遭受的劫
难大大激发了中国人收复南京、赶走侵略者的决心。中国国民党政府从南京撤离后重整
旗鼓,中国人民终于在1945年战胜了日本。在这8年战争期间,日本侵略者虽然占领南
京,并组建了伪政府,但它从未自信、合法地统治过南京,而且永远无法迫使中国投降
。对外部世界来说,南京大屠杀(很快就成为一个专有名词)使世界舆论一边倒地谴责
日本,群情激奋,世所罕见。
直到今天,中国的舆论依旧如此,几代中国人都牢记日本的侵略罪行,而且日本战
败后至今未对中国进行赔偿。60年过去了,南京的遇难者仍然是中日关系无法回避的问
题。
这是必然的。日本侵略者对南京的洗劫骇人听闻。日军大规模处决中国战俘,而且
屠杀、强奸了成千上万的中国平民,这些行为违反了关于战争的所有法规惯例。更令人
吃惊的是,日本侵略者的这些行为都是公开的,其目的显然是恐吓。日本侵略者在国际
观察者的众目睽睽之下施暴,并对国际人士试图阻止暴行的努力置之不理。南京大屠杀
并非由于暂时的军纪失控,因为大屠杀持续了7周之久。该书是世界上第一部用英语全
面研究南京惨剧的专着,张纯如在这本书中极富感染力地讲述了这个恐怖的事件。
我们或许永远无法确切地了解日军指挥官及其士兵这种野蛮兽行背后的动机,但张
纯如的着作比以往任何研究更透彻地分析了日军的所作所为。在此过程中,她使用了丰
富的原始资料,包括无可置疑的第三国观察家(那些在日军进入南京后仍然留在这座不
设防城市的外国传教士和商人)的证词:张纯如发掘的此类资料之一是约翰·拉贝的日
记,事实上这些日记可以构成一个小型的档案馆。拉贝是一名德国商人和国家社会党党
员,他在南京大屠杀期间领导了保护南京平民的国际行动。透过拉贝的眼睛,我们看到
当时手无寸铁的南京居民在面对日本侵略者的猛烈攻击时经历了怎样的恐惧,展露了怎
样的勇敢。通过张纯如的描述,我们不禁钦佩拉贝和其他国际人士的勇气。当时城市横
遭兵燹,居民惨遭杀戮,医院关门,太平间尸体残骸成堆,四处混乱不堪,很多国际人
士仍然冒着生命危险,试图改变这一切。同时我们也从该书中了解到,当时许多日本人
知道南京正在发生的一切后为此感到羞愧。
当西方已经在很大程度上忘却南京大屠杀时,该书更加突显出其重要价值。张纯如
称之为“被遗忘的大屠杀”,并将第二次世界大战中发生在欧洲和亚洲的对数百万无辜
者的屠杀事件联系在一起。诚然,日本和德国只是后来才成为盟友,而且不是太好的盟
友,然而发生在南京的惨案(毫无疑问希特勒也犯下过类似的罪行)却使他们成为道德
上的共犯,因为他们作为暴力侵略者都犯下了后来被称为“反人类罪”的滔天罪行。美
国诗人奥登曾在中日战争期间访问中国,他比大多数人更早地将发生在欧亚两洲的大屠
杀联系起来:
从地图上的确可以找出某些地方,
avatar
b*y
10
netflix挂掉的原因是什么呢?感觉没问什么啊
avatar
p*y
11
那里的人民正笼罩在邪恶中:
比如南京,比如达豪。
柯伟林
哈佛大学历史系主任
中国近代史教授
人类残忍对待同胞的编年史讲述着漫长而令人痛心的故事,但是如果说这类恐怖故
事中人类的残暴程度确实存在差别,那么世界历史上极少有什么暴行可以在强度和规模
上与第二次世界大战期间日军进行的南京大屠杀相比。
美国人认为,第二次世界大战始于1941年12月7日,因为日军在这一天偷袭了美国
海军基地珍珠港。欧洲人则将1939年9月1日德国突袭波兰视为第二次世界大战的开端。
非洲人认为战争开始得更早,应从1935年墨索里尼派兵入侵埃塞俄比亚算起。然而,对
于亚洲人来说,战争的发端必须追溯到日本军事控制东亚的第一步——1931年日本侵占
中国东北地区并建立伪“满洲国”。
正如希特勒统治下的德国在5年后所做的那样,从1931年开始,日本凭借其高度发
达的军事机器和优等民族心态,着手建立起对邻邦的统治。中国东北地区很快陷落,随
后成立的伪“满洲国”名义上由作为日本傀儡的清朝废帝溥仪统治,实际的统辖权却掌
握在日本军方手中。4年后,即1935年,察哈尔省和河北省的部分地区被占领;1937年
,北京、天津、上海相继沦陷,最后连南京也未能幸免。对中国而言,20世纪30年代可
谓艰难时世;事实上,直到1945年第二次世界大战结束时,最后一批日军才撤出中国的
领土。
毫无疑问,在日军侵略中国的14年中,出现过无数难以付诸笔墨的暴行。我们永远
无法巨细无遗地了解,在千千万万个曾遭受日军铁蹄蹂躏的城市和乡村中,究竟有过多
少悲惨事件。但我们清楚地知道发生在南京的惨案,因为当时的一些外国人亲眼目睹了
这场惨绝人寰的大屠杀,并将消息传播给世界;另外,一些亲历大屠杀的中国人侥幸生
还,成为目击证人。如果有哪个历史事件可以揭露肆无忌惮的军事冒险主义十恶不赦的
本质,南京大屠杀是最好的例证。本书讲述的正是这个事件。
南京大屠杀的历历详情是毋庸置疑的,只有部分日本人仍在矢口否认。1937年11月
,日军在成功攻陷上海之后,紧接着对中华民国首都南京发起了大规模进攻。1937年12
月13日,南京沦陷后,日军在这里大肆进行了一场世所罕见的残暴屠杀。成千上万的中
国年轻人被聚集并驱赶到城外,或遭机关枪扫射倒地,或被当作练习刺刀的活靶,或被
浑身浇满汽油活活地烧死。几个月来,南京城内尸横遍地,尸臭弥漫。多年之后,远东
国际军事法庭的专家估计,从1937年年底到1938年年初,南京有超过26万名非战斗人员
死于日军的屠刀之下,还有专家估计这一数字超过35万。1
本书仅对日本在南京的野蛮暴行进行最基本的概述,因为我的目的并不在于以数字
证明南京大屠杀是人类历史上最邪恶的行径之一,而是要洞悉事件本身,从而吸取教训
,以警世人。然而,不同的残暴程度通常会引起人们不同的反应,因此我必须列举一些
统计数字,从而使读者对1937年发生在南京的大屠杀规模有一个基本的认知。
一位历史学家曾经估算,如果所有南京大屠杀的罹难者手牵手站在一起,这一队伍
可以从南京绵延到杭州,总距离长达200英里左右。2他们身上的血液总重量可达1200吨
,他们的尸体则可以装满2500节火车车厢。
仅从死亡人数看,南京大屠杀就已超越了历史上许多野蛮的暴行。罗马人曾在迦太
基屠杀了15万人,天主教军队也曾在西班牙宗教法庭大开杀戒,但日军在南京的暴行却
远甚于此。3日军的所作所为甚至超越了帖木儿的暴行,后者曾于1398年在德里处死了
10万名囚犯,并于1400年和1401年用这些囚犯的颅骨在叙利亚建造了两座骨塔。4
当然,20世纪以来用于大规模杀戮的工具获得了充分发展,希特勒杀害了600万犹
太人,然而该数字是在几年之内累积而成的,日军对南京人的屠杀则集中在几个星期之
内。
avatar
h*3
12
netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
比较弱,但是能manipulate big data的人。
至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
一派的学科在研究这种问题。
非专业的人,简单看看exponential distribution和weibull就行了。
http://en.wikipedia.org/wiki/Exponential_distribution
http://en.wikipedia.org/wiki/Weibull_distribution
avatar
k*o
13
这个得支持一下!

【在 p*********y 的大作中提到】
: 纪念张纯如
: 铜像捐款链接:
: http://www.cmain.org/new/index.php?_m=mod_product&_a=view&p_id=
: 张纯如,一个真正的民族英雄,CMAIN重新建立这个张纯如FUND, 用来建立一个铜像,
: 树立在旧金山的CHINA TOWN,让所有经过那里的人都了解这一段历史,了解一个女子,
: 曾经为了揭露被蓄意隐瞒的历史,付出了自己的生命。
: 英文原版的在这里购买
: http://www.amazon.com/The-Rape-Nanking-Forgotten-Holocaust/dp/0
: 中文在线阅读转自 凤凰网读书频道
: http://v.book.ifeng.com/read/book/ts/32902.htm

avatar
c*h
14
谢谢分享!
那个reliability的是什么意思呀?
感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n*
lambda*t),然后说明lambda很大?还是啥意思?
avatar
p*y
15
avatar
h*3
16
lambda很大说明exp dist很陡,说明这玩意儿出现第一次failure这个事件的arrival
time会比较小,就是不太reliable。不过考虑failure的话,很多论文用weibull模型。

【在 c********h 的大作中提到】
: 谢谢分享!
: 那个reliability的是什么意思呀?
: 感觉这种寿命的是不是假设exp dist?可以算出一个都没坏的概率,大概是个exp(-n*
: lambda*t),然后说明lambda很大?还是啥意思?

avatar
j*g
17
这个应该是survival analysis, 楼上说的韦伯还有exponential都很常见,看看
queuing theory应该有帮助。
avatar
j*g
18
统计里面搞这个的一般是生统的人,希望有大牛讲解一下
avatar
M*Q
19
netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要
是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。
youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和
survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果
是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是
太简单了,让我讲最小二乘。。。

modeling

【在 h********3 的大作中提到】
: netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
: 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
: 比较弱,但是能manipulate big data的人。
: 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
: 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
: 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
: 一派的学科在研究这种问题。
: 非专业的人,简单看看exponential distribution和weibull就行了。
: http://en.wikipedia.org/wiki/Exponential_distribution
: http://en.wikipedia.org/wiki/Weibull_distribution

avatar
S*y
20
my python/hadoop class covers hadoop streaming in python
statsguy
m*********[email protected]
实战速成Python/R/Hadoop课程-
http://plus.google.com/+statsGuyMITBBS/about

【在 M*Q 的大作中提到】
: netflix可能是这种情况吧,面试的时候一直跟我说我们不做model和algorithm,主要
: 是的工作就是处理数据,寻找insights,找些有用的feature,反复强调这个。
: youtube的这个,从bayesian的角度入手原因是什么呢?我确实想过life time和
: survival之类的东西,面试也提到了。另外只有六个月这一个信息应该怎么用呢?如果
: 是多个月的信息,我觉得会容易考虑些。基本上这个题也就把我挂了,后面问的实在是
: 太简单了,让我讲最小二乘。。。
:
: modeling

avatar
T*u
21
那个reliability的东西,weibull distribution说不定可用
avatar
c*h
22
赞,这个没搞过reliability的,碰见这题肯定挂了,原来youtube好这口,学习学习

modeling

【在 h********3 的大作中提到】
: netflix在问hadoop相关的时候,基本上就已经拒掉楼主了。这些互联网公司,如果不
: 会manipulate data的话,基本上是干不了实际的活的。一般都倾向于选一个modeling
: 比较弱,但是能manipulate big data的人。
: 至于youtube那个,楼上提供的bayes的beta distribution只是一个naive的solution,
: 6个月这个时间信息没有用起来。要入Google大牛的法眼估计还不够。楼主可以去看看
: 专门关于life time, Reliability theory/Engineering。在自动化工程领域,有专门
: 一派的学科在研究这种问题。
: 非专业的人,简单看看exponential distribution和weibull就行了。
: http://en.wikipedia.org/wiki/Exponential_distribution
: http://en.wikipedia.org/wiki/Weibull_distribution

avatar
f*e
23
thanks for sharing,mark

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

avatar
x*e
24
thanks for sharing,我也是学统计的,学校里的东西都忘得差不多了,现在想找工作,准
备开始好好复习.
avatar
y*g
25
说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算
算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量
reliability。
能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就
包好这种方法了吧。
如果时间足够长,观察到足够数量的failure,用cox model就好了。当然,
exponential model也行。
avatar
a*0
26
Survival analysis?
avatar
w*a
27
听说 NEXFLIX 是这边 PAY 得很高但随时赶人的公司,文化极其恶劣 (其次是 EBAY)
虽然TITLE 是 DATA SCIENTIST 但感觉不太像
凡是拿 CODING 当大学问的地方,大概都不会有什么 DATA SCIENCE
因为那东西对玩数据且稍微有点 CODING 基础的人来说,
最多也就是两个星期到一个月的事情
至于 YOUTUBE, 感觉问的问题有点旁门左道
找工作很大程度上都是碰运气
不成也没啥大不了的
说不定过两天找到更好的地方

【在 M*Q 的大作中提到】
: 最近面了两个data scientist的职位,title虽然是data scientist,
: 但是从感觉上面来说很像是data analyst,分别是Netflix和YouTube。我个人是应用数
: 学的,做一些运筹优化和learning的东西。
: 第一轮都是和recruiter谈一谈,Netflix比较强调他们的culture,特别
: 嘱咐了要看他们的slides,聊的过程中也提到了很多这方面的内容。Youtube
: 相对随意的多,主要就是讲讲简历上面的东西。
: 第二轮,netflix问了会不会hadoop, hive,是否熟悉hadoop streaming interface,
: 我个人了解一些,但是在学校用的这个机会没有,所以就没追问下去。再就是问了
: 一些python和R,平时用哪个,为什么用这个不用那个。另外的问题实质上就是假设
: 检验方面的东西,熟悉常用的test就可以了。

avatar
r*n
28
这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
exact CI 或者 exact hypothesis test.
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

【在 y******g 的大作中提到】
: 说下我的看法,那个reliability,假设 failure rate/6 months 是P,按Binomial算
: 算failure的概率,然后再算CI,能cover 0就可以了。这样得到的P可以用来衡量
: reliability。
: 能按binomial,就也能转化为normal,加上error correction就好。最基本的统计课就
: 包好这种方法了吧。
: 如果时间足够长,观察到足够数量的failure,用cox model就好了。当然,
: exponential model也行。

avatar
k*z
29
其实所有跟coding和统计挂钩的东西都是半年培训的问题,结果只是有没有时间培训你
,你学完以后做的东西漂亮不漂亮。
avatar
y*g
30
p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成
normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小
,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。

【在 r******n 的大作中提到】
: 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
: interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
: exact CI 或者 exact hypothesis test.
: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

avatar
r*n
31
非常感谢你的提醒。这是从wiki里摘的一段话:
http://en.wikipedia.org/wiki/Binomial_proportion_confidence_int
The central limit theorem applies poorly to this distribution with a sample
size less than 30 or where the proportion is close to 0 or 1. The normal
approximation fails totally when the sample proportion is exactly zero or
exactly one.
这里就是 sample proportion is exactly zero 的情况。 可以用exact或着wilson,
但是不能直接用Asymptotic normal。 我猜这是面试官想考察的内容。不知道如果用
normal近似的话怎么计算。

性。

【在 y******g 的大作中提到】
: p 小不代表着不能近似成normal,你应该看看概率入门。何时binomial可以近似成
: normal,虽然没有严格的理论证明,但是还是有个公认的标准。这个sample size不小
: ,还是可以的。另外这里只计算最大可能的P值,就更增加了能近似成normal的可能性。

avatar
X*2
32
这个说法比较靠谱。
就是对一系列gamma(单个零件6个月出故障概率)做假设检验,
根据所得p value,得出在若干显著水平下,gamma的范围。

【在 r******n 的大作中提到】
: 这道题跟relaibility关系不太大,主要看对hypothesis testing 或者 confidence
: interval 的基本定义的理解。因为概率很低,所以不能近似成正态或者t分布,要用
: exact CI 或者 exact hypothesis test.
: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/binom

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。