Redian新闻
>
大数据在工业界流行的黑暗真相
avatar
大数据在工业界流行的黑暗真相# Programming - 葵花宝典
a*e
1
【 以下文字转载自 ChuanYu 讨论区 】
发信人: areyoueye (关注食事,了解食尚), 信区: ChuanYu
标 题: 【寻觅美食】Cafe Henri - Long Island City, NY
发信站: BBS 未名空间站 (Thu Jun 3 20:07:38 2010, 美东)
Cafe Henri
1010 50th Ave.
Long Island City, NY 11109
(718) 383-9315
I love this place for brunch :)
We stayed at friend's place along the East River for the long weekend and
this place is walking distance. Also it's right next to 7 train, it was easy
for another friend to join us via subway. The place is small but comfy. 5
of us sat next to t
avatar
A*o
2
【 以下文字转载自 JobHunting 讨论区 】
发信人: AlPacino (潜伏中), 信区: JobHunting
标 题: 棘手的身份问题,急求有经验的朋友帮助!
发信站: BBS 未名空间站 (Tue Oct 1 22:39:38 2013, 美东)
今年年初用CPT在一家公司实习,然后公司在4月1号之前给我递交了H1B申请,但是递交
申请3周之后,由于种种原因,我决定离开公司,不要它帮我申请的这个H1B了(当时我
已经拿到receipt number),继续上学,同时寻找其他的工作机会。又过了两个月找个
一个不错的公司,用CPT实习至今,现在的公司也承诺明年帮我申请H1B。
因为我早就离开上一家公司,所以当时也以为它会直接把我的H1B申请取消。没想到,
刚才登录USCIS网站,用半年前的receipt number一查,得到下面的消息:
==================================================================
Post Decision Activity
On September 26, 2013, we mailed you a notice that we have approved this
I129 PETITION FOR A NONIMMIGRANT WORKER. Please follow any instructions on
the notice. If you move before you receive the notice, call customer service
at 1-800-375-5283.
For approved applications/petitions, post-decision activity may include
USCIS sending notification of the approved application/petition to the
National Visa Center or the Department of State. For denied applications/
petitions, post-decision activity may include the processing of an appeal
and/or motions to reopen or reconsider and revocations.
==================================================================
请问,这说明那个H1B是被批准了么?鉴于我没有回到上一家公司的打算,现在如何处
理?
我可以继续用CPT在现在这家公司实习么?还是说10月1号H1B一生效,我的F1身份就终
止了,从而连带我的CPT也失效了?
另外,那个notice应该是直接寄到上一家公司的,我本人并没有收到,从法律上来讲,
是否前公司有把notice转寄给我的义务?(当时和公司弄的比较僵,后来又搬家了,现
在完全没有联系,也不想和他们联系)
请各位朋友提提建议,多谢了!
avatar
K*a
3
一度觉得人人之间在任何一个问题上都是有共同点的。其实这可能是因为人大多与朋友
来往吧。而能成为朋友,多半是有这样的共识。看我是歌手,才发现人的差异可以这么
明显。以为经典的,别人觉得造作;以为稳进前三的,可能垫底或者淘汰;以为无懈可
击的,却也可能被人称作无感。国人,从小的教育就是隐藏不满,所以面对的差异少了
,竟然不习惯去面对。常愤愤然而欲掌括之。这点倒是上网的优势了,什么鸟就见过,
才能淡定出之。捍卫别人表达不同观点的权利,然后背地里,唏嘘。How come?
凡事都有学问。想当然的刨个坑种树,然后想起来,反过来一查,我考。原来坑易浅而
广,才能有利于树根的生长。浅了土松,广了可以匀称分散根须,避免纠缠了今后发展
不强大。再有如何剪枝,施肥的学问更是五花八门。洋洋洒洒的看几个人写了几大篇章
,真是举手投足皆学问啊。说起种树,突然想起苏兄。消失的很彻底,只是偶然间才听
说过他原来是园艺高手。算了,不再回忆了,淡然吧。
栽树南园侧,倚路望兰河。勤苦忙耕耘,两载盼硕果。
avatar
x*q
4
刚才下了一个free的tv episode: friendship is magic.
放给小孩看.她很喜欢
avatar
w*g
5
这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
原因:
很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
算法要复杂得多得多。
但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的边
际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成千
上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。
大数据的驱动力背后还有更黑暗的真相:提高barrier to entry。这世上聪明人很多。
工业界忽悠算法其实是最危险的。因为算法的发明往往是单枪匹马干的。如果一个大公
司建立在一个算法的基础之上,岂不是有被但强匹马干掉的危险?特别是学术界虽然不
济,几百年才出一个牛顿爱因斯坦这样的人物,但方法论一直是正确的,难保不出一两
个真正管用的新算法。现在告诉你,你没个一千台机器就没法做研究,把智力门槛转换
成资本门槛,并且搞
一个虚无飘渺的概念,把funding标准从科研水准转换成忽悠水准。以此打击真正的科
学研究,试图多维持几年大公司的盈利。其用心不可不谓险恶。
此计一出,大合那些脑子已经使不动了的学霸的心意,于是大数据一夜之间就火了。
avatar
R*s
6
那个 smoked salmon 看起来的确很好吃的样子。。。salmon上面
放个蛋再放sauce?
avatar
A*l
7
你现在处在一种极其麻烦的状态,从法律上来说你已是H1B,身份已黑
我有一个同事恰巧碰到同样的事情。他请学校出面让uscis取消之前的纪录,恢复f1
身份。幸运的是,他成功了 :)
否则他不但要立刻离境,同时还会背上这段时间的黑户身份
这是真事。可以很严重。请立刻跟学校联系,同时咨询所有你能咨询的律师(学校,公
司)

【在 A******o 的大作中提到】
: 【 以下文字转载自 JobHunting 讨论区 】
: 发信人: AlPacino (潜伏中), 信区: JobHunting
: 标 题: 棘手的身份问题,急求有经验的朋友帮助!
: 发信站: BBS 未名空间站 (Tue Oct 1 22:39:38 2013, 美东)
: 今年年初用CPT在一家公司实习,然后公司在4月1号之前给我递交了H1B申请,但是递交
: 申请3周之后,由于种种原因,我决定离开公司,不要它帮我申请的这个H1B了(当时我
: 已经拿到receipt number),继续上学,同时寻找其他的工作机会。又过了两个月找个
: 一个不错的公司,用CPT实习至今,现在的公司也承诺明年帮我申请H1B。
: 因为我早就离开上一家公司,所以当时也以为它会直接把我的H1B申请取消。没想到,
: 刚才登录USCIS网站,用半年前的receipt number一查,得到下面的消息:

avatar
M*e
8
我是歌手全集的link在哪里?
youtube没有完整办

【在 K*a 的大作中提到】
: 一度觉得人人之间在任何一个问题上都是有共同点的。其实这可能是因为人大多与朋友
: 来往吧。而能成为朋友,多半是有这样的共识。看我是歌手,才发现人的差异可以这么
: 明显。以为经典的,别人觉得造作;以为稳进前三的,可能垫底或者淘汰;以为无懈可
: 击的,却也可能被人称作无感。国人,从小的教育就是隐藏不满,所以面对的差异少了
: ,竟然不习惯去面对。常愤愤然而欲掌括之。这点倒是上网的优势了,什么鸟就见过,
: 才能淡定出之。捍卫别人表达不同观点的权利,然后背地里,唏嘘。How come?
: 凡事都有学问。想当然的刨个坑种树,然后想起来,反过来一查,我考。原来坑易浅而
: 广,才能有利于树根的生长。浅了土松,广了可以匀称分散根须,避免纠缠了今后发展
: 不强大。再有如何剪枝,施肥的学问更是五花八门。洋洋洒洒的看几个人写了几大篇章
: ,真是举手投足皆学问啊。说起种树,突然想起苏兄。消失的很彻底,只是偶然间才听

avatar
z*e
9
不会提高entry barrier滴
这就是oop的强大之处
你再牛逼的算法,打成一个pkg
管你再牛逼,用起来都异常傻逼
这个傻逼就是降低了barrier
avatar
E*A
10
我比较喜欢你们自己做的
avatar
A*o
11
谢谢你的回帖,你的帖子让我看到了一线生机!
请问你的同事当时是黑了多久呢?我今天刚刚发现,然后H1B正式生效也是今天。算是
黑了一天
么?
另外,他当时是怎么请学校出面解决这个问题的?具体步骤能说说么?
我给您发了站内信,请查阅,多谢了!!

【在 A**l 的大作中提到】
: 你现在处在一种极其麻烦的状态,从法律上来说你已是H1B,身份已黑
: 我有一个同事恰巧碰到同样的事情。他请学校出面让uscis取消之前的纪录,恢复f1
: 身份。幸运的是,他成功了 :)
: 否则他不但要立刻离境,同时还会背上这段时间的黑户身份
: 这是真事。可以很严重。请立刻跟学校联系,同时咨询所有你能咨询的律师(学校,公
: 司)

avatar
K*a
12
推荐个好的。里面的链接都很好,还自动播放。
v.netstartv.com

【在 M**e 的大作中提到】
: 我是歌手全集的link在哪里?
: youtube没有完整办

avatar
w*g
13
你得有一千台机器,积累几十几百TB的数据啊。

【在 z****e 的大作中提到】
: 不会提高entry barrier滴
: 这就是oop的强大之处
: 你再牛逼的算法,打成一个pkg
: 管你再牛逼,用起来都异常傻逼
: 这个傻逼就是降低了barrier

avatar
a*e
14
toast bread上面放smoke salmon,上面放煮的糖心荷包蛋,再浇上蛋黄调的sauce,再
撒点chives

【在 R*****s 的大作中提到】
: 那个 smoked salmon 看起来的确很好吃的样子。。。salmon上面
: 放个蛋再放sauce?

avatar
A*l
15
也是好几个月过去了,具体没问怎么操作的,总之他学校很好,帮他一直操作这个事情。
由于不是我自己的事情,细节也不清楚。你最好马上联系学校。
不过我很确信这个事情,也是今年的事情,但是当时律师也跟他说了要看运气。
他都已经准备回国了,呵呵,还好后来搞定了(欧洲人在美国念书)。
大概过程是他去年面了一个公司,办了h1b,后来他没去,但是其实已批准了,他一直
不知道,还用cpt还是opt在我们公司实习,直到要转h1b的时候才发现已经黑了。马上
联系学校和律师以后,学校帮他处理的,最后是成功取消之前的纪录回复f1身份。
这个人现在刚刚毕业,已经又重新申请到了今年的h1b了。

【在 A******o 的大作中提到】
: 谢谢你的回帖,你的帖子让我看到了一线生机!
: 请问你的同事当时是黑了多久呢?我今天刚刚发现,然后H1B正式生效也是今天。算是
: 黑了一天
: 么?
: 另外,他当时是怎么请学校出面解决这个问题的?具体步骤能说说么?
: 我给您发了站内信,请查阅,多谢了!!

avatar
M*e
16
我想在ipad上看,有什么app可以用的?

【在 K*a 的大作中提到】
: 推荐个好的。里面的链接都很好,还自动播放。
: v.netstartv.com

avatar
z*e
17
直接从web上抓不就行了
上课老师都是用wikipedia来当data source

【在 w***g 的大作中提到】
: 你得有一千台机器,积累几十几百TB的数据啊。
avatar
R*s
18
出去吃找找灵感也不错, 和和

【在 E*A 的大作中提到】
: 我比较喜欢你们自己做的
avatar
p*t
19
马上让现在公司给你申请新的H1B,你已经不受quota限制了。

【在 A******o 的大作中提到】
: 谢谢你的回帖,你的帖子让我看到了一线生机!
: 请问你的同事当时是黑了多久呢?我今天刚刚发现,然后H1B正式生效也是今天。算是
: 黑了一天
: 么?
: 另外,他当时是怎么请学校出面解决这个问题的?具体步骤能说说么?
: 我给您发了站内信,请查阅,多谢了!!

avatar
K*a
20
这个应该就可以吧?我在手机上也用它。
它里面都是link到youtube的,能看youtube就能用。

【在 M**e 的大作中提到】
: 我想在ipad上看,有什么app可以用的?
avatar
z*e
21
应该说www is out there
互联网上轻松有一千台机器和上几百t的data
这个data天然就big啊

【在 w***g 的大作中提到】
: 你得有一千台机器,积累几十几百TB的数据啊。
avatar
a*e
22
而且尝试世界风味。。。可以打破闭关自守,学会洋为中用

【在 R*****s 的大作中提到】
: 出去吃找找灵感也不错, 和和
avatar
s*i
23
楼上说的有道理,为啥不赶紧转h1到现在的公司?几天的gap一般没人会care。
avatar
c*e
24
说哪想哪
avatar
w*g
25
你说的一般都是对的。不和你纠结。

【在 z****e 的大作中提到】
: 应该说www is out there
: 互联网上轻松有一千台机器和上几百t的data
: 这个data天然就big啊

avatar
A*o
26
在网上研究了一下,做h1b transfer一般需要近期paystubs和I-797(但也有不同说法的
),现在的问题是我最近的从上一家拿的paystub也是半年前了,而I-797是直接寄到上
一家公司的,并不在我手中。我因为和他们的关系弄得比较僵,如果要,还不知道会不
会给我。从法律上讲,雇主有没有义务必须把I-797给雇员?
还有,在做H1B Transfer过程中,我还能继续用现在这个CPT工作么?还是必须等待才
行?
非常感谢!

【在 p*****t 的大作中提到】
: 马上让现在公司给你申请新的H1B,你已经不受quota限制了。
avatar
G*o
27
你跟普林斯顿的数学家纳什靠拢了
写的很抽象
意识流

【在 K*a 的大作中提到】
: 一度觉得人人之间在任何一个问题上都是有共同点的。其实这可能是因为人大多与朋友
: 来往吧。而能成为朋友,多半是有这样的共识。看我是歌手,才发现人的差异可以这么
: 明显。以为经典的,别人觉得造作;以为稳进前三的,可能垫底或者淘汰;以为无懈可
: 击的,却也可能被人称作无感。国人,从小的教育就是隐藏不满,所以面对的差异少了
: ,竟然不习惯去面对。常愤愤然而欲掌括之。这点倒是上网的优势了,什么鸟就见过,
: 才能淡定出之。捍卫别人表达不同观点的权利,然后背地里,唏嘘。How come?
: 凡事都有学问。想当然的刨个坑种树,然后想起来,反过来一查,我考。原来坑易浅而
: 广,才能有利于树根的生长。浅了土松,广了可以匀称分散根须,避免纠缠了今后发展
: 不强大。再有如何剪枝,施肥的学问更是五花八门。洋洋洒洒的看几个人写了几大篇章
: ,真是举手投足皆学问啊。说起种树,突然想起苏兄。消失的很彻底,只是偶然间才听

avatar
z*e
28
去faculty那边看了下,靠,你搞毛,你又不是初学者
怎么还在犯外行的错误,一天到晚纠结个big
光big有啥难的,数据结构本身的混乱以及不存在才是真正的难点
那个撸主显然是没有领悟这一点,所以觉得不接地气
data mining和big data的主要区别也在于此,光纠结big是死路一条
你还在这条路上继续下去了?
发信人: wdong (cybra), 信区: Faculty
标 题: Re: 聊点正事:大数据。
发信站: BBS 未名空间站 (Sat Apr 11 07:21:47 2015, 美东)
好吧,我有点理解了。里有大一统大复仇。敢不成大数据的大还是从春秋里来的。
不过我还是觉得大数据的大更像大忽悠的大。

【在 w***g 的大作中提到】
: 你说的一般都是对的。不和你纠结。
avatar
A*o
29
我现在的身份算是H1了么?如果这样,是不是和F1相关联的CPT也就没了,我也不能继
续工作了?
而必须等待H1B Transfer完成才可以?另外,可以看一下我上面那个回复,给一些建议
么?
万分感谢!!

【在 s********i 的大作中提到】
: 楼上说的有道理,为啥不赶紧转h1到现在的公司?几天的gap一般没人会care。
avatar
d*e
30
种啥树了?

【在 K*a 的大作中提到】
: 一度觉得人人之间在任何一个问题上都是有共同点的。其实这可能是因为人大多与朋友
: 来往吧。而能成为朋友,多半是有这样的共识。看我是歌手,才发现人的差异可以这么
: 明显。以为经典的,别人觉得造作;以为稳进前三的,可能垫底或者淘汰;以为无懈可
: 击的,却也可能被人称作无感。国人,从小的教育就是隐藏不满,所以面对的差异少了
: ,竟然不习惯去面对。常愤愤然而欲掌括之。这点倒是上网的优势了,什么鸟就见过,
: 才能淡定出之。捍卫别人表达不同观点的权利,然后背地里,唏嘘。How come?
: 凡事都有学问。想当然的刨个坑种树,然后想起来,反过来一查,我考。原来坑易浅而
: 广,才能有利于树根的生长。浅了土松,广了可以匀称分散根须,避免纠缠了今后发展
: 不强大。再有如何剪枝,施肥的学问更是五花八门。洋洋洒洒的看几个人写了几大篇章
: ,真是举手投足皆学问啊。说起种树,突然想起苏兄。消失的很彻底,只是偶然间才听

avatar
k*5
31
既然标题是大数据在工业界流行,和“一个虚无飘渺的概念,把funding标准从科研水
准转换成忽悠水准。以此打击真正的科学研究,试图多维持几年大公司的盈利。其用心
不可不谓险恶。
此计一出,大合那些脑子已经使不动了的学霸的心意,于是大数据一夜之间就火了”有
什么直接关系?
而且“真正的科学研究”有什么牛B的算法能用小样本得出可靠的数据规律?
我所知道某大公司的“大数据”方案是希望采集已经安装的上千套系统运行数据,来预
测推断系统的原料损耗,系统磨损,从而在下一代设计里提高相应的设计参数,这并没
什么高明算法,但实际有效。
avatar
A*l
32
哦,才发现我看错时间了,一直以为lz是从去年黑到了今年。。。
如果你是今年h1b才生效的,赶紧让新公司申请新的h1b
如果我之前的回复让你担心了,请原谅(我那个同事是从去年黑到了今年,所以我
第一反应就是你也是同样的情况,呵呵)

【在 s********i 的大作中提到】
: 楼上说的有道理,为啥不赶紧转h1到现在的公司?几天的gap一般没人会care。
avatar
k*5
33
“但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的
边际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成
千上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。”
成千上万,甚至亿万倍的数据量听起来很吓人,在实际运行里没那么夸张。就拿飞机引
擎来说,全世界商业飞机每天飞行小时如此海量,采集到数据很容易就到成千上万,甚
至亿万倍的数据量。
avatar
A*o
34
是H1B Transfer么?问题是没有I-797和recent paystubs,貌似过的几率不大?
而且,政府关门了,LCA也无法处理,所以现在办transfer也办不了,
真是屋漏偏逢连夜雨,:(
不过您的回复还是让我的心又稍微舒畅了一些,谢谢,:)

【在 A**l 的大作中提到】
: 哦,才发现我看错时间了,一直以为lz是从去年黑到了今年。。。
: 如果你是今年h1b才生效的,赶紧让新公司申请新的h1b
: 如果我之前的回复让你担心了,请原谅(我那个同事是从去年黑到了今年,所以我
: 第一反应就是你也是同样的情况,呵呵)

avatar
m*5
35
我不同意你的看法,当然我的看法也只是局限领域的认识
我心中的大数据,并不是数据绝对量要大,事实上,我们有数据达到PB级别,但这是大
数据么?这不是,因为数据之间不是紧耦合的。另外光有绝对数量,但只采集了一种参
数,那也不叫大数据。
另外如果一个变量的实际变化也就是秒级,而你采样个1MS/s, 这就叫大数据么?显然
不是。
我认为大数据是指数据的完整性,比如你研究发动机效率,如果你只搜集几台车的数据
,单台的数据量再大也不是大数据。如果你采全世界所有汽车的数据,但只采集发动机
数据,那么仍然不是大数据。你得结合气象数据,结合车上的加减速历史,结合地面材
质,甚至结合驾驶人的驾驶数据生活习惯,才能称得上大数据。这时候虽然总体数据量
很小,但仍可称为大数据。

【在 k***5 的大作中提到】
: “但真相果真如此吗?做过machine learning的人都知道,数据量增大对于结果改善的
: 边际效应是递减的,而且往往是指数递减的。需要获得10个百分点的提高,可能需要成
: 千上万,甚至亿万倍的数据量。真是有点愚公移山的感觉了。”
: 成千上万,甚至亿万倍的数据量听起来很吓人,在实际运行里没那么夸张。就拿飞机引
: 擎来说,全世界商业飞机每天飞行小时如此海量,采集到数据很容易就到成千上万,甚
: 至亿万倍的数据量。

avatar
A*o
36
update:
和上一家公司取得了联系,对方坚持在10月1日前发送了withdraw h1b
petition的申请,认为是USCIS出错了。现在的问题是:如果我继续试图用这个“意外
”被批准的h1b quota,从法律上来讲是否合法?做transfer的时候,会不会被发现当
初被批的那个是“误批”的从而导致申请被拒绝?
现在公司希望我去加拿大边境,然后重新以F1身份进入美国,从而继续用CPT工作。但
是我看签经,似乎并不好过,一旦被check,更加麻烦。另一方面,在美国境内做F1
reinstatement似乎也要几个月的时间,两个选择都不太理想。请问各位有什么看法?
多谢
了!
avatar
g*g
37
你这贴怎么闻着都是学术界对大数据在工业界做出来这事的酸味呢?
1.大只是个方法论的概念。通过MR一类的框架,原来处理不了的现在处理得了,或者要
处理一周的现在处理一天就够,哪怕数据量只有T级,也是显然的获益。大只不过是个
相对概念,原来处理不了这样的数据了,为了在可以接受的时间内处理了,就只能采集
的时候做sampling,相对数据量就小。
2.这显然不是提高barrier of entry,而是显著降低了barrier of entry。以前那些做
网格计算的大机器,机器非常贵,能写并行算法的人很少,要有人维护机器,一个开发
周期很长。现在Amazon EMR,起一千个机器跑一跑就是分分钟的事情,你还可以半夜便
宜的时候去跑,好多小公司就这么干。写ETL算法的人往往不是CS出身的,也完全不需
要有能力写并行算法。凡事一旦做到PaaS,SaaS,基本上就是barrier of entry降低到
了极致。
3.互联网业往往营业额高,纯利低。典型的如马鬃,以及初创公司。1%的优化带来的可
能是数以亿计的纯利。这就是互联网公司愿意雇一堆Data Scientist不停地改进算法A/
B test,哪怕一点微小的改进都比工资高多了。从这个角度说,越有Scale的越愿意在
这上面下力气,但是小公司不意味着数据量就小,而且小公司的low hanging fruit更
多。这个才是整个业界大数据遍地开花的原因。
4. 学术界创造个方法,本来就不需要多少机器。Spark是学术界做出来的,验证方法也
不过几百台机器做个加法而已。业界实践的时候为了快速验证同时跑几百个A/B test的
,那才真需要很高的成本。A/B test才是学术界真正没法做的,既没有数据来源,也没
有足够快速迭代的人力物力。想想当年Netflix花百万刀让大家竞争算法,数据是
Netflix给的,过后的验证也是Netflix做的,但大量的学术界的人才提出了一系列改进
的设想。
avatar
A*o
38
更新了一下我的case,麻烦各位再帮忙看一下好么?
今天下午,在我的律师的帮助下,前雇主和律所终于给了回应。原来他们确实在8月4号
申请了撤销我的H1B petition(有copy of withdrawal letter为证),但是他们并没
有收到从USCIS回应的Acknowledgement of Withdrawal (i.e. Notice of Revocation)
,所以我的H1B petition在9月被批准,10月1日生效。我怀疑要么是withdrawal
request中间寄丢了(Fedex track的,可能性不大),要么是由于某种原因,USCIS没
有看到withdrawal letter。也有可能是USCIS搞错了,把我的case和其他人的弄混了。
具体怎么回事,不得而知。
另外,他们在收到approval notice后,于10月3日再次发送请求要withdraw我的H1B
petition(尽管已经被批准)。我看了他们给我发的copy,里面提到第一次撤销申请没
有被受理,导致H1B被批准,他们也觉得很意外,因而要求重新审理。因为他们的这第
二次request,我的H1B case status已经从"Post Decision Activity"转成"Initial
Review"了。看上去,移民局准备重新审理我的case(但可能要耗很长时间)。
我想请教一下:
1. 他们在8月4日寄给移民局的撤销申请到底算不算有效?
2. 他们同时发来了copy of i-797 approval notice,我可不可以继续申请transfer这
个H1B,哪怕在online status已经变成"Initial Review"的情况下?
3. 我在网上查了一些案例,发现不管是移民局的错误也好,雇主的错误也好,生效了
的H1B,想再返回到F1身份,往往需要3个月,甚至更长时间。但因为时间紧迫,我看到
的案例也许并不全面,请问移民局restore one's status to F1这一过程到底
需要多长时间?
4. 如果我申请h1b transfer(用Premium Processing),哪怕不成功,但是因为让USCIS
提前注意到我的case,会不会身份转回到F1也会快一些?
非常感谢!
avatar
h*a
39
同意。
门槛确实降低了很多,现在几个人的startup也都可以搞大数据分析了。互联网上crawl
点data加上cloud里面起点机器就可以。学术界有funding这样做一点不难,成本也高不
到哪里去。

【在 g*****g 的大作中提到】
: 你这贴怎么闻着都是学术界对大数据在工业界做出来这事的酸味呢?
: 1.大只是个方法论的概念。通过MR一类的框架,原来处理不了的现在处理得了,或者要
: 处理一周的现在处理一天就够,哪怕数据量只有T级,也是显然的获益。大只不过是个
: 相对概念,原来处理不了这样的数据了,为了在可以接受的时间内处理了,就只能采集
: 的时候做sampling,相对数据量就小。
: 2.这显然不是提高barrier of entry,而是显著降低了barrier of entry。以前那些做
: 网格计算的大机器,机器非常贵,能写并行算法的人很少,要有人维护机器,一个开发
: 周期很长。现在Amazon EMR,起一千个机器跑一跑就是分分钟的事情,你还可以半夜便
: 宜的时候去跑,好多小公司就这么干。写ETL算法的人往往不是CS出身的,也完全不需
: 要有能力写并行算法。凡事一旦做到PaaS,SaaS,基本上就是barrier of entry降低到

avatar
n*7
40
就是要comprehensive啦

【在 m********5 的大作中提到】
: 我不同意你的看法,当然我的看法也只是局限领域的认识
: 我心中的大数据,并不是数据绝对量要大,事实上,我们有数据达到PB级别,但这是大
: 数据么?这不是,因为数据之间不是紧耦合的。另外光有绝对数量,但只采集了一种参
: 数,那也不叫大数据。
: 另外如果一个变量的实际变化也就是秒级,而你采样个1MS/s, 这就叫大数据么?显然
: 不是。
: 我认为大数据是指数据的完整性,比如你研究发动机效率,如果你只搜集几台车的数据
: ,单台的数据量再大也不是大数据。如果你采全世界所有汽车的数据,但只采集发动机
: 数据,那么仍然不是大数据。你得结合气象数据,结合车上的加减速历史,结合地面材
: 质,甚至结合驾驶人的驾驶数据生活习惯,才能称得上大数据。这时候虽然总体数据量

avatar
n*7
41
感觉你跟撸主说的不是一个意思
你说的data 是直接available的,基本0成本获取
只是处理这些数据以前门槛比较搞
撸主说的应该是data本身收集就需要成本
所以big data是个门槛
这点跟我们想的一样
我们开始想靠技术算法混,很快(几个小时)就发现只有data才是核心竞争力
可能因为撸主现在也在做genomics的缘故吧

【在 z****e 的大作中提到】
: 直接从web上抓不就行了
: 上课老师都是用wikipedia来当data source

avatar
c*e
42
大数据不难,但是,要从大数据来实时分析并显示到网页上,难。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
N*K
43
看了半天 每个人对 大数据 的定义 都不一样

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
f*a
44
很酸,论点论据很难站不住脚。
说几个基本的:
1. 大数据在工业界的兴起和学术界拉帮结派忽悠不一样,工业界看的是实际效果,这
可是真金白银。大数据有些时候方法论未必需要多高明,但效果的改进是实实在在的。
2. 在机器学习领域,大数据有效的弥补了现有学习算法能力有限的这个问题。超高维
度下的少量样本就像大海里的几滴水,学的再好能力也有限。大数据和勤能补拙是一样
的道理,现在说边界效应还为时过早,等“天量数据”,“数据再现世界”这种东西出
来再说不迟。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
k*5
45
我举的例子里没有你反驳的具体内容吧?感觉你自己给自己树立了一个靶子,然后反驳
了自己树的靶子一番。

【在 m********5 的大作中提到】
: 我不同意你的看法,当然我的看法也只是局限领域的认识
: 我心中的大数据,并不是数据绝对量要大,事实上,我们有数据达到PB级别,但这是大
: 数据么?这不是,因为数据之间不是紧耦合的。另外光有绝对数量,但只采集了一种参
: 数,那也不叫大数据。
: 另外如果一个变量的实际变化也就是秒级,而你采样个1MS/s, 这就叫大数据么?显然
: 不是。
: 我认为大数据是指数据的完整性,比如你研究发动机效率,如果你只搜集几台车的数据
: ,单台的数据量再大也不是大数据。如果你采全世界所有汽车的数据,但只采集发动机
: 数据,那么仍然不是大数据。你得结合气象数据,结合车上的加减速历史,结合地面材
: 质,甚至结合驾驶人的驾驶数据生活习惯,才能称得上大数据。这时候虽然总体数据量

avatar
y*0
46
粗浅理解,数据为什么变大。
第一,增加column,row,把能搜集到的可能有一点点关系的数据都拿来。
另一种,增加维度,比如个性化和时间维度等,google一开始搜集所有搜索关键词的次
数,后来增加了用户的维度,可以看出用户个体的兴趣,然后增加时间维度,看出用户
个体兴趣的变化趋势。这种数据量增加是最快的。

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
z*e
47
那些big data都是互联网公司在搞
这些公司的data基本上都是www上抓,或者是互联网用户自己输入的
data比较容易骗钱一点就是data比较容易被lockin
computing的话,因为现在码农的数学比较差
大多数时候都在搬运数据,导致更高级的东西由于基建的不足而裹足不前
像spark这种变成了data的附属,这其实从长远看是错误的
长远看,计算将会脱离数据而存在,算法将会超越数据结构
搞游戏的话,算法重要性就超过数据结构了
web对于即时运算要求比较低,所以很多时候都是crud和搬运数据
搞个游戏就知道了,vert.x已经是一个临界点,再往上必需自己搞了
这也不奇怪,最开始web也都是从db开始,以前tomcat这些都被认为是db的映射
后来j2ee提出三层模型之后才逐步改观,现在big data也是从这一点开始
以后慢慢转过去,以前ejb就可以单独打成一个ear文件拿出去卖
汇丰什么都买过这种产品
那种server只做crud的局面肯定是不能满足人类发展的需要的
你们太过于超前了,太过于超前资本家没钱赚,也憋得慌,毕竟资金还是很重要的

【在 n******7 的大作中提到】
: 感觉你跟撸主说的不是一个意思
: 你说的data 是直接available的,基本0成本获取
: 只是处理这些数据以前门槛比较搞
: 撸主说的应该是data本身收集就需要成本
: 所以big data是个门槛
: 这点跟我们想的一样
: 我们开始想靠技术算法混,很快(几个小时)就发现只有data才是核心竞争力
: 可能因为撸主现在也在做genomics的缘故吧

avatar
l*k
48
撸主看来只掌握了大数据的皮毛。举个栗子:做linear regression,3个数据点和3B个
数据点,没有本质区别,一行matlab的事儿。人的genome大约有3B个碱基对,两万多个
基因。这数据大么?不大。但是两万个基因,居然能整出一个大活人这么复杂的东西。
互相之间的相互作用、调控网络的关系,展开的话,现有的处理能力立刻就跪了。
avatar
z*e
49

大数据就是让计算机学会下围棋
规则很少或者很简单
那简单之中孕育着无限的可能
那如何在短时间内从无限可能中找出可行的方案来
这才是真正的大数据
用穷举的大数据都是扯蛋

【在 l********k 的大作中提到】
: 撸主看来只掌握了大数据的皮毛。举个栗子:做linear regression,3个数据点和3B个
: 数据点,没有本质区别,一行matlab的事儿。人的genome大约有3B个碱基对,两万多个
: 基因。这数据大么?不大。但是两万个基因,居然能整出一个大活人这么复杂的东西。
: 互相之间的相互作用、调控网络的关系,展开的话,现有的处理能力立刻就跪了。

avatar
b*s
50
问题是如何能保证分析出来的结果是对的呢?我一朋友得了癌症,好像他最近在网上搜
索了相关知识,结果收到卖墓地的电子邮件。
这东西就像看电影写影评,出发点不一样结论也就不同啊,完全是分析完了给领导装逼
方便。
为什么非单挑出个大数据的概念?就继续machine learning和data mining呗
avatar
m*n
51
智力门槛根本不存在了,只有资本门槛和机会门槛
avatar
g*g
52
A/B test. You don't apply the model unless you see an improvement.

【在 b********s 的大作中提到】
: 问题是如何能保证分析出来的结果是对的呢?我一朋友得了癌症,好像他最近在网上搜
: 索了相关知识,结果收到卖墓地的电子邮件。
: 这东西就像看电影写影评,出发点不一样结论也就不同啊,完全是分析完了给领导装逼
: 方便。
: 为什么非单挑出个大数据的概念?就继续machine learning和data mining呗

avatar
z*e
53
你做题做多了有些走火入魔了吧?
第一不需要什么东西都绝对正确,google给你的结果没有一个是绝对正确的
但是你还不是一天到晚都在用google?
绝对对的东西只有你自己最清楚,别人跟你说的答案,永远都不能保证绝对正确
再客观的东西你要是坚持唯心主义可以全盘否定掉
人的存在是对的还是错的?如果是错的,你咋办?自我毁灭?
第二分析的东西也有大量的市场,你难道小时候没有听过爸爸妈妈给你讲故事吗?
故事本身有绝对正确的说法不?没有嘛,那你为啥还听故事呢?
电影电视音乐游戏,哪一个是对和错的东西?没有一个是
但是为什么这几个都在创造巨大的市场?这么巨大的市场不要了?
programming有很大一部分是艺术发挥,不是纯粹的解题

【在 b********s 的大作中提到】
: 问题是如何能保证分析出来的结果是对的呢?我一朋友得了癌症,好像他最近在网上搜
: 索了相关知识,结果收到卖墓地的电子邮件。
: 这东西就像看电影写影评,出发点不一样结论也就不同啊,完全是分析完了给领导装逼
: 方便。
: 为什么非单挑出个大数据的概念?就继续machine learning和data mining呗

avatar
t*r
54
"面对科学难题的时候,现阶段的人类是一群不知所措等待挂科的学渣。这时候Machine
Learning和Big Data出现了,就像新东方之于GRE,告诉学渣们,根据以往的真题,不
用管为什么,我也不知道,但是选项里出现Every的都是错误选项。一小批深得此法的
学渣取得了旁人暂时无法取得的好成绩。ML也因此深得人心,逐步繁荣于各个领域。"
avatar
y*t
55
数据大也同时带来了混乱和自相矛盾,要迅速出成果的话,就用锤子凿子生砸,反正千
头万绪的怎么说都有理,先挣到钱,想要成大师的话,就拿一块数据慢慢雕,要能雕出
花来,就在那个领域成名。
自认没有太大本事的,就拿锤子去,带领群众没日没夜地敲。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
k*r
56
re, 高见。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
k*r
57
re, 高见。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
b*r
58
涨见识了,各位讨论的都很好!
avatar
n*5
59
佩服各位一把。
我个人认为大数据,machine learning, data mining 等等不可能 work。计算机出现
的过去六十年里,每一次计算能力的提高都催发出data crunching的欲望和忽悠。
但是,计算能力的提高根本追不上数据复杂度的提高。
接着忽悠。
avatar
b*s
60
一扯到艺术,就是忽悠了。

【在 z****e 的大作中提到】
: 你做题做多了有些走火入魔了吧?
: 第一不需要什么东西都绝对正确,google给你的结果没有一个是绝对正确的
: 但是你还不是一天到晚都在用google?
: 绝对对的东西只有你自己最清楚,别人跟你说的答案,永远都不能保证绝对正确
: 再客观的东西你要是坚持唯心主义可以全盘否定掉
: 人的存在是对的还是错的?如果是错的,你咋办?自我毁灭?
: 第二分析的东西也有大量的市场,你难道小时候没有听过爸爸妈妈给你讲故事吗?
: 故事本身有绝对正确的说法不?没有嘛,那你为啥还听故事呢?
: 电影电视音乐游戏,哪一个是对和错的东西?没有一个是
: 但是为什么这几个都在创造巨大的市场?这么巨大的市场不要了?

avatar
b*s
61
对某些问题确实可以这么做。不确定使用度有多广泛。另外这个反馈过程可能会很长,
这么做下来也就未必有意义了,当然你可以说对大的数据也可以进行设计、引导。

【在 g*****g 的大作中提到】
: A/B test. You don't apply the model unless you see an improvement.
avatar
g*g
62
什么叫做有多广泛?每个互联网公司都这么做,比如界面改版,搜索算法,推荐算法,
不A/B测试怎么知道是不是改进。一个测试几天到几个月不等,但是可以同时进行几百
个。楼上一堆拍脑袋的,明显不是做这个行业的。

【在 b********s 的大作中提到】
: 对某些问题确实可以这么做。不确定使用度有多广泛。另外这个反馈过程可能会很长,
: 这么做下来也就未必有意义了,当然你可以说对大的数据也可以进行设计、引导。

avatar
s*r
63
说得很好 对business研究的透彻
[在 goodbug (好虫) 的大作中提到:]
:你这贴怎么闻着都是学术界对大数据在工业界做出来这事的酸味呢?

:...........
avatar
b*s
64
说的是针对问题的广泛度,不是说有多少公司在用。公司很多都是为了跟潮流,为了应
用而应用,未必真有那样的需求。你是做这个行业的,行了吧?你们全家都是做这个行
业的,全小区都是,行了吧?

【在 g*****g 的大作中提到】
: 什么叫做有多广泛?每个互联网公司都这么做,比如界面改版,搜索算法,推荐算法,
: 不A/B测试怎么知道是不是改进。一个测试几天到几个月不等,但是可以同时进行几百
: 个。楼上一堆拍脑袋的,明显不是做这个行业的。

avatar
N*K
65
lol

Machine

【在 t*********r 的大作中提到】
: "面对科学难题的时候,现阶段的人类是一群不知所措等待挂科的学渣。这时候Machine
: Learning和Big Data出现了,就像新东方之于GRE,告诉学渣们,根据以往的真题,不
: 用管为什么,我也不知道,但是选项里出现Every的都是错误选项。一小批深得此法的
: 学渣取得了旁人暂时无法取得的好成绩。ML也因此深得人心,逐步繁荣于各个领域。"

avatar
g*g
66
A/B测试,有用就改进,没用就扔掉。这东西是实实在在的,跟个屁潮流。A/B测试在没
有互联网之前就存在了。不懂就不懂,多学就是。一堆外行成天瞎评论。

【在 b********s 的大作中提到】
: 说的是针对问题的广泛度,不是说有多少公司在用。公司很多都是为了跟潮流,为了应
: 用而应用,未必真有那样的需求。你是做这个行业的,行了吧?你们全家都是做这个行
: 业的,全小区都是,行了吧?

avatar
G*9
67
大数据对于大公司来说,就是一个政治信号--既得利益集团内部意见不统一了,需要找
个借口更新血液了。于是一个什么都不是也什么都是的大数据呼之即出。大公司里面讲
大数据的,90%都是在那儿塔儿哄,剩下10%是老中和老印在那里吭哧吭哧地干。
avatar
s*c
68
Lol 机器学习不work?
敢情siri和Google now其实都是在后台雇一堆老印听你提问然后现场搜索呢

【在 n******5 的大作中提到】
: 佩服各位一把。
: 我个人认为大数据,machine learning, data mining 等等不可能 work。计算机出现
: 的过去六十年里,每一次计算能力的提高都催发出data crunching的欲望和忽悠。
: 但是,计算能力的提高根本追不上数据复杂度的提高。
: 接着忽悠。

avatar
n*7
69
没啥超前的
genomic data本身就是钱啊
23andme天天贴钱做genomic data,
前段时间我记得data卖(share)给Roche,卖了60M
可能在IT公司看来毛毛雨了
genomic data维度高
你没一定的sample量,还真搞不了

【在 z****e 的大作中提到】
: 那些big data都是互联网公司在搞
: 这些公司的data基本上都是www上抓,或者是互联网用户自己输入的
: data比较容易骗钱一点就是data比较容易被lockin
: computing的话,因为现在码农的数学比较差
: 大多数时候都在搬运数据,导致更高级的东西由于基建的不足而裹足不前
: 像spark这种变成了data的附属,这其实从长远看是错误的
: 长远看,计算将会脱离数据而存在,算法将会超越数据结构
: 搞游戏的话,算法重要性就超过数据结构了
: web对于即时运算要求比较低,所以很多时候都是crud和搬运数据
: 搞个游戏就知道了,vert.x已经是一个临界点,再往上必需自己搞了

avatar
j*x
70
你这种场景放在数得出名字的互联网公司都是入门级以外的水平

【在 w***g 的大作中提到】
: 你得有一千台机器,积累几十几百TB的数据啊。
avatar
z*e
71
我不否认很多data本身也是钱
但是computing本身也可以卖钱
一个典型例子就是游戏,基本上就都是computing在卖
游戏一般不卖data

【在 n******7 的大作中提到】
: 没啥超前的
: genomic data本身就是钱啊
: 23andme天天贴钱做genomic data,
: 前段时间我记得data卖(share)给Roche,卖了60M
: 可能在IT公司看来毛毛雨了
: genomic data维度高
: 你没一定的sample量,还真搞不了

avatar
w*m
72
大数据就是门槛太高
首先大数据是分布式计算. 单机的简单算法搞到cluster上, 要考虑各个node之间的
shuffle开销. 就变得很麻烦. 学校教不了这些, 也没条件教. 所以面试的角度很难找
人, 以前的OO design现在都改到现在system design, 就是希望筛到一点人.
第二知识更新太快. 各大公司在hadoop上面开发了自己的一套, 没法对接spark. 相反
小公司有后发优势, 比如wdong的生物信息学平台.
avatar
k*4
73
算法再傻B,在超大量数据作用下效果也会变得很好
Wtf are you talking about?
avatar
g*g
74
学校只是教个方法,两台机器就能做个 cluster,有啥不能教的。并行算法都能交,现
在这种平民级硬件就能做的框架,反而教不了?

【在 w********m 的大作中提到】
: 大数据就是门槛太高
: 首先大数据是分布式计算. 单机的简单算法搞到cluster上, 要考虑各个node之间的
: shuffle开销. 就变得很麻烦. 学校教不了这些, 也没条件教. 所以面试的角度很难找
: 人, 以前的OO design现在都改到现在system design, 就是希望筛到一点人.
: 第二知识更新太快. 各大公司在hadoop上面开发了自己的一套, 没法对接spark. 相反
: 小公司有后发优势, 比如wdong的生物信息学平台.

avatar
d*3
75
其实,难道不是硬件便宜的原因么?
avatar
s*m
76
你忽略了一点,科学的进步是建立在数据的基础上的。
牛顿的万有引力定律建立在开普勒定律之上,而开普勒的定律又建立在第谷通过几十年
的观测
得到的数据上,那个时代的大数据。
现代的高能粒子,天文学的研究,都需要存储和分析巨量的数据。
科学,毕竟是对自然的理解,不是天才的大脑“生产”的,而是天才的大脑“发现”的。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
b*s
77
说话不一定非要装成牛的B的形状,为什么一定要苦大仇深?就你内行,别人都外行
建议你读读这个讨论,自己某些知识强的时候也不至于这样,另外别人说的是啥,你确
定你听懂了吗?我这算是够有耐心了吧
http://www.mitbbs.com/article_t1/Military/43546349_0_1.html

【在 g*****g 的大作中提到】
: A/B测试,有用就改进,没用就扔掉。这东西是实实在在的,跟个屁潮流。A/B测试在没
: 有互联网之前就存在了。不懂就不懂,多学就是。一堆外行成天瞎评论。

avatar
b*s
78
不要被忽悠吓倒。这些技术其实本身目的是为了降低门槛而不是提高。大数据处理其实
是一个组织管理问题。学MapReducer其实比过去学J2EE容易多了

【在 w********m 的大作中提到】
: 大数据就是门槛太高
: 首先大数据是分布式计算. 单机的简单算法搞到cluster上, 要考虑各个node之间的
: shuffle开销. 就变得很麻烦. 学校教不了这些, 也没条件教. 所以面试的角度很难找
: 人, 以前的OO design现在都改到现在system design, 就是希望筛到一点人.
: 第二知识更新太快. 各大公司在hadoop上面开发了自己的一套, 没法对接spark. 相反
: 小公司有后发优势, 比如wdong的生物信息学平台.

avatar
l*m
79
有不少ML还是数据越多性能越好的。只不过ML和大数据没啥关系。

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
g*g
80
我老无非就事论事,一堆屁都不懂的外行扯些不着边的东西,弄得自己很有见识似的。
我说的无非是业内的一些常识,最土最基本的东西。连这些东西也要否定的是纯粹的外
行。你一暴露就扯这些没边的东西就能说明你不是了?
我老人家不懂的东西很多,所以我从来不评论 kernel该怎么做,嵌入式该怎么做。但
一堆人根本不懂啥叫大数据上来评论大数据是忽悠才叫装逼好不好?

【在 b********s 的大作中提到】
: 说话不一定非要装成牛的B的形状,为什么一定要苦大仇深?就你内行,别人都外行
: 建议你读读这个讨论,自己某些知识强的时候也不至于这样,另外别人说的是啥,你确
: 定你听懂了吗?我这算是够有耐心了吧
: http://www.mitbbs.com/article_t1/Military/43546349_0_1.html

avatar
n*7
81
我感觉对bioinfo data
大家的mining的水平都差不多
瓶颈一直在于data的数量和质量
比如我们有些自己的想法,别人看了立刻可以copy一个出来
只有有自己的data才能保证优势

【在 z****e 的大作中提到】
: 我不否认很多data本身也是钱
: 但是computing本身也可以卖钱
: 一个典型例子就是游戏,基本上就都是computing在卖
: 游戏一般不卖data

avatar
b*s
82
自重。

【在 g*****g 的大作中提到】
: 我老无非就事论事,一堆屁都不懂的外行扯些不着边的东西,弄得自己很有见识似的。
: 我说的无非是业内的一些常识,最土最基本的东西。连这些东西也要否定的是纯粹的外
: 行。你一暴露就扯这些没边的东西就能说明你不是了?
: 我老人家不懂的东西很多,所以我从来不评论 kernel该怎么做,嵌入式该怎么做。但
: 一堆人根本不懂啥叫大数据上来评论大数据是忽悠才叫装逼好不好?

avatar
c*3
83
大数据就是最傻的人工智能,是歪门邪道,把人工智能方向带歪了。机器对处理内容一
个字也不理解,就是靠瞎蒙。
所以会发生Google 翻译,把“干菜"翻译成fuck vegetable的事情。所有网上的搞笑中
文路牌的英文翻译,都是大数据的杰作。是中国农民使用google translator 翻译出来的
avatar
z*e
84
这个就是典型的中文这种表意文字的断词的问题
玉米面到底是玉米和面,还是玉和米面,还是玉和米和面,还是玉米面
中文parse起来复杂度要远远高于英语法语等字母语言
字母语言的words尤其容易识别,前后一空格,搞定了
但是中文不行,中文的字可以跟前后分别组合,组合出不同的意思
导致中文的parse复杂度远远大于英文等语言
相比之下,英语和法语之间的翻译就要顺畅许多

来的

【在 c****3 的大作中提到】
: 大数据就是最傻的人工智能,是歪门邪道,把人工智能方向带歪了。机器对处理内容一
: 个字也不理解,就是靠瞎蒙。
: 所以会发生Google 翻译,把“干菜"翻译成fuck vegetable的事情。所有网上的搞笑中
: 文路牌的英文翻译,都是大数据的杰作。是中国农民使用google translator 翻译出来的

avatar
z*e
85
太学术化了,一般学校是冷衙门
没啥钞票的,现在互联网公司是资金的聚拢处
钱多多,所以big data现在还主要是瞄准web上的数据
至于学术上的那些数据,缺少资金关怀

【在 n******7 的大作中提到】
: 我感觉对bioinfo data
: 大家的mining的水平都差不多
: 瓶颈一直在于data的数量和质量
: 比如我们有些自己的想法,别人看了立刻可以copy一个出来
: 只有有自己的data才能保证优势

avatar
c*3
86
这是大数据傻的典型证据。
“干”这个词,字典里没有fuck的意思。网络和俗语,”干“才有fuck的意思。而且“
干”是fuck意思的概率出现频率高。
所以”干菜“用大数据就变成fuck vegetable

【在 z****e 的大作中提到】
: 这个就是典型的中文这种表意文字的断词的问题
: 玉米面到底是玉米和面,还是玉和米面,还是玉和米和面,还是玉米面
: 中文parse起来复杂度要远远高于英语法语等字母语言
: 字母语言的words尤其容易识别,前后一空格,搞定了
: 但是中文不行,中文的字可以跟前后分别组合,组合出不同的意思
: 导致中文的parse复杂度远远大于英文等语言
: 相比之下,英语和法语之间的翻译就要顺畅许多
:
: 来的

avatar
z*e
87
中文傻而已了
人家法语英语都弄得好好的
法语最容易识别
语法最严谨,英语难度高一点,但是断词这种问题还是比较容易解决的
韩语和中文最难识别,因为书写上就没有空格
日语介于两者之间,日语的汉字和假名比较容易区分
法语的语法这么严谨,很适合互联网搞
一般说翻译,一说法语,一堆人跑过去搞,很快就有结果
一说中文……,当然中文因为难,也比较适合灌水
老外不懂中文灌不了

【在 c****3 的大作中提到】
: 这是大数据傻的典型证据。
: “干”这个词,字典里没有fuck的意思。网络和俗语,”干“才有fuck的意思。而且“
: 干”是fuck意思的概率出现频率高。
: 所以”干菜“用大数据就变成fuck vegetable

avatar
c*3
88
对处理的内容,一个字都不理解,才会搞出这种可笑的错误。大街上找个弱智的傻子,
估计都不会犯这种错误。
所以大数据就是比原来的更低级的人工智水平能好点,其实本质上一点都不可靠,也不
可信。

【在 z****e 的大作中提到】
: 中文傻而已了
: 人家法语英语都弄得好好的
: 法语最容易识别
: 语法最严谨,英语难度高一点,但是断词这种问题还是比较容易解决的
: 韩语和中文最难识别,因为书写上就没有空格
: 日语介于两者之间,日语的汉字和假名比较容易区分
: 法语的语法这么严谨,很适合互联网搞
: 一般说翻译,一说法语,一堆人跑过去搞,很快就有结果
: 一说中文……,当然中文因为难,也比较适合灌水
: 老外不懂中文灌不了

avatar
n*7
89
health care可不是冷衙门
IT大公司都在投入
不过目前还是在成长期

【在 z****e 的大作中提到】
: 太学术化了,一般学校是冷衙门
: 没啥钞票的,现在互联网公司是资金的聚拢处
: 钱多多,所以big data现在还主要是瞄准web上的数据
: 至于学术上的那些数据,缺少资金关怀

avatar
z*e
90
医疗的我只做过医院的整合
在我看来,医院的整合并不难
虽然各家医院的数据库的数据结构都不一样
但是基本上schema很清晰,所需要做的就是建立一个名词的graph
然后建立每一个nodes之间的关联,合并同义词这些
然后就可以很有效地搜索出需要的信息给医生们参考
跟big data整天折腾的text要容易许多
这个只是数据合并和系统整合,电脑还是不能替代医生看病
真正的ai要能够做到替代医生看病,这种才有点ml的意思

【在 n******7 的大作中提到】
: health care可不是冷衙门
: IT大公司都在投入
: 不过目前还是在成长期

avatar
n*7
91
你说的这是医疗电子系统了
还有专家系统做疾病诊断
都是比较传统的
现在这一波主要是NGS推动的,还有各种个体sensor

【在 z****e 的大作中提到】
: 医疗的我只做过医院的整合
: 在我看来,医院的整合并不难
: 虽然各家医院的数据库的数据结构都不一样
: 但是基本上schema很清晰,所需要做的就是建立一个名词的graph
: 然后建立每一个nodes之间的关联,合并同义词这些
: 然后就可以很有效地搜索出需要的信息给医生们参考
: 跟big data整天折腾的text要容易许多
: 这个只是数据合并和系统整合,电脑还是不能替代医生看病
: 真正的ai要能够做到替代医生看病,这种才有点ml的意思

avatar
g*e
92
你要是算法牛逼 还怕别人机器多?

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

avatar
c*z
93
首先因为dimensionality,数据量永远不会太大
其次如果数据质量有问题,算法+大数据也只能呵呵

易。
小用

【在 w***g 的大作中提到】
: 这两天在faculty版上灌水纠结大数据概念,让我突然想明白了大数据在工业界兴起的
: 原因:
: 很多规律在数据量大了以后都会变得很显然,算法再傻B,在超大量数据作用下效果也
: 会变得很好。因为开发牛B算法开销很大风险很高,而获取数据对不少公司而言很容易。
: 所以会出现一个大数据潮流,大家都指着数据变成救命法宝。
: 比如大数据的源头Google,Pagerank其实就是个幌子,真正优化Google搜索结果的其实
: 是人民群众。结果被点得多了排名就上去了。算法够傻B吧。还有Google翻译也用到了
: 大数据技术。算法是否傻B是和系统复杂度相对的。比如linear regression,数据量小用
: atlab三五行就写出来了。数据量大了就得上Hadoop, Spark,支持运算的平台比真正的
: 算法要复杂得多得多。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。