Rao想当拿着尚方宝剑的钦差大臣 - 未名空间MITBBS历史存档

Rao想当拿着尚方宝剑的钦差大臣# Biology - 生物学

a*u2011-08-31 07:08

1 楼

朋友刚刚面的。好像之前有人讨论过类似海量数据找重复的。但是找不到了。觉得这类
题挺经典的，所以再放上来听听大家意见。
1TB data on disk with around 1KB per data record. Find duplicates using
512MB RAM and infinite disk space.
My thoughts are external sorting. The data have around the 1 million records
- 512MB can hold around 0.5 million records, so we need around 2000 rounds
of in-memory quick sort and then merge and find duplicates.
Bloomfilter may not work since 512MB memory can only spare 4 bits for each
record, which will yield a high error rate (opt

t*22011-08-31 07:08

2 楼

都干些什么？除了打手印，还要做什么？

l*42011-08-31 07:08

3 楼

既然将军不相信博士, 把博士给流放了,却为什么把博士发明的仪器保管的那么好?

y*i2011-08-31 07:08

4 楼

看了近期的非诚勿扰，有一个男嘉宾特别严于律己，经常写反省日记，每天观察自己的
不足，做到每天进步。可是没有女嘉宾喜欢他这一点，我觉得这样很难的。我也是这种
人，虽然不能每天那样审视自己，可也希望自己能be a better person!
最近自己有个疑惑，我是个女人，觉得女人为什么总爱唠叨跟抱怨，当然也包括我自己
。我想很多是生理的因素，因为很多女人这样，当然也包括一些男人。说不上是种坏习
惯，可是也不是什么好习惯，所以想跟广大男男女女讨论一下，如果有办法，我还是希
望自己能控制一下，倒不至于完全杜绝。
对于我来说，抱怨是一种发泄，看到不顺眼的地方，特别是在家里跟比较亲近的人，就
会说他几句，这不对这不好，下次能不能这样，就忍不住想说。（对于外人，同事什么
的，我都很大度，不会计较些什么小事，也不会对于什么小错误指指点点。）很多女同
事都说，女人爱抱怨，是因为男人总是不会把事情做的圆满，比如扫完地还是有灰尘，
洗完碗上面还有泡泡，像我也经常会说男朋友不及时打扫，每次都要催着提醒着才会去
干活儿。。。有时候抱怨完了，也检讨自己这么点小事情还说他干什么，自己收拾一下
就算了。可是每每碰到，又忍不住要说。
还有就是抱怨时候的态度是不是也很重要？要温和的语气或是以不同的方式？有时候我
会忘记清理浴盆里的头发，他不说什么，就是拿出来摆到我看得到的地方，以示抗议。
男友就会说我都不怎么抱怨你，可是我事事都很主动地去做，不用被提醒，而且都会尽
量做到完善，不会看到家里乱七八糟的也视而不见。
哎，自己也很不想抱怨，可是怎样才能控制好一个度，看到不顺眼的地方，也尽量少抱
怨，不知道大家有什么好建议？

o*d2011-08-31 07:08

5 楼

本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
揣摩一下他这些行为后面的文化层次的原因。
一句话：他们都想当拿着尚方宝剑的钦差大臣。
无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
）这样，“为帝王师”就可以保证自己的政治主张得以实现。
其实有政治野心也无可厚非，修身齐家治国平天下，只有这个本事，这也是应该鼓励的
。但关键是如何去做。天朝的科研系统问题多多，绝对不是一时形成的，所以也不可能
一朝一夕就能解决。而且天朝另外一个令人无语的优点就是不管什么事情，在国外运行
的好好的，一旦被引入，立刻就变味，美其名曰中国特色，其实就是胡改瞎改，而且往
往是把其中好的地方改掉，基本出发点改掉，变的不伦不类，以顺应决策者的利益。所
以在这种情况下单纯的引入某种体制不见得是件好事。
对Rao们来说最简单的方法当然就是跳出这些烂摊子，另辟蹊径。成立NIBS，还有成立
中国的HHMI，NIH，NCI等等，都是直接从中央要权要钱。但是这种做法和拿着尚方宝剑
的钦差大臣到地方办案一样，有着和地方官员无法比拟的优势和权威，办案当然方便，
能办很多案子。（拿着国家以亿计的科研经费，发好文章当然容易）。但是这样做最大
的问题就是也有可能产生冤假错案（文章／经费产出比太低）。而且这种做法一时可以
，如果成为常态，就变成钦差大臣遍地走，东厂西厂锦衣卫，中统军统青红帮。大量的
科研经费都被少数人以这种方式占用了，其他的大学／研究所的科研人员怎么办？这样
的体制对中国科研的长期发展会有好处？Rao们反对现行的经费分配体系，因为10％的
人靠关系占有了30％的经费，而他们要做的就是1％的人直接从天庭拿走10％的钱，这
样就公平了？
Rao落选也可以这样来理解：当惯了钦差的他先把地方吏治／翰林院批的一钱不值，但
又要入选翰林院，那些翰林们会这么容易让他进吗？然后有要和翰林们比试，你手里有
尚方宝剑，能有几个可以和你比？如果真的要比，就比在相同或类似的科研条件下，在
相同或类似的科研经费下比吧。
如果真的要改变这个体制，我觉得先做一些基础的事情，就象真正的民主需要建立在有
民主意识的公民基础上的一样，而不要只想着自己要做踢临门一脚的人，球到他脚下要
经过不知多少次准确的传递，功到自然成。中国人的浮躁和急功近利举世闻名，这一点
也在RY身上看到了一些影子。如果这个改了，很多事情都迎刃而解。
另外，我觉得全世界70亿人，不管少了谁，地球都照转。不要以为你的想法是最好的，
唯一的，说不定在你有这个idea的第二天你就看到别人已经发表了。在现在信息流通如
此通畅，并有大量科研从业人员的情况下，谁都不是必须的，要不然也不会有那么多竞
争了。没有Newton，就会有Oldton被苹果砸到，唯一的区别就是这个定律晚发现几年
而已。
当然，用钱拼一些有质量的文章还是比花了大把的钱，拿中国人做了实验，告诉所有人
中国人有那些那些疾病的易感基因的强。
不管怎样，还是希望Rao们能给国内带来一些好的变化。

t*e2011-08-31 07:08

6 楼

我觉得就如果用external sorting，那IO access可能需要很多遍。
假设现在1T分成了10000个小文件，每个里面都去重了。
把这10000个小文件合起来去重的时候，假设合了1000个的时候，
得到的新文件的大小 > 512M了，那你再想把1001个合进来的时候，
怎么办？

records
rounds

【在 a*u 的大作中提到】

: 朋友刚刚面的。好像之前有人讨论过类似海量数据找重复的。但是找不到了。觉得这类
: 题挺经典的，所以再放上来听听大家意见。
: 1TB data on disk with around 1KB per data record. Find duplicates using
: 512MB RAM and infinite disk space.
: My thoughts are external sorting. The data have around the 1 million records
: - 512MB can hold around 0.5 million records, so we need around 2000 rounds
: of in-memory quick sort and then merge and find duplicates.
: Bloomfilter may not work since 512MB memory can only spare 4 bits for each
: record, which will yield a high error rate (opt

a*x2011-08-31 07:08

7 楼

拍照

【在 t******2 的大作中提到】

: 都干些什么？除了打手印，还要做什么？

A*Z2011-08-31 07:08

8 楼

听上去像主席把小平同志流放了，却保留了小平的党籍。

f*e2011-08-31 07:08

9 楼

每次要抱怨的时候，说反话。狂夸老公/bf。

n*w2011-08-31 07:08

10 楼

Re.

t*e2011-08-31 07:08

11 楼

去重是否要保持原来的顺序？

records
rounds

【在 a*u 的大作中提到】

: 朋友刚刚面的。好像之前有人讨论过类似海量数据找重复的。但是找不到了。觉得这类
: 题挺经典的，所以再放上来听听大家意见。
: 1TB data on disk with around 1KB per data record. Find duplicates using
: 512MB RAM and infinite disk space.
: My thoughts are external sorting. The data have around the 1 million records
: - 512MB can hold around 0.5 million records, so we need around 2000 rounds
: of in-memory quick sort and then merge and find duplicates.
: Bloomfilter may not work since 512MB memory can only spare 4 bits for each
: record, which will yield a high error rate (opt

f*u2011-08-31 07:08

12 楼

打手印时不能戴手套

D*S2011-08-31 07:08

13 楼

Just take it the way it is. You cannot try and reason each and every detail
of a movie, even if they could all seem critical for the plot of the movie (
in your eyes, that is).

【在 l*****4 的大作中提到】

: 既然将军不相信博士, 把博士给流放了,却为什么把博士发明的仪器保管的那么好?

C*12011-08-31 07:08

14 楼

你自己都知道不应该还控制不了，我们说什么有用吗？我是女人，我从不抱怨。

【在 y***i 的大作中提到】

: 看了近期的非诚勿扰，有一个男嘉宾特别严于律己，经常写反省日记，每天观察自己的
: 不足，做到每天进步。可是没有女嘉宾喜欢他这一点，我觉得这样很难的。我也是这种
: 人，虽然不能每天那样审视自己，可也希望自己能be a better person!
: 最近自己有个疑惑，我是个女人，觉得女人为什么总爱唠叨跟抱怨，当然也包括我自己
: 。我想很多是生理的因素，因为很多女人这样，当然也包括一些男人。说不上是种坏习
: 惯，可是也不是什么好习惯，所以想跟广大男男女女讨论一下，如果有办法，我还是希
: 望自己能控制一下，倒不至于完全杜绝。
: 对于我来说，抱怨是一种发泄，看到不顺眼的地方，特别是在家里跟比较亲近的人，就
: 会说他几句，这不对这不好，下次能不能这样，就忍不住想说。（对于外人，同事什么
: 的，我都很大度，不会计较些什么小事，也不会对于什么小错误指指点点。）很多女同

k*z2011-08-31 07:08

15 楼

当然，用钱拼一些有质量的文章还是比花了大把的钱，拿中国人做了实验，告诉所有人
中国人有那些那些疾病的易感基因的强。
do not agree, I think just opposite, using modern tech to study problem
specific to China (Chinese) is way better than wasting money on story making
(so called good paper), and it is not use Chinese for experiment, it is
study of Chinese population

t*e2011-08-31 07:08

16 楼

1. 1T大小的文件，每行1K，所以有1G行
1G = 2^30，所以，我们可以对每行算一个hash值，如果哈希函数选得好，
我们只需要4 bytes，因为4 bytes能表示2^32个值 > 2^30
2. 生成一个中间文件用4 bytes存储哈希值，另外用4 bytes来保存在原文件里面的行数
一共需要1G * 8 = 8G的空间
如果要求新文件里面的每行不要求保持原文件每行的次序，可以直接建立一个长为2^32
的bitmap，扫描新文件，并且设每个bit，把bit设为1所关联的行保留，其它去掉。
结束。
如果要求保持原来的次序：
3. 把8G分成32个256M的文件，分别把每个256M的文件读到内存里面，并且去重，去重
结果写到新文件。512M内存>256M内存，这一步可以很快。
如果要求新文件里面的每行不要求保持原文件每行的次序，可以直接建立一个长为2^32
的bitmap，扫描新文件，并且设每个bit，把bit设为1所关联的行保留，其它去掉。
4. 把32个新文件，两两合在一起去重，得到新的16个新文件。（这16个新文件的大小
可能会很接近512M了）
5. ......

【在 t******e 的大作中提到】

: 我觉得就如果用external sorting，那IO access可能需要很多遍。
: 假设现在1T分成了10000个小文件，每个里面都去重了。
: 把这10000个小文件合起来去重的时候，假设合了1000个的时候，
: 得到的新文件的大小 > 512M了，那你再想把1001个合进来的时候，
: 怎么办？
:
: records
: rounds

a*r2011-08-31 07:08

17 楼

残疾人没手怎么办？

l*42011-08-31 07:08

18 楼

well, base on the scope of the way it is, I raise this question. It's just
the way the general react to all this seems a bit too assertive for the plot
. It never stop me from enjoy this movie.

detail
(

【在 D**S 的大作中提到】

: Just take it the way it is. You cannot try and reason each and every detail
: of a movie, even if they could all seem critical for the plot of the movie (
: in your eyes, that is).

s*x2011-08-31 07:08

19 楼

不抱怨就不是女人了，不过凡事都有个度，别过分就好。

【在 y***i 的大作中提到】

: 看了近期的非诚勿扰，有一个男嘉宾特别严于律己，经常写反省日记，每天观察自己的
: 不足，做到每天进步。可是没有女嘉宾喜欢他这一点，我觉得这样很难的。我也是这种
: 人，虽然不能每天那样审视自己，可也希望自己能be a better person!
: 最近自己有个疑惑，我是个女人，觉得女人为什么总爱唠叨跟抱怨，当然也包括我自己
: 。我想很多是生理的因素，因为很多女人这样，当然也包括一些男人。说不上是种坏习
: 惯，可是也不是什么好习惯，所以想跟广大男男女女讨论一下，如果有办法，我还是希
: 望自己能控制一下，倒不至于完全杜绝。
: 对于我来说，抱怨是一种发泄，看到不顺眼的地方，特别是在家里跟比较亲近的人，就
: 会说他几句，这不对这不好，下次能不能这样，就忍不住想说。（对于外人，同事什么
: 的，我都很大度，不会计较些什么小事，也不会对于什么小错误指指点点。）很多女同

o*d2011-08-31 07:08

20 楼

我们生活在现实世界，老大。
同样一个东西，站在不同的角度，解读会完全不同，但是你不会把这种研究结果往坏处
使，并不见得别人也不这样做。炸药奖不就是一个鲜明的例子吗？
不管你信不信，反正我是信了：SARS是个生物武器，不然真的很难解释为啥这个SARS就
在天朝做了一把孽就无影无踪了。
象这样的研究结果，我觉得应该保密起来，而是不公开。

making

【在 k****z 的大作中提到】

: 当然，用钱拼一些有质量的文章还是比花了大把的钱，拿中国人做了实验，告诉所有人
: 中国人有那些那些疾病的易感基因的强。
: do not agree, I think just opposite, using modern tech to study problem
: specific to China (Chinese) is way better than wasting money on story making
: (so called good paper), and it is not use Chinese for experiment, it is
: study of Chinese population

a*u2011-08-31 07:08

21 楼

应该是不需要保留原文件次序。
如果可以有one to one compact hash mapping当然好啊，1 million records map to
1G bits，只需要125MB内存了。但是这样的hashing很难找吧，bloom filter就是顺着
这个解法思路的，用多个hashing function 和更多bits per records。

行数
32

【在 t******e 的大作中提到】

: 1. 1T大小的文件，每行1K，所以有1G行
: 1G = 2^30，所以，我们可以对每行算一个hash值，如果哈希函数选得好，
: 我们只需要4 bytes，因为4 bytes能表示2^32个值 > 2^30
: 2. 生成一个中间文件用4 bytes存储哈希值，另外用4 bytes来保存在原文件里面的行数
: 一共需要1G * 8 = 8G的空间
: 如果要求新文件里面的每行不要求保持原文件每行的次序，可以直接建立一个长为2^32
: 的bitmap，扫描新文件，并且设每个bit，把bit设为1所关联的行保留，其它去掉。
: 结束。
: 如果要求保持原来的次序：
: 3. 把8G分成32个256M的文件，分别把每个256M的文件读到内存里面，并且去重，去重

s*22011-08-31 07:08

22 楼

别涂护手霜，涂了也会叫你去洗掉

m*r2011-08-31 07:08

23 楼

很简单，导演说的，nuff said

S*92011-08-31 07:08

24 楼

先天DNA以及后天养成都有关系：女性善于用语言表达情感，不管是抱怨还是喜欢。男
人觉得女人爱抱怨，一方面是选择性接收，忘了女人其实也是爱夸奖的；另一方面是女
人在表达喜爱时会因为矜持羞涩而过滤掉，但抱怨就脱口而出了。当然这里说的是大多
数，不适用于每一个。

k*o2011-08-31 07:08

25 楼

顶，
如果真是想做事的，
第一篇blog出来，
就冷下来才对。
现在闹这么大，立刻觉得，在这当中，
猫腻就出来了。
是闹性子呢，还是想做事情呢？

【在 o**d 的大作中提到】

: 本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
: 国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
: 动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
: 揣摩一下他这些行为后面的文化层次的原因。
: 一句话：他们都想当拿着尚方宝剑的钦差大臣。
: 无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
: 果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
: 外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
: 当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
: ）这样，“为帝王师”就可以保证自己的政治主张得以实现。

g*t2011-08-31 07:08

26 楼

My try:
1M records, 512MB memory
Initialize 512MB memory into 512*8M (4G) bit map
Use hash function to map each record to a value between (0~4G)
probability of being false positive is 1M / 4GB (0.00025) (still bad, maybe
we can try multi-round)

t*22011-08-31 07:08

27 楼

一定要照吗？一个月前不是刚照了吗？

【在 a***x 的大作中提到】

: 拍照

c*r2011-08-31 07:08

28 楼

let it go. Some people vent their stress via complaining, which they might
not mean anything. My husband complains a lot: work, weather, NFL and even
his fantasy football etc. And I learned not to be bothered but pretending
that he is a very vocal cat after a few years. It is not a bad thing, but
just how those people are.

c*r2011-08-31 07:08

29 楼

The squeaky wheel gets the grease.
这次是评不上了，但可以从其他地方拿好处。
ry是聪明人当然理解，档还是会善待ry的，因为他们是海归的先锋队，搞死了ry,对忽
悠海归们不利。现在所有产业都想升级，继续吸血，就指望海归了。

g*t2011-08-31 07:08

30 楼

aku is right. Sorry for HUA SHE TIAN ZU :)
the point is how to find such a good hash function :)

f*u2011-08-31 07:08

31 楼

这个是你绿卡上的照片，别马虎，要用很多年的

【在 t******2 的大作中提到】

: 一定要照吗？一个月前不是刚照了吗？

s*72011-08-31 07:08

32 楼

小心精分

【在 f*********e 的大作中提到】

: 每次要抱怨的时候，说反话。狂夸老公/bf。

m*g2011-08-31 07:08

33 楼

饶一这次行动我得出两个结论:
1, 饶的精神有问题,建议他自己到精神病院就诊;
2, 以前都说饶狂妄,这回终于从其言行看出他已经到了走火入魔的地步.在一帮徒子弟
孙的吹捧下,他以为自己是"中国科学的太上皇"(肖传国10年前给饶的.

【在 o**d 的大作中提到】

: 本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
: 国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
: 动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
: 揣摩一下他这些行为后面的文化层次的原因。
: 一句话：他们都想当拿着尚方宝剑的钦差大臣。
: 无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
: 果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
: 外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
: 当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
: ）这样，“为帝王师”就可以保证自己的政治主张得以实现。

g*12011-08-31 07:08

34 楼

database? SQL?

f*u2011-08-31 07:08

35 楼

忘了求包子了。

h*n2011-08-31 07:08

36 楼

女人心太细了，太看重小细节；其实很多细节，根本不重要，但女人会觉得是天大的事
情，所以把时间都浪费了；抱怨也是，适当的抱怨可以调解心情，但一旦过度了，变成
唠叨了，就起反作用了；越抱怨，对方越反感，越无法接受，你就会加剧抱怨，恶性循环
这样的情况，你要问自己，为什么对方无法认同你，而不是加剧抱怨，让自己都烦；如
果不是什么大问题，直接忽视它，会让你生活easier很多；如果实在看不惯，就换个方
式提醒对方，让对方觉得是他自己意识到的，而不是你强迫他做的，个人觉得大多数人
都不喜欢做被强迫做的事情，而对于自愿做的事情都会很好的完成；如果实在不行，谁
抱怨的多，那就谁去完成；说真的，有那么多时间抱怨，还不如节省时间，多做一些实
际有意义的事情，很多事情你再抱怨也无法改变，那么你不如改变自己

【在 y***i 的大作中提到】

: 看了近期的非诚勿扰，有一个男嘉宾特别严于律己，经常写反省日记，每天观察自己的
: 不足，做到每天进步。可是没有女嘉宾喜欢他这一点，我觉得这样很难的。我也是这种
: 人，虽然不能每天那样审视自己，可也希望自己能be a better person!
: 最近自己有个疑惑，我是个女人，觉得女人为什么总爱唠叨跟抱怨，当然也包括我自己
: 。我想很多是生理的因素，因为很多女人这样，当然也包括一些男人。说不上是种坏习
: 惯，可是也不是什么好习惯，所以想跟广大男男女女讨论一下，如果有办法，我还是希
: 望自己能控制一下，倒不至于完全杜绝。
: 对于我来说，抱怨是一种发泄，看到不顺眼的地方，特别是在家里跟比较亲近的人，就
: 会说他几句，这不对这不好，下次能不能这样，就忍不住想说。（对于外人，同事什么
: 的，我都很大度，不会计较些什么小事，也不会对于什么小错误指指点点。）很多女同

m*g2011-08-31 07:08

37 楼

饶一是个贼喊捉贼的小丑.
一方面在上控诉中国科研经费分配不公,不给年轻人稀饭喝.另一方面,勾结想
创造"政绩"的TG官员,私自从国库里,违规套取数亿元.

【在 o**d 的大作中提到】

: 本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
: 国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
: 动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
: 揣摩一下他这些行为后面的文化层次的原因。
: 一句话：他们都想当拿着尚方宝剑的钦差大臣。
: 无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
: 果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
: 外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
: 当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
: ）这样，“为帝王师”就可以保证自己的政治主张得以实现。

g*t2011-08-31 07:08

38 楼

Now I think it is not too hard to find such hash function :)
Simply calculate md5 sum of the record then mod 4G and get the index

【在 g**t 的大作中提到】

: aku is right. Sorry for HUA SHE TIAN ZU :)
: the point is how to find such a good hash function :)

n*s2011-08-31 07:08

39 楼

Do not cut finger(s) as you will have to reschedule it.

z*c2011-08-31 07:08

40 楼

估计你比较细心吧, 我比较大条, 很少唠叨别人. 偶觉得女人抱怨主要是因为觉得没有
引起对方足够注意, 可以用搞笑一点的方式哈

m*a2011-08-31 07:08

41 楼

I admire his science. I just don't like his whining and complaining. What a
baby!!!

x*g2011-08-31 07:08

42 楼

how about this:
using a hash function f : records -> [1..N],
we can go through all data for N times, and in the i-th round,
we only update the 512x8 M bit bloom filter by those records whose hash
result is i.
in this way, duplications of the same record are always processed in the
same round.
since there are 1G records, in each round, we need to store around 1/N G
records in the bloom filter.
for example, by setting N=4, the load of our bloom filter is (1/4*1024)/(512
*8)=1/16.
we can optimize t

m*g2011-08-31 07:08

43 楼

中国历史上,那次是由洋人(饶是个美国人,只是为了竞选院士,通过TG官员,非法获得中
国国籍)来拯救中国的?
更何况来了个还是个精神病洋人,TMD洋人还不是正宗的..
海归真想在国内做事(你说混也可以)的,都是在国外或拿学位,或进修,结束后就回去的.
有几个是拿洋人来压中国,象饶这样的?
老钱牛成啥了,回国后还不是把自己当成普通一兵?

【在 c***r 的大作中提到】

: The squeaky wheel gets the grease.
: 这次是评不上了，但可以从其他地方拿好处。
: ry是聪明人当然理解，档还是会善待ry的，因为他们是海归的先锋队，搞死了ry,对忽
: 悠海归们不利。现在所有产业都想升级，继续吸血，就指望海归了。

m*y2011-08-31 07:08

44 楼

我来说个比较可行的思路吧
首先人家给了disk space就是让你放些中间结果的
我的想法是用hash来先把data record粗略归类到很小的子集，然后在每个子集里面找
重复就可以了。
1. 对每个data record，我们生成一个形如的ID，假设用md5作
为hash函数，再假设record number占用4个字节，那么每个ID的大小是16+4=20字节。
2. 生成ID的时候，把它归类到一个较小的子集，写到磁盘上去。对于2^30个record，
我们根据(hash mod 2^13)的结果，把它分成2^13个子集，每个子集存成一个文件，每
个文件包含大约2^17个record的ID，这样子集文件的平均大小大概是2^17*20=2MB左右
，总共需要大约2^30*20=4GB的磁盘空间。
3. 最后就是把这么些子集文件读到内存里，然后找重复。显然重复的data record的ID
肯定属于同一个子集，简单的办法是把这2MB的数据排个序，对于重复的hash再根据
record number去读实际的data record来作比较。这样基

【在 a*u 的大作中提到】

: 朋友刚刚面的。好像之前有人讨论过类似海量数据找重复的。但是找不到了。觉得这类
: 题挺经典的，所以再放上来听听大家意见。
: 1TB data on disk with around 1KB per data record. Find duplicates using
: 512MB RAM and infinite disk space.
: My thoughts are external sorting. The data have around the 1 million records
: - 512MB can hold around 0.5 million records, so we need around 2000 rounds
: of in-memory quick sort and then merge and find duplicates.
: Bloomfilter may not work since 512MB memory can only spare 4 bits for each
: record, which will yield a high error rate (opt

t*g2011-08-31 07:08

45 楼

这个世上，没什么无私的人。
饶的行为总是为自己核心利益服务的。只是围观的不知道内幕而已。不过从其他方面可
以看出来。
比如呼吁什么给海外回来的年轻人职称过高。还人民日报发表。这里面没有政府行为，
哪容易登。为什么会这样呼吁呢？真为科研环境健康？其实我看不然，就是他和一批
人站在招聘人的利益考虑而已，发现要招高水平的年轻人成本太高，违背学校利益。所
以一起忽悠。如果真希望改变环境，首先要呼吁改革国内教授职称水平标准，这个是正
道。另外得改经费申请带头人资格都应该平等对待和职称脱钩。等这些搞定，再呼吁。
没这些基础，高水平的年轻人凭什么一定从讲师做起？没法和那些水平一般但职称很高
的竞争的。回去基本上是销声匿迹的为多。不是他们没才华。

l*i2011-08-31 07:08

46 楼

>> 1TB data on disk with around 1KB per data record.
It means there are 1GB number of integers.
If we use bitset, one bit to represent one integer, we only need 1GB/8 =
256MB main memory.

n*a2011-08-31 07:08

47 楼

照你这么说,当年的两弹一星元勋也都是有政治野心的了?

【在 o**d 的大作中提到】

: 本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
: 国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
: 动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
: 揣摩一下他这些行为后面的文化层次的原因。
: 一句话：他们都想当拿着尚方宝剑的钦差大臣。
: 无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
: 果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
: 外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
: 当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
: ）这样，“为帝王师”就可以保证自己的政治主张得以实现。

j*92011-08-31 07:08

48 楼

这样的问题是考察一个人的思考能力，但是如果实际工作中难道每个google的人都是不
管拿来一个什么样的问题都咔咔的在一个店面的时间里都能搞定？类似这样的问题难道
讨论一下不会有更好的结果？为什么非要在店面里问？本人菜鸟，出于好奇，难道
google的每个人都是算法大牛？那为什么不去学校搞算法，那个图灵什么的不更有意义
？搞得这些东西都像八股似的。。。。一个intern本来就是学习长经验的机会，搞得
跟过去就能解决最棘手的问题似的。

g*p2011-08-31 07:08

49 楼

是的，邓稼先之流冒着强辐射进场搜寻，最后得癌症去世也是有预谋的
因为当年没有给他评学部委员没有给他几亿科研经费没有副部级待遇
不仅不准他像二流科学家那样在科学杂志上骂娘利用“制台见洋人”的传统打倒其他学
霸上位给自己捞钱评院士当
校长，还不准他写博客
所以他只有以死明志
最后终于换得死后封妻荫子黄袍加身
所谓老奸巨滑不修今生修来世

【在 n*******a 的大作中提到】

: 照你这么说,当年的两弹一星元勋也都是有政治野心的了?

m*f2011-08-31 07:08

50 楼

我想interviewer并没有奢望在一个电面的时间内解决这个问题, 只是考察思考能力.

【在 j********9 的大作中提到】

: 这样的问题是考察一个人的思考能力，但是如果实际工作中难道每个google的人都是不
: 管拿来一个什么样的问题都咔咔的在一个店面的时间里都能搞定？类似这样的问题难道
: 讨论一下不会有更好的结果？为什么非要在店面里问？本人菜鸟，出于好奇，难道
: google的每个人都是算法大牛？那为什么不去学校搞算法，那个图灵什么的不更有意义
: ？搞得这些东西都像八股似的。。。。一个intern本来就是学习长经验的机会，搞得
: 跟过去就能解决最棘手的问题似的。

v*e2011-08-31 07:08

51 楼

re

【在 m*****g 的大作中提到】

: 饶一这次行动我得出两个结论:
: 1, 饶的精神有问题,建议他自己到精神病院就诊;
: 2, 以前都说饶狂妄,这回终于从其言行看出他已经到了走火入魔的地步.在一帮徒子弟
: 孙的吹捧下,他以为自己是"中国科学的太上皇"(肖传国10年前给饶的.

j*92011-08-31 07:08

52 楼

弱问一下，如果两个dup相距很远，每次拿两个子集在内存里也不能遇见的时候怎么办
呢？

【在 m****y 的大作中提到】

: 我来说个比较可行的思路吧
: 首先人家给了disk space就是让你放些中间结果的
: 我的想法是用hash来先把data record粗略归类到很小的子集，然后在每个子集里面找
: 重复就可以了。
: 1. 对每个data record，我们生成一个形如的ID，假设用md5作
: 为hash函数，再假设record number占用4个字节，那么每个ID的大小是16+4=20字节。
: 2. 生成ID的时候，把它归类到一个较小的子集，写到磁盘上去。对于2^30个record，
: 我们根据(hash mod 2^13)的结果，把它分成2^13个子集，每个子集存成一个文件，每
: 个文件包含大约2^17个record的ID，这样子集文件的平均大小大概是2^17*20=2MB左右
: ，总共需要大约2^30*20=4GB的磁盘空间。

s*e2011-08-31 07:08

53 楼

说句难听的，那个年代的，就是现在大概50多岁中国教授的水准不敢恭维。
先说学术，当年他们出国的时候，学术界的竞争比现在应该说要小，毕竟整个生物界的
人数没有现在这样的庞大。他们中的很多人，今天不一定还可以拿到现在的位置。
再说道德水准，我当年的第一个中国老板就在组会上公开讨论：why am I so
successful? 谁谁谁都混得不好，为啥就我混得好？那种狂妄，记忆犹新。对手下人的
变态，对中国学生的歧视，就不用说了，算是中国教授的普遍问题。

m*g2011-08-31 07:08

54 楼

这个题应该是很open的题
真的能完美解决大家就直接开店去吧
我的看法，前面的大家说的hash，用4 byte左右的空间放hash value，然后4byte放行
号。
生成的中间文件大小8GB。
把这个8GB分成32个256MB的文件，然后两两合并。碰到一样的hash value，就按照行号
检查是否dup，是的话去掉。其实这最后一步就是external sort了。
专业的做法确实是bloom filter。但是那个参数不好配。

p*r2011-08-31 07:08

55 楼

我同意。
其实他们自己做出多少成就都不是最主要的了。关键是他们引进的人能不能成功，能不
能真的出现一批不错的科学家。这些人能不能再去下面的学校，把下面学校也带动起来。
美国其实就是这样，最后那些所谓二流大学的教授水平也变得很高。
我们至少是看到蒲当年培养的人，不少都去别的大学当院长了。我觉得这是可喜的现象
。如果最后都变成了近亲繁殖，我觉得那就意义不大了。

【在 o**d 的大作中提到】

: 本来对RY，SYG和WXD等人回国做事还是比较钦佩的，毕竟在美国都已经做的很好的，回
: 国能够带动一个学科较快的发展，还是有积极意义的。但是RY最近院士落选后一系列的
: 动作，让人感觉不舒服。既然他在受专访的时候提到文化的原因，就让我以小人之心来
: 揣摩一下他这些行为后面的文化层次的原因。
: 一句话：他们都想当拿着尚方宝剑的钦差大臣。
: 无论说的多么天花乱坠，在我看来回国的这些大牛们都有或多或少的政治野心，因为如
: 果单纯做科研，美国的条件还是比国内的要好的多（在美国拿不到钱，生存不下去的除
: 外）。自古学而优则仕，而且最成功的就是“为帝王师”，求其次为太子师也不错，比
: 当丞相还要好（因为不可能教育文人都想自己当皇帝，当然当皇帝的也都不是读书人。
: ）这样，“为帝王师”就可以保证自己的政治主张得以实现。

p*r2011-08-31 07:08

56 楼

Both have values I think.

making

【在 k****z 的大作中提到】

: 当然，用钱拼一些有质量的文章还是比花了大把的钱，拿中国人做了实验，告诉所有人
: 中国人有那些那些疾病的易感基因的强。
: do not agree, I think just opposite, using modern tech to study problem
: specific to China (Chinese) is way better than wasting money on story making
: (so called good paper), and it is not use Chinese for experiment, it is
: study of Chinese population

o*e2011-08-31 07:08

57 楼

agree

【在 t*********g 的大作中提到】

: 这个世上，没什么无私的人。
: 饶的行为总是为自己核心利益服务的。只是围观的不知道内幕而已。不过从其他方面可
: 以看出来。
: 比如呼吁什么给海外回来的年轻人职称过高。还人民日报发表。这里面没有政府行为，
: 哪容易登。为什么会这样呼吁呢？真为科研环境健康？其实我看不然，就是他和一批
: 人站在招聘人的利益考虑而已，发现要招高水平的年轻人成本太高，违背学校利益。所
: 以一起忽悠。如果真希望改变环境，首先要呼吁改革国内教授职称水平标准，这个是正
: 道。另外得改经费申请带头人资格都应该平等对待和职称脱钩。等这些搞定，再呼吁。
: 没这些基础，高水平的年轻人凭什么一定从讲师做起？没法和那些水平一般但职称很高
: 的竞争的。回去基本上是销声匿迹的为多。不是他们没才华。

p*i2011-08-31 07:08

58 楼

RE

【在 g*****p 的大作中提到】

: 是的，邓稼先之流冒着强辐射进场搜寻，最后得癌症去世也是有预谋的
: 因为当年没有给他评学部委员没有给他几亿科研经费没有副部级待遇
: 不仅不准他像二流科学家那样在科学杂志上骂娘利用“制台见洋人”的传统打倒其他学
: 霸上位给自己捞钱评院士当
: 校长，还不准他写博客
: 所以他只有以死明志
: 最后终于换得死后封妻荫子黄袍加身
: 所谓老奸巨滑不修今生修来世