Redian新闻
>
人类已经不能阻止报纸上的广告了
avatar
人类已经不能阻止报纸上的广告了# Joke - 肚皮舞运动
d*w
1
1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒1/10
到橙汁,问橙汁中的咖啡跟咖啡中的橙汁数量关系
5. 判断有向图中是否有环
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xyz:aas}]
如何把相似的用户聚合,聚类算法?
avatar
a*y
2
case不是很强,1B,实在想早点拿到绿卡,另外一个工作在等着,属于从Engineer跳到
business manager的职位,没绿卡换不了H1B
但是RFE的几率又高,实在是纠结,论统计,不pp大概要多长时间对NSC来说
case:
引用包括中文的50多,英文30多
11片一作,5封推荐信都是chair或者AE的,review大概20个分部在五六个journal里,
program committee3个。
avatar
r*e
3
人类已经不能阻止报纸上的广告了 .jpg
avatar
y*t
4
多谢,
第4题是考什么? 是不是相等? 都是0.9?
avatar
C*y
5
别纠结了,多难受呀,直接上吧

【在 a*******y 的大作中提到】
: case不是很强,1B,实在想早点拿到绿卡,另外一个工作在等着,属于从Engineer跳到
: business manager的职位,没绿卡换不了H1B
: 但是RFE的几率又高,实在是纠结,论统计,不pp大概要多长时间对NSC来说
: case:
: 引用包括中文的50多,英文30多
: 11片一作,5封推荐信都是chair或者AE的,review大概20个分部在五六个journal里,
: program committee3个。

avatar
a*e
6
全球首F 啊,牛!
avatar
d*w
7
是相等,但肯定不是0.9了

【在 y***t 的大作中提到】
: 多谢,
: 第4题是考什么? 是不是相等? 都是0.9?

avatar
a*n
8
seems good for 1B
avatar
P*l
9
...
avatar
z*n
10
第三题没看懂,基站之间不能通信,如何计算平均值?要各个基站算了之后,返回给卫
星中转,再返回地面基站么?卫星也可以有计算能力么
avatar
b*r
11
这背景1A都够了,1B PP也没什么可犹豫的啊
avatar
m*i
12
浪费啊。
avatar
t*e
13

10/11

【在 y***t 的大作中提到】
: 多谢,
: 第4题是考什么? 是不是相等? 都是0.9?

avatar
a*y
14
attorney said my case is borderline case, she does not recommend pp.
avatar
d*e
15
GS5,狗屎?
avatar
d*w
16
卫星和基站都是有计算能力的,可以想象成卫星是内存,基站是磁盘,就是希望最少的
io次数做一些海量数据的统计。
比如算平均值,可以每个基站算个sum跟个数,传给卫星,就知道总共的平均值了

【在 z*****n 的大作中提到】
: 第三题没看懂,基站之间不能通信,如何计算平均值?要各个基站算了之后,返回给卫
: 星中转,再返回地面基站么?卫星也可以有计算能力么

avatar
k*6
17
不要害怕,上pp吧,真要是RFE,怎么着都会。还不如早些知道结果。
我的也是律师不推荐pp,我自己坚持,最后有惊无险
祝福你

【在 a*******y 的大作中提到】
: attorney said my case is borderline case, she does not recommend pp.
avatar
q*x
18
面霸呀。

,估
,
10

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒1/10
: 到橙汁,问橙汁中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
h*y
19
直接PP,同时在准备两封推荐信,早死(RFE)早脱生。
avatar
g*y
20
dongfei你是职业面试家还是怎么回事? :-)
我怎么看你各种公司,各种稀奇古怪的问题都被问到了。

,估
,
10

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒1/10
: 到橙汁,问橙汁中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
a*y
21
ai, I do not want to die ya
avatar
d*y
22
第四题是1/11
avatar
L*t
23
你什么时候递的啊?
avatar
d*y
24

,估
,
10
1 coffee in orange vs 0.9 orange in coffee

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒1/10
: 到橙汁,问橙汁中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
a*y
25
not yet but in a close state to submit
avatar
d*w
26
其实不用具体算的,可以利用对称性,比如假设有x的橙汁在咖啡中,那么剩下的橙汁
必然是10-x,而总得体积是不变的10,所以在橙汁中的咖啡也一定是x

【在 d******y 的大作中提到】
: 第四题是1/11
avatar
d*w
28
这话说得。
我很累的,好不好,光三藩机场就跑了四趟
面试是在透支我的体力的

【在 g**********y 的大作中提到】
: dongfei你是职业面试家还是怎么回事? :-)
: 我怎么看你各种公司,各种稀奇古怪的问题都被问到了。
:
: ,估
: ,
: 10

avatar
s*n
29
你的背景很强了(对EB1B),PP吧。 Bless
avatar
d*y
30
从体积为11的杯子(10+1)里倒1/10的东西回到9那里,
总和不是10了,是 10.1(9+11/10),
所以相等是不对的。

【在 d********w 的大作中提到】
: 其实不用具体算的,可以利用对称性,比如假设有x的橙汁在咖啡中,那么剩下的橙汁
: 必然是10-x,而总得体积是不变的10,所以在橙汁中的咖啡也一定是x

avatar
l*r
31
Hi, antihoney:
I did have the same experience and worry as you. My case was not very strong
, 21 paper, 18 reviews, 139 citations.
My lawyer recommended me not to PP.
For some reasons, I insisted PP. I submitted my EB1B on 7/5/2011.
I did PP on 8/19/2011. My case was approved on 8/26/2011, only five days.
Therefore, PP will be good choice if you want to know the results earlier.
Esp. for your strong case than me, I will PP.
Good luck for your green card application.
All the best,
Peter
avatar
d*w
32
呵呵,我表达错了,应该是最后两个杯子还是一样的体积

【在 d*****y 的大作中提到】
: 从体积为11的杯子(10+1)里倒1/10的东西回到9那里,
: 总和不是10了,是 10.1(9+11/10),
: 所以相等是不对的。

avatar
a*y
33
我自己也觉得citation少啊
avatar
H*1
34
0.090909
1/11

【在 d********w 的大作中提到】
: 是相等,但肯定不是0.9了
avatar
s*n
36
第4题1:1啊,假设密度一样
最后杯1:Orange=100/11 coffee=10/11,杯2:Orange=10/11 coffee=100/11
avatar
j*x
37
面霸!
avatar
f*2
38
多谢分享
avatar
d*w
39
1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
中的咖啡跟咖啡中的橙汁数量关系
5. 判断有向图中是否有环
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xyz:aas}]
如何把相似的用户聚合,聚类算法?
avatar
y*t
40
多谢,
第4题是考什么? 是不是相等? 都是0.9?
avatar
d*w
41
是相等,但肯定不是0.9了

【在 y***t 的大作中提到】
: 多谢,
: 第4题是考什么? 是不是相等? 都是0.9?

avatar
z*n
42
第三题没看懂,基站之间不能通信,如何计算平均值?要各个基站算了之后,返回给卫
星中转,再返回地面基站么?卫星也可以有计算能力么
avatar
t*e
43

10/11

【在 y***t 的大作中提到】
: 多谢,
: 第4题是考什么? 是不是相等? 都是0.9?

avatar
d*w
44
卫星和基站都是有计算能力的,可以想象成卫星是内存,基站是磁盘,就是希望最少的
io次数做一些海量数据的统计。
比如算平均值,可以每个基站算个sum跟个数,传给卫星,就知道总共的平均值了

【在 z*****n 的大作中提到】
: 第三题没看懂,基站之间不能通信,如何计算平均值?要各个基站算了之后,返回给卫
: 星中转,再返回地面基站么?卫星也可以有计算能力么

avatar
q*x
45
面霸呀。

,估
,
10

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
g*y
46
dongfei你是职业面试家还是怎么回事? :-)
我怎么看你各种公司,各种稀奇古怪的问题都被问到了。

,估
,
10

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
d*y
47
第四题是1/11
avatar
d*y
48

,估
,
10
1 coffee in orange vs 0.9 orange in coffee

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
d*w
49
其实不用具体算的,可以利用对称性,比如假设有x的橙汁在咖啡中,那么剩下的橙汁
必然是10-x,而总得体积是不变的10,所以在橙汁中的咖啡也一定是x

【在 d******y 的大作中提到】
: 第四题是1/11
avatar
d*w
50
这话说得。
我很累的,好不好,光三藩机场就跑了四趟
面试是在透支我的体力的

【在 g**********y 的大作中提到】
: dongfei你是职业面试家还是怎么回事? :-)
: 我怎么看你各种公司,各种稀奇古怪的问题都被问到了。
:
: ,估
: ,
: 10

avatar
d*y
51
从体积为11的杯子(10+1)里倒1/10的东西回到9那里,
总和不是10了,是 10.1(9+11/10),
所以相等是不对的。

【在 d********w 的大作中提到】
: 其实不用具体算的,可以利用对称性,比如假设有x的橙汁在咖啡中,那么剩下的橙汁
: 必然是10-x,而总得体积是不变的10,所以在橙汁中的咖啡也一定是x

avatar
d*w
52
呵呵,我表达错了,应该是最后两个杯子还是一样的体积

【在 d*****y 的大作中提到】
: 从体积为11的杯子(10+1)里倒1/10的东西回到9那里,
: 总和不是10了,是 10.1(9+11/10),
: 所以相等是不对的。

avatar
H*1
53
0.090909
1/11

【在 d********w 的大作中提到】
: 是相等,但肯定不是0.9了
avatar
s*n
55
第4题1:1啊,假设密度一样
最后杯1:Orange=100/11 coffee=10/11,杯2:Orange=10/11 coffee=100/11
avatar
j*x
56
面霸!
avatar
f*2
57
多谢分享
avatar
g*e
58
1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
--典型的大数据内存放不下排序,merge sort/external sort。可以探讨下cache的
优化,减少read fault
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
--对纪录先排序,用stack合并有重叠的,然后hash。因为ip addr其实就是个32bit
int,所以一般的机器内存也够了。
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
--卫星理解成mem,基站为harddrive,分块load data。归结到多个sort array找
median,经典写起来麻烦题~
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙
汁,最后它们体积仍然是10,问橙汁中的咖啡跟咖啡中的橙汁数量关系
--大家已经讨论了
5. 判断有向图中是否有环
--看书就可以了
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xyz:aas}]
--这个是machine learning啊,不断调各个vector的权重。具体计算可以是edit
distance。我想非ML方向的扯不了太深的。。。
大家再讨论讨论?

,估
,
橙汁,最后它们体积仍然是10,问橙汁

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
l*a
59

,估
需要用到parallel quick sorthttp://www.uio.no/studier/emner/matnat/ifi/INF3380/v10/undervisningsmateriale/inf3380-week12.pdf
一百台机子,10T * 100 = 1PB.
第一步,本地排序。用external sort。
第二步,partition/merge between machines。一共需要传log100次。
所有步骤都是disk io bound。

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
g*e
60
dongfeiwww你好,
想请教一道具体的题目,是否方便。第一题。这样的题目以你的经历,需要写成map
reduce pseudo code,还是典型的merge sort/external sort即可?多谢

,估
,
橙汁,最后它们体积仍然是10,问橙汁

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
g*e
61
1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
算时间
--典型的大数据内存放不下排序,merge sort/external sort。可以探讨下cache的
优化,减少read fault
2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
--对纪录先排序,用stack合并有重叠的,然后hash。因为ip addr其实就是个32bit
int,所以一般的机器内存也够了。
3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
基站一样
--卫星理解成mem,基站为harddrive,分块load data。归结到多个sort array找
median,经典写起来麻烦题~
4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙
汁,最后它们体积仍然是10,问橙汁中的咖啡跟咖啡中的橙汁数量关系
--大家已经讨论了
5. 判断有向图中是否有环
--看书就可以了
6. 如何抽取feature,如何判断2个用户的相似度,维度大(几千)而稀疏(很多缺失
),比如a用户
[{age:30}, {salary: 100}, {score: 0.21}, {xxx:aas}, ....]
b用户
[{age:30}, {gender: 1}, {score: 0.21}, {xyz:aas}]
--这个是machine learning啊,不断调各个vector的权重。具体计算可以是edit
distance。我想非ML方向的扯不了太深的。。。
大家再讨论讨论?

,估
,
橙汁,最后它们体积仍然是10,问橙汁

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
l*a
62

,估
需要用到parallel quick sorthttp://www.uio.no/studier/emner/matnat/ifi/INF3380/v10/undervisningsmateriale/inf3380-week12.pdf
一百台机子,10T * 100 = 1PB.
第一步,本地排序。用external sort。
第二步,partition/merge between machines。一共需要传log100次。
所有步骤都是disk io bound。

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
g*e
63
dongfeiwww你好,
想请教一道具体的题目,是否方便。第一题。这样的题目以你的经历,需要写成map
reduce pseudo code,还是典型的merge sort/external sort即可?多谢

,估
,
橙汁,最后它们体积仍然是10,问橙汁

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
c*m
64
你这第六题的回答还真挺非ML方向的。。。

,估
,
32bit

【在 g*****e 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: --典型的大数据内存放不下排序,merge sort/external sort。可以探讨下cache的
: 优化,减少read fault
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: --对纪录先排序,用stack合并有重叠的,然后hash。因为ip addr其实就是个32bit
: int,所以一般的机器内存也够了。
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟

avatar
b*s
65
相由心生,别人一看就不好意思问简单的 :)

【在 g**********y 的大作中提到】
: dongfei你是职业面试家还是怎么回事? :-)
: 我怎么看你各种公司,各种稀奇古怪的问题都被问到了。
:
: ,估
: ,
: 10

avatar
m*a
66
lz有答案吗?

,估
,
橙汁,最后它们体积仍然是10,问橙汁

【在 d********w 的大作中提到】
: 1. 1PB 数据排序,数值范围2^64, 每台机器16G内存,10T数据,普通硬盘,写算法,估
: 算时间
: 2. ip表定位,有个1G个record的ip文件,里面记录(start_ip, end_ip, longitude,
: latitude, country), 给出一个ip,要求迅速查询到地理位置,给的内存有限
: 3. 有几个卫星,可以通信到地面的任意基站,每个基站上都有大量数据,基站之间不
: 能通信,求所有的数据的average, 中位数,要求最少的communication,卫星的容量跟
: 基站一样
: 4. 有杯橙汁和咖啡,体积都是10,把1/10的橙汁倒入到咖啡,在把搅匀的咖啡倒到橙汁,最后它们体积仍然是10,问橙汁
: 中的咖啡跟咖啡中的橙汁数量关系
: 5. 判断有向图中是否有环

avatar
j*g
67
楼主面的啥职位,是和big data有关的吗?
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。