citi AA amex 卡的facebook sync页面怎么有问题?包子求解!# Money - 海外理财
b*u
1 楼
最近面的一家web公司,最后一轮CTO老头。
问了一个经典题,从一个很大的日志文件中找出出现次数最多的ip。
我当时给的是“秒杀99%海量数据”帖里的标准解法,hash+merge
老头嘿嘿一笑,然后问我,你估计你把这一坨东西coding出来,要花多久?一小时?一
天?一个月?
我当然知道不妙,但是也只能顺着他说那就一天吧。
他说,现在让你用一行代码解决这个问题,怎么搞。
跪了。
后来他写了他的办法: 不用hash,直接把日志等分成几个小文件,然后用awk/sed对每
个文件进行类似于SQL里groupby的操作,最后加总取最大值,总共一行bash命令搞定 (
具体的命令我也忘了)。 严格来说并不便于scale,但是便于coding, batch和customize
学术讨论和生产实践的差别。
问了一个经典题,从一个很大的日志文件中找出出现次数最多的ip。
我当时给的是“秒杀99%海量数据”帖里的标准解法,hash+merge
老头嘿嘿一笑,然后问我,你估计你把这一坨东西coding出来,要花多久?一小时?一
天?一个月?
我当然知道不妙,但是也只能顺着他说那就一天吧。
他说,现在让你用一行代码解决这个问题,怎么搞。
跪了。
后来他写了他的办法: 不用hash,直接把日志等分成几个小文件,然后用awk/sed对每
个文件进行类似于SQL里groupby的操作,最后加总取最大值,总共一行bash命令搞定 (
具体的命令我也忘了)。 严格来说并不便于scale,但是便于coding, batch和customize
学术讨论和生产实践的差别。