citi AA amex 卡的facebook sync页面怎么有问题？包子求解！ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Money - 海外理财

citi AA amex 卡的facebook sync页面怎么有问题？包子求解！

citi AA amex 卡的facebook sync页面怎么有问题？包子求解！# Money - 海外理财

b*u2014-10-18 07:10

1 楼

最近面的一家web公司，最后一轮CTO老头。
问了一个经典题，从一个很大的日志文件中找出出现次数最多的ip。
我当时给的是“秒杀99%海量数据”帖里的标准解法，hash+merge
老头嘿嘿一笑，然后问我，你估计你把这一坨东西coding出来，要花多久？一小时？一
天？一个月？
我当然知道不妙，但是也只能顺着他说那就一天吧。
他说，现在让你用一行代码解决这个问题，怎么搞。
跪了。
后来他写了他的办法: 不用hash，直接把日志等分成几个小文件，然后用awk/sed对每
个文件进行类似于SQL里groupby的操作，最后加总取最大值，总共一行bash命令搞定 (
具体的命令我也忘了)。严格来说并不便于scale,但是便于coding, batch和customize
学术讨论和生产实践的差别。

o*h2014-10-18 07:10

2 楼

我一直用citi AA American express 卡 sync 到facebook 添加amex offer.
最近这个页面显示 0 offer! 怎么办呢？有人也是这种情况吗？如何联系他们解决
？

L*t2014-10-18 07:10

3 楼

这个和那个找电话号码的考grep命令的类似。

(

【在 b*****u 的大作中提到】

: 最近面的一家web公司，最后一轮CTO老头。
: 问了一个经典题，从一个很大的日志文件中找出出现次数最多的ip。
: 我当时给的是“秒杀99%海量数据”帖里的标准解法，hash+merge
: 老头嘿嘿一笑，然后问我，你估计你把这一坨东西coding出来，要花多久？一小时？一
: 天？一个月？
: 我当然知道不妙，但是也只能顺着他说那就一天吧。
: 他说，现在让你用一行代码解决这个问题，怎么搞。
: 跪了。
: 后来他写了他的办法: 不用hash，直接把日志等分成几个小文件，然后用awk/sed对每
: 个文件进行类似于SQL里groupby的操作，最后加总取最大值，总共一行bash命令搞定 (

f*e2014-10-18 07:10

4 楼

最近serve和非AMEX自己的卡在fb上都是这样，不知道为啥。我的解决方法是，换
tweeter. 反正tweeter能加上

n*m2014-10-18 07:10

5 楼

赞另类解法不过只适用于小文件吧
对大文件来说命令虽短执行时间不短
如果真是超大文件海量ip 还是map reduce coding方便吧
code就是一个简单的word count翻版熟悉的话几分钟搞定
当然前提是得有那么多机器和现成的环境可用

(

【在 b*****u 的大作中提到】

o*h2014-10-18 07:10

6 楼

用不用先把facebook disconnect掉？加twitter之前

【在 f********e 的大作中提到】

: 最近serve和非AMEX自己的卡在fb上都是这样，不知道为啥。我的解决方法是，换
: tweeter. 反正tweeter能加上

A*u2014-10-18 07:10

7 楼

sort | uniq -c | sort -r | head -1

(

【在 b*****u 的大作中提到】

f*e2014-10-18 07:10

8 楼

不用，可以直接sync

【在 o******h 的大作中提到】

: 用不用先把facebook disconnect掉？加twitter之前

j*x2014-10-18 07:10

9 楼

话说能用awk / sed能处理的不算“很大”吧
另外所谓“秒杀99%海量数据”的标准解法不过是某网友的一家之言吧
另外能透露一下该公司的背景么？

(

【在 b*****u 的大作中提到】

o*h2014-10-18 07:10

10 楼

谢了。offer全在favorites里面吗？
我那儿只有12个，而且没看见staples的。。

【在 f********e 的大作中提到】

: 不用，可以直接sync

f*t2014-10-18 07:10

11 楼

大概是这样吧
sed "s/^.*ip=//g" | awk -F' ' 'print {$1}' | sort -r | uniq -c | sort -n -r
-k 1

f*e2014-10-18 07:10

12 楼

staples offer有人数限制，早就max了，下次赶早

【在 o******h 的大作中提到】

: 谢了。offer全在favorites里面吗？
: 我那儿只有12个，而且没看见staples的。。

S*o2014-10-18 07:10

13 楼

临时的解决问题或数据需求和正规的解决问题不应是一个方法，要是自己顺便统计用的
，也没有人正规的搞那么复杂。
btw:
awk没有必要吧，第一个sort不必-r吧

r

【在 f*******t 的大作中提到】

: 大概是这样吧
: sed "s/^.*ip=//g" | awk -F' ' 'print {$1}' | sort -r | uniq -c | sort -n -r
: -k 1

y*g2014-10-18 07:10

14 楼

真很大的话hash merge也不行啊
可能的确要map reduce了

【在 n**m 的大作中提到】

: 赞另类解法不过只适用于小文件吧
: 对大文件来说命令虽短执行时间不短
: 如果真是超大文件海量ip 还是map reduce coding方便吧
: code就是一个简单的word count翻版熟悉的话几分钟搞定
: 当然前提是得有那么多机器和现成的环境可用
:
: (

f*t2014-10-18 07:10

15 楼

sed是删除ip前的内容，awk是删除IP后面的内容
第一个sort确实不需要-r。命令是随便写的，有没有用还要经过实践验证

【在 S********o 的大作中提到】

: 临时的解决问题或数据需求和正规的解决问题不应是一个方法，要是自己顺便统计用的
: ，也没有人正规的搞那么复杂。
: btw:
: awk没有必要吧，第一个sort不必-r吧
:
: r

x*n2014-10-18 07:10

16 楼

我发现这个很经典啊。
我以前作业好像就是awk出来的。

c*t2014-10-18 07:10

17 楼

hash到multiple machine , find each top 10, then merge result. 不就是map
reduce吗？

【在 y*******g 的大作中提到】

: 真很大的话hash merge也不行啊
: 可能的确要map reduce了

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

2024-01-06 18:01

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-11-05 的新闻