还是awk牛B - 未名空间MITBBS历史存档

还是awk牛B# Programming - 葵花宝典

M*t2015-01-12 08:01

1 楼

好像很多家网申都马上有结果，但这个还在等
大家都是马上知道decision的吗

s*m2015-01-12 08:01

2 楼

我来加州工作快2年了。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼？怎么以前没有？
懂的人点化我一下。

d*y2015-01-12 08:01

3 楼

【以下文字转载自 Military 讨论区】
发信人: dragoncity (dragoncity), 信区: Military
标题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s

d*t2015-01-12 08:01

4 楼

以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
处理完两分钟不到。

M*t2015-01-12 08:01

5 楼

另外申的看到需要填PR的地方，很奇怪，是不是因为填不是学生呢

M*s2015-01-12 08:01

6 楼

有没有 google 一下

f*e2015-01-12 08:01

7 楼

寂寞如雪

w*g2015-01-12 08:01

8 楼

再加上gnu parallel把multi-core用足了，还能更快。

awk

【在 d********t 的大作中提到】

: 以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
: read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
: 处理完两分钟不到。

z*b2015-01-12 08:01

9 楼

没有选PR的话估计是被拒了

【在 M*****t 的大作中提到】

: 另外申的看到需要填PR的地方，很奇怪，是不是因为填不是学生呢

i*t2015-01-12 08:01

10 楼

星哥你这么帅锅居然找不到老婆！！！情何以堪啊

d*t2015-01-12 08:01

11 楼

这个咋整

【在 w***g 的大作中提到】

: 再加上gnu parallel把multi-core用足了，还能更快。
:
: awk

M*t2015-01-12 08:01

12 楼

没有地方让我选PR啊

w*82015-01-12 08:01

13 楼

年少轻狂，都错过了。。。
白晶晶结婚了，紫霞仙子都有宝宝了，只有至尊宝还是独自一人。。。唏嘘啊。。。

【在 i******t 的大作中提到】

: 星哥你这么帅锅居然找不到老婆！！！情何以堪啊

w*g2015-01-12 08:01

14 楼

如果你没有parallel命令，或者命令比较老的话，先用下面的更新。
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小，默认是1M。然后启动N个wc一
块跑。和hadoop一样，parallel只会在行与行之间切分，所以是awk-friendly的。
parallel --pipe这步相当于map，如果有需要后面再reduce一下。
如果不加--pipe，输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里，那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本，用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。

【在 d********t 的大作中提到】

: 这个咋整

J*n2015-01-12 08:01

15 楼

occupation没有选student吧？选了也会被拒

【在 M*****t 的大作中提到】

: 没有地方让我选PR啊

r*y2015-01-12 08:01

16 楼

在生活里修行成佛。

【在 w*********8 的大作中提到】

: 年少轻狂，都错过了。。。
: 白晶晶结婚了，紫霞仙子都有宝宝了，只有至尊宝还是独自一人。。。唏嘘啊。。。

d*t2015-01-12 08:01

17 楼

谢了，不过现在公司还是Windows，这些在Cygwin下估计不能work吧:(

【在 w***g 的大作中提到】

: 如果你没有parallel命令，或者命令比较老的话，先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小，默认是1M。然后启动N个wc一
: 块跑。和hadoop一样，parallel只会在行与行之间切分，所以是awk-friendly的。

M*t2015-01-12 08:01

18 楼

没有
我就选了工作的，然后没有地方选pr。接下来就杯具了

【在 J*******n 的大作中提到】

: occupation没有选student吧？选了也会被拒

g*g2015-01-12 08:01

19 楼

mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
行吧。可以写复杂点的 filtering.

【在 w***g 的大作中提到】

: 如果你没有parallel命令，或者命令比较老的话，先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小，默认是1M。然后启动N个wc一
: 块跑。和hadoop一样，parallel只会在行与行之间切分，所以是awk-friendly的。

d*t2015-01-12 08:01

20 楼

我选了student，一个礼拜就拿到卡了...

【在 J*******n 的大作中提到】

: occupation没有选student吧？选了也会被拒

S*e2015-01-12 08:01

21 楼

我也觉得他那方法毕竟还是单机的 -- parallel 也不能在IO上快太多。

10

【在 g*****g 的大作中提到】

: mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
: 行吧。可以写复杂点的 filtering.

M*t2015-01-12 08:01

22 楼

好吧，收到据信了
我rp不好，申啥据啥
想搞个2%的cc，没有一家给我发

w*g2015-01-12 08:01

23 楼

麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
Spark火就是证明了其实大部分情况下撑死也就若干T。

10

【在 g*****g 的大作中提到】

: mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
: 行吧。可以写复杂点的 filtering.

J*n2015-01-12 08:01

24 楼

牛，啥话都不能说死啊

【在 d**********t 的大作中提到】

: 我选了student，一个礼拜就拿到卡了...

i*i2015-01-12 08:01

25 楼

read.table 需要把整个文件读到内存，用 data.frame存储。如果这里面有字符串，
还要转换成factor. 很费劲的。
在R里，你需要直接用file, 每次读一部分。
你能用excel打开，应该不超过65535 行。用R处理不在话下。

awk

【在 d********t 的大作中提到】

: 以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
: read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
: 处理完两分钟不到。

m*n2015-01-12 08:01

26 楼

不是，我等了一个月拿到了。

D*a2015-01-12 08:01

27 楼

印象中excel至少能处理1048576行

【在 i**i 的大作中提到】

: read.table 需要把整个文件读到内存，用 data.frame存储。如果这里面有字符串，
: 还要转换成factor. 很费劲的。
: 在R里，你需要直接用file, 每次读一部分。
: 你能用excel打开，应该不超过65535 行。用R处理不在话下。
:
: awk

i*i2015-01-12 08:01

28 楼

2010是65535.
2013是1,048,576 rows by 16,384 columns

【在 D*******a 的大作中提到】

: 印象中excel至少能处理1048576行

g*g2015-01-12 08:01

29 楼

这你也看干什么，如果要想实时结果数据量小也不见得错

【在 w***g 的大作中提到】

: 麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
: 处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
: Spark火就是证明了其实大部分情况下撑死也就若干T。
:
: 10

g*g2015-01-12 08:01

30 楼

我说的 Java 8 streaming api 你就不知道呀，同样可以并发而且灵活度高。

【在 w***g 的大作中提到】

: 麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
: 处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
: Spark火就是证明了其实大部分情况下撑死也就若干T。
:
: 10

d*t2015-01-12 08:01

31 楼

扯淡吧，一共52万行。

【在 i**i 的大作中提到】

: read.table 需要把整个文件读到内存，用 data.frame存储。如果这里面有字符串，
: 还要转换成factor. 很费劲的。
: 在R里，你需要直接用file, 每次读一部分。
: 你能用excel打开，应该不超过65535 行。用R处理不在话下。
:
: awk

w*g2015-01-12 08:01

32 楼

我以为你是hadoop streaming。 java那个没见过，你写个wc -l对应的我们看看。

【在 g*****g 的大作中提到】

: 我说的 Java 8 streaming api 你就不知道呀，同样可以并发而且灵活度高。

i*i2015-01-12 08:01

33 楼

你才傻逼呢。
把你的问件给我，让爷给你示范一下。

【在 d********t 的大作中提到】

: 扯淡吧，一共52万行。

w*z2015-01-12 08:01

34 楼

Java streaming 主要针对collection.

【在 w***g 的大作中提到】

: 我以为你是hadoop streaming。 java那个没见过，你写个wc -l对应的我们看看。

g*g2015-01-12 08:01

35 楼

我也不熟，不过差不多长这样吧。并发读，快不快就要看配置了。如果你过滤复杂
regex不好写，或者上下行相关等等，这个就不错。
Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
);
对应
grep keyword myFile | wc -l

【在 w***g 的大作中提到】

: 我以为你是hadoop streaming。 java那个没见过，你写个wc -l对应的我们看看。

m*t2015-01-12 08:01

36 楼

几百兆的话，任意一个脚本语言Perl, python, Ruby都一点问题没有。玩得花的话可以
考虑Python Pandas

awk

【在 d********t 的大作中提到】

: 以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
: read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
: 处理完两分钟不到。

d*t2015-01-12 08:01

37 楼

是没问题，可是两百多column我只需要截取简单数据做简单计算，真心没必要写脚本。

【在 m******t 的大作中提到】

: 几百兆的话，任意一个脚本语言Perl, python, Ruby都一点问题没有。玩得花的话可以
: 考虑Python Pandas
:
: awk

w*z2015-01-12 08:01

38 楼

重点是parallelstream
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.

count(

【在 g*****g 的大作中提到】

: 我也不熟，不过差不多长这样吧。并发读，快不快就要看配置了。如果你过滤复杂
: regex不好写，或者上下行相关等等，这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l

d*i2015-01-12 08:01

39 楼

多谢指出问题，正如大神Linus最近指出的，忘掉操蛋的并行计算吧，并行计算不是
silver bullet，大部分时候我们并不需要并行也过得很好！java 8的stream底层的实
现就是fork-join pool，就是把他变成了看起来的语法糖而已。

【在 w**z 的大作中提到】

: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

w*z2015-01-12 08:01

40 楼

呵呵，觉得自己会multithread programming的大多不知道自己在干什么。
我是能不用尽量不用。只有benchmark 说performance 不行了，才会考虑。

【在 d****i 的大作中提到】

: 多谢指出问题，正如大神Linus最近指出的，忘掉操蛋的并行计算吧，并行计算不是
: silver bullet，大部分时候我们并不需要并行也过得很好！java 8的stream底层的实
: 现就是fork-join pool，就是把他变成了看起来的语法糖而已。

d*i2015-01-12 08:01

41 楼

如果需要的话，我宁可喜欢用较难的多线程的方式来写并行，也不喜欢像Java 8那样借
助于语法糖的一层包皮来实现所谓的并行。前者概念更清楚，容易让人知道自己在干什
么，虽然不易。后者则完全是为了语法糖而包了一层。

【在 w**z 的大作中提到】

: 呵呵，觉得自己会multithread programming的大多不知道自己在干什么。
: 我是能不用尽量不用。只有benchmark 说performance 不行了，才会考虑。

d*i2015-01-12 08:01

42 楼

对啊，有句名言叫做
Premature optimization is the root of all evil
你这个做法恰恰是对的

【在 w**z 的大作中提到】

: 呵呵，觉得自己会multithread programming的大多不知道自己在干什么。
: 我是能不用尽量不用。只有benchmark 说performance 不行了，才会考虑。

g*g2015-01-12 08:01

43 楼

这当然是语法糖啦，只不过原来如果是blocking IO，这个做法没啥区别。比如上次我
跑个data migration，先从DB dump了几百万个记录，然后挨个做remote API call. 慢
在remote call上，只要单独起个pool，跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的，估计得跑好几周。

【在 w**z 的大作中提到】

: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

r*g2015-01-12 08:01

44 楼

和perl比如何？

awk

【在 d********t 的大作中提到】

: 以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
: read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
: 处理完两分钟不到。

g*g2015-01-12 08:01

45 楼

http://stackoverflow.com/questions/21163108/custom-thread-pool-
你可以看看这个thread。如果不是一次性的，用common pool是不可行的，但是用个
custom pool我觉得是一样的。

【在 w**z 的大作中提到】

: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

d*t2015-01-12 08:01

46 楼

应该比Perl快。我以前常用Perl的，不过Perl也有大块数据吃不进的问题。

【在 r*g 的大作中提到】

: 和perl比如何？
:
: awk

q*w2015-01-12 08:01

47 楼

请问如果一个打文件要sorting，用parallel怎么写？

w*g2015-01-12 08:01

48 楼

不用parallel。Linux下新版本的sort自己就是多核的。

【在 q*****w 的大作中提到】

: 请问如果一个打文件要sorting，用parallel怎么写？

M*P2015-01-12 08:01

49 楼

这先用excel再用readtable一看就是外行啊。

awk
★ 发自iPhone App: ChineseWeb 7.8

【在 d********t 的大作中提到】

: 以前也没觉得有啥，今天dei处理一个几百兆的csv文件，excel要开半天。R更搞笑，
: read.table度不完，换data.table.fread，每次到15%就死机了，只能关电源重启。awk
: 处理完两分钟不到。

e*22015-01-12 08:01

50 楼

awk可以用于streaming。

【在 M*P 的大作中提到】

: 这先用excel再用readtable一看就是外行啊。
:
: awk
: ★ 发自iPhone App: ChineseWeb 7.8

d*t2015-01-12 08:01

51 楼

我根本不会excel，人家发的excel给我没办法看一眼。

【在 M*P 的大作中提到】

: 这先用excel再用readtable一看就是外行啊。
:
: awk
: ★ 发自iPhone App: ChineseWeb 7.8

j*x2015-01-12 08:01

52 楼

怎么总是有人提这种cat xxx | grep/awk/sed ...
直接grep awk sed ...
莫名其妙。。。

【在 w***g 的大作中提到】

: 如果你没有parallel命令，或者命令比较老的话，先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小，默认是1M。然后启动N个wc一
: 块跑。和hadoop一样，parallel只会在行与行之间切分，所以是awk-friendly的。