s*m
2 楼
我来加州工作快2年了。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼?怎么以前没有?
懂的人点化我一下。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼?怎么以前没有?
懂的人点化我一下。
d*y
3 楼
【 以下文字转载自 Military 讨论区 】
发信人: dragoncity (dragoncity), 信区: Military
标 题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s
发信人: dragoncity (dragoncity), 信区: Military
标 题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s
d*t
4 楼
以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
处理完两分钟不到。
read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
处理完两分钟不到。
M*t
5 楼
另外申的看到需要填PR的地方,很奇怪,是不是因为填不是学生呢
M*s
6 楼
有没有 google 一下
f*e
7 楼
寂寞如雪
i*t
10 楼
星哥 你这么帅锅 居然找不到老婆!!! 情何以堪啊
M*t
12 楼
没有地方让我选PR啊
w*g
14 楼
如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本,用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。
【在 d********t 的大作中提到】
: 这个咋整
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本,用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。
【在 d********t 的大作中提到】
: 这个咋整
d*t
17 楼
谢了,不过现在公司还是Windows,这些在Cygwin下估计不能work吧:(
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
g*g
19 楼
mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
行吧。可以写复杂点的 filtering.
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
行吧。可以写复杂点的 filtering.
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
M*t
22 楼
好吧,收到据信了
我rp不好,申啥据啥
想搞个2%的cc,没有一家给我发
我rp不好,申啥据啥
想搞个2%的cc,没有一家给我发
m*n
26 楼
不是,我等了一个月拿到了。
w*z
38 楼
重点是parallelstream
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.
count(
【在 g*****g 的大作中提到】
: 我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
: regex不好写,或者上下行相关等等,这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.
count(
【在 g*****g 的大作中提到】
: 我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
: regex不好写,或者上下行相关等等,这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l
d*i
39 楼
多谢指出问题,正如大神Linus最近指出的,忘掉操蛋的并行计算吧,并行计算不是
silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
现就是fork-join pool,就是把他变成了看起来的语法糖而已。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
现就是fork-join pool,就是把他变成了看起来的语法糖而已。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
g*g
43 楼
这当然是语法糖啦,只不过原来如果是blocking IO,这个做法没啥区别。比如上次我
跑个data migration,先从DB dump了几百万个记录,然后挨个做remote API call. 慢
在remote call上,只要单独起个pool,跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的,估计得跑好几周。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
跑个data migration,先从DB dump了几百万个记录,然后挨个做remote API call. 慢
在remote call上,只要单独起个pool,跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的,估计得跑好几周。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
g*g
45 楼
http://stackoverflow.com/questions/21163108/custom-thread-pool-
你可以看看这个thread。如果不是一次性的,用common pool是不可行的,但是用个
custom pool我觉得是一样的。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
你可以看看这个thread。如果不是一次性的,用common pool是不可行的,但是用个
custom pool我觉得是一样的。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
q*w
47 楼
请问如果一个打文件要sorting, 用parallel怎么写?
j*x
52 楼
怎么总是有人提这种cat xxx | grep/awk/sed ...
直接grep awk sed ...
莫名其妙。。。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
直接grep awk sed ...
莫名其妙。。。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
相关阅读
postgres 值得学吗?我软笑疯了,航天部门还在用VS啊is Haskell good?js就是oracle的儿子呀有谁能讲讲Cassandra secondary index的?spring mobile frameworkLLVM的founder05年才phd毕业啊月光让我想起了LA某垃圾女和垃圾男G家ads组www.company.com/report#main-report是啥语言写的?哪种脚本语言适合做代码的文本分析?这次python糗大了NodeJS厉害祝贺peking2升级成Staff & Tech Lead (转载)在flg的 你们每天开心么?压力大么? (转载)班上大牛能写个系列吗?请教: 正在做或做过很多 BIG DATA 实例的买买提上最博学的几个ID~ (转载)e-commerce网站,是用现成的cms还是自己写code好?哪位给我科普一下传说中的top1是啥?