s*m
2 楼
我来加州工作快2年了。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼?怎么以前没有?
懂的人点化我一下。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼?怎么以前没有?
懂的人点化我一下。
d*y
3 楼
【 以下文字转载自 Military 讨论区 】
发信人: dragoncity (dragoncity), 信区: Military
标 题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s
发信人: dragoncity (dragoncity), 信区: Military
标 题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s
d*t
4 楼
以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
处理完两分钟不到。
read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
处理完两分钟不到。
M*t
5 楼
另外申的看到需要填PR的地方,很奇怪,是不是因为填不是学生呢
M*s
6 楼
有没有 google 一下
f*e
7 楼
寂寞如雪
i*t
10 楼
星哥 你这么帅锅 居然找不到老婆!!! 情何以堪啊
M*t
12 楼
没有地方让我选PR啊
w*g
14 楼
如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本,用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。
【在 d********t 的大作中提到】
: 这个咋整
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本,用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。
【在 d********t 的大作中提到】
: 这个咋整
d*t
17 楼
谢了,不过现在公司还是Windows,这些在Cygwin下估计不能work吧:(
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
g*g
19 楼
mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
行吧。可以写复杂点的 filtering.
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
行吧。可以写复杂点的 filtering.
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
M*t
22 楼
好吧,收到据信了
我rp不好,申啥据啥
想搞个2%的cc,没有一家给我发
我rp不好,申啥据啥
想搞个2%的cc,没有一家给我发
m*n
26 楼
不是,我等了一个月拿到了。
w*z
38 楼
重点是parallelstream
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.
count(
【在 g*****g 的大作中提到】
: 我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
: regex不好写,或者上下行相关等等,这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.
count(
【在 g*****g 的大作中提到】
: 我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
: regex不好写,或者上下行相关等等,这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l
d*i
39 楼
多谢指出问题,正如大神Linus最近指出的,忘掉操蛋的并行计算吧,并行计算不是
silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
现就是fork-join pool,就是把他变成了看起来的语法糖而已。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
现就是fork-join pool,就是把他变成了看起来的语法糖而已。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
g*g
43 楼
这当然是语法糖啦,只不过原来如果是blocking IO,这个做法没啥区别。比如上次我
跑个data migration,先从DB dump了几百万个记录,然后挨个做remote API call. 慢
在remote call上,只要单独起个pool,跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的,估计得跑好几周。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
跑个data migration,先从DB dump了几百万个记录,然后挨个做remote API call. 慢
在remote call上,只要单独起个pool,跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的,估计得跑好几周。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
g*g
45 楼
http://stackoverflow.com/questions/21163108/custom-thread-pool-
你可以看看这个thread。如果不是一次性的,用common pool是不可行的,但是用个
custom pool我觉得是一样的。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
你可以看看这个thread。如果不是一次性的,用common pool是不可行的,但是用个
custom pool我觉得是一样的。
【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(
q*w
47 楼
请问如果一个打文件要sorting, 用parallel怎么写?
j*x
52 楼
怎么总是有人提这种cat xxx | grep/awk/sed ...
直接grep awk sed ...
莫名其妙。。。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
直接grep awk sed ...
莫名其妙。。。
【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
相关阅读
C++ primer上的advanced topic实用性强吗?MATLAB再求助,判断几个变量关系,并返回一个具体值,详见帖子问一个简单的:setter 和getter有什么用处?版上的人来说说,matlab和C#的区别Application Security Engineer职业前景board版支持新开《家用电器》版申请 (转载)Literate programming《Pro iOS Table Views》英文文字版/EPUB[PDF]面向对象设计的SOLID原则新手问一个多维数组传递给函数的问题弱问,上哪儿去找服务器?Amex SPG卡送25K points 免费送500刀现金 最佳酒店卡【失败感言】我是做PHP的 (转载)IntelJ 打半折 Today ONLYjava就是andriod慢的原因,为什么总有人要争呢? (转载)请问有谁知道Android技术开发讨论的群么HTML5 Hacks我觉得c++挺好的C语言跟Java运行速度比较 (转载)弱问一下ipad和ipad mini的app有啥不同嘛? (转载)