avatar
M*t
1
好像很多家网申都马上有结果,但这个还在等
大家都是马上知道decision的吗
avatar
s*m
2
我来加州工作快2年了。
最近的一个paycheck上突然出现
medicare和social security employee tax 两项。什么鬼?怎么以前没有?
懂的人点化我一下。
avatar
d*y
3
【 以下文字转载自 Military 讨论区 】
发信人: dragoncity (dragoncity), 信区: Military
标 题: 周星驰专访
发信站: BBS 未名空间站 (Thu Feb 28 17:30:05 2013, 美东)
有点唏嘘啊。
https://www.youtube.com/watch?v=ncsQgiSpd8s
avatar
d*t
4
以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
处理完两分钟不到。
avatar
M*t
5
另外申的看到需要填PR的地方,很奇怪,是不是因为填不是学生呢
avatar
M*s
6
有没有 google 一下
avatar
f*e
7
寂寞如雪
avatar
w*g
8
再加上gnu parallel把multi-core用足了,还能更快。

awk

【在 d********t 的大作中提到】
: 以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
: read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
: 处理完两分钟不到。

avatar
z*b
9
没有选PR的话估计是被拒了

【在 M*****t 的大作中提到】
: 另外申的看到需要填PR的地方,很奇怪,是不是因为填不是学生呢
avatar
i*t
10
星哥 你这么帅锅 居然找不到老婆!!! 情何以堪啊
avatar
d*t
11
这个咋整

【在 w***g 的大作中提到】
: 再加上gnu parallel把multi-core用足了,还能更快。
:
: awk

avatar
M*t
12
没有地方让我选PR啊
avatar
w*8
13
年少轻狂,都错过了。。。
白晶晶结婚了,紫霞仙子都有宝宝了,只有至尊宝还是独自一人。。。唏嘘啊。。。

【在 i******t 的大作中提到】
: 星哥 你这么帅锅 居然找不到老婆!!! 情何以堪啊
avatar
w*g
14
如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
(wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
比如有个大文件XXX有1G, 想数行数。直接就是
cat XXX | wc -l
用parallel就是
cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
END{print a;}'
wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。
parallel --pipe这步相当于map,如果有需要后面再reduce一下。
如果不加--pipe,输入的每一行会作为参数启动一个后面跟的命令。比如你的输入如果
存在大量文件里,那么就是find ... -type f | pipe wc -l 了
很多人不会写脚本,用java写个mapreduce就牛B哄哄的。其实几G几十G数据的话随便写
两行脚本就解决了。

【在 d********t 的大作中提到】
: 这个咋整
avatar
J*n
15
occupation没有选student吧?选了也会被拒

【在 M*****t 的大作中提到】
: 没有地方让我选PR啊
avatar
r*y
16
在生活里修行成佛。

【在 w*********8 的大作中提到】
: 年少轻狂,都错过了。。。
: 白晶晶结婚了,紫霞仙子都有宝宝了,只有至尊宝还是独自一人。。。唏嘘啊。。。

avatar
d*t
17
谢了,不过现在公司还是Windows,这些在Cygwin下估计不能work吧:(

【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。

avatar
M*t
18
没有
我就选了工作的,然后没有地方选pr。接下来就杯具了

【在 J*******n 的大作中提到】
: occupation没有选student吧?选了也会被拒
avatar
g*g
19
mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
行吧。可以写复杂点的 filtering.

【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。

avatar
d*t
20
我选了student,一个礼拜就拿到卡了...

【在 J*******n 的大作中提到】
: occupation没有选student吧?选了也会被拒
avatar
S*e
21
我也觉得他那方法毕竟还是单机的 -- parallel 也不能在IO上快太多。

10

【在 g*****g 的大作中提到】
: mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
: 行吧。可以写复杂点的 filtering.

avatar
M*t
22
好吧,收到据信了
我rp不好,申啥据啥
想搞个2%的cc,没有一家给我发
avatar
w*g
23
麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
Spark火就是证明了其实大部分情况下撑死也就若干T。

10

【在 g*****g 的大作中提到】
: mapreduce那是跑集群用的。P级数据一样跑。几十个 G 写个 streaming跑并发也就10
: 行吧。可以写复杂点的 filtering.

avatar
J*n
24
牛,啥话都不能说死啊

【在 d**********t 的大作中提到】
: 我选了student,一个礼拜就拿到卡了...
avatar
i*i
25
read.table 需要把整个文件读到内存,用 data.frame存储。 如果这里面有字符串,
还要转换成factor. 很费劲的。
在R里,你需要直接用file, 每次读一部分。
你能用excel打开,应该不超过65535 行。 用R处理不在话下。

awk

【在 d********t 的大作中提到】
: 以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
: read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
: 处理完两分钟不到。

avatar
m*n
26
不是,我等了一个月拿到了。
avatar
D*a
27
印象中excel至少能处理1048576行

【在 i**i 的大作中提到】
: read.table 需要把整个文件读到内存,用 data.frame存储。 如果这里面有字符串,
: 还要转换成factor. 很费劲的。
: 在R里,你需要直接用file, 每次读一部分。
: 你能用excel打开,应该不超过65535 行。 用R处理不在话下。
:
: awk

avatar
i*i
28
2010是65535.
2013是1,048,576 rows by 16,384 columns

【在 D*******a 的大作中提到】
: 印象中excel至少能处理1048576行
avatar
g*g
29
这你也看干什么,如果要想实时结果数据量小也不见得错

【在 w***g 的大作中提到】
: 麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
: 处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
: Spark火就是证明了其实大部分情况下撑死也就若干T。
:
: 10

avatar
g*g
30
我说的 Java 8 streaming api 你就不知道呀,同样可以并发而且灵活度高。

【在 w***g 的大作中提到】
: 麻烦你说个我们不知道的。hadoop又不是到处都有。我倒是见过一些外行
: 处理几十G数据还专门装个hadoop。如果都是P级数据的话spark这种根本就火不起来。
: Spark火就是证明了其实大部分情况下撑死也就若干T。
:
: 10

avatar
d*t
31
扯淡吧,一共52万行。

【在 i**i 的大作中提到】
: read.table 需要把整个文件读到内存,用 data.frame存储。 如果这里面有字符串,
: 还要转换成factor. 很费劲的。
: 在R里,你需要直接用file, 每次读一部分。
: 你能用excel打开,应该不超过65535 行。 用R处理不在话下。
:
: awk

avatar
w*g
32
我以为你是hadoop streaming。 java那个没见过,你写个wc -l对应的我们看看。

【在 g*****g 的大作中提到】
: 我说的 Java 8 streaming api 你就不知道呀,同样可以并发而且灵活度高。
avatar
i*i
33
你才傻逼呢。
把你的问件给我,让爷给你示范一下。

【在 d********t 的大作中提到】
: 扯淡吧,一共52万行。
avatar
w*z
34
Java streaming 主要针对collection.

【在 w***g 的大作中提到】
: 我以为你是hadoop streaming。 java那个没见过,你写个wc -l对应的我们看看。
avatar
g*g
35
我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
regex不好写,或者上下行相关等等,这个就不错。
Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
);
对应
grep keyword myFile | wc -l

【在 w***g 的大作中提到】
: 我以为你是hadoop streaming。 java那个没见过,你写个wc -l对应的我们看看。
avatar
m*t
36
几百兆的话,任意一个脚本语言Perl, python, Ruby都一点问题没有。玩得花的话可以
考虑Python Pandas

awk

【在 d********t 的大作中提到】
: 以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
: read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
: 处理完两分钟不到。

avatar
d*t
37
是没问题,可是两百多column我只需要截取简单数据做简单计算,真心没必要写脚本。

【在 m******t 的大作中提到】
: 几百兆的话,任意一个脚本语言Perl, python, Ruby都一点问题没有。玩得花的话可以
: 考虑Python Pandas
:
: awk

avatar
w*z
38
重点是parallelstream
http://docs.oracle.com/javase/tutorial/collections/streams/para
but be careful:
http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
http://java.dzone.com/articles/think-twice-using-java-8
It's not coming for free.

count(

【在 g*****g 的大作中提到】
: 我也不熟,不过差不多长这样吧。并发读,快不快就要看配置了。如果你过滤复杂
: regex不好写,或者上下行相关等等,这个就不错。
: Files.lines("myFile").parallelStream().filter(l->l.contains(keyword)).count(
: );
: 对应
: grep keyword myFile | wc -l

avatar
d*i
39
多谢指出问题,正如大神Linus最近指出的,忘掉操蛋的并行计算吧,并行计算不是
silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
现就是fork-join pool,就是把他变成了看起来的语法糖而已。

【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

avatar
w*z
40
呵呵,觉得自己会multithread programming的大多不知道自己在干什么。
我是能不用尽量不用。只有benchmark 说performance 不行了,才会考虑。

【在 d****i 的大作中提到】
: 多谢指出问题,正如大神Linus最近指出的,忘掉操蛋的并行计算吧,并行计算不是
: silver bullet,大部分时候我们并不需要并行也过得很好!java 8的stream底层的实
: 现就是fork-join pool,就是把他变成了看起来的语法糖而已。

avatar
d*i
41
如果需要的话,我宁可喜欢用较难的多线程的方式来写并行,也不喜欢像Java 8那样借
助于语法糖的一层包皮来实现所谓的并行。前者概念更清楚,容易让人知道自己在干什
么,虽然不易。后者则完全是为了语法糖而包了一层。

【在 w**z 的大作中提到】
: 呵呵,觉得自己会multithread programming的大多不知道自己在干什么。
: 我是能不用尽量不用。只有benchmark 说performance 不行了,才会考虑。

avatar
d*i
42
对啊,有句名言叫做
Premature optimization is the root of all evil
你这个做法恰恰是对的

【在 w**z 的大作中提到】
: 呵呵,觉得自己会multithread programming的大多不知道自己在干什么。
: 我是能不用尽量不用。只有benchmark 说performance 不行了,才会考虑。

avatar
g*g
43
这当然是语法糖啦,只不过原来如果是blocking IO,这个做法没啥区别。比如上次我
跑个data migration,先从DB dump了几百万个记录,然后挨个做remote API call. 慢
在remote call上,只要单独起个pool,跟弄一堆Future没啥区别呀。反正单线程是肯
定不行的,估计得跑好几周。

【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

avatar
r*g
44
和perl比如何?

awk

【在 d********t 的大作中提到】
: 以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
: read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
: 处理完两分钟不到。

avatar
g*g
45
http://stackoverflow.com/questions/21163108/custom-thread-pool-
你可以看看这个thread。如果不是一次性的,用common pool是不可行的,但是用个
custom pool我觉得是一样的。

【在 w**z 的大作中提到】
: 重点是parallelstream
: http://docs.oracle.com/javase/tutorial/collections/streams/para
: but be careful:
: http://zeroturnaround.com/rebellabs/java-parallel-streams-are-b
: http://java.dzone.com/articles/think-twice-using-java-8
: It's not coming for free.
:
: count(

avatar
d*t
46
应该比Perl快。我以前常用Perl的,不过Perl也有大块数据吃不进的问题。

【在 r*g 的大作中提到】
: 和perl比如何?
:
: awk

avatar
q*w
47
请问如果一个打文件要sorting, 用parallel怎么写?
avatar
w*g
48
不用parallel。Linux下新版本的sort自己就是多核的。

【在 q*****w 的大作中提到】
: 请问如果一个打文件要sorting, 用parallel怎么写?
avatar
M*P
49
这先用excel再用readtable一看就是外行啊。

awk
★ 发自iPhone App: ChineseWeb 7.8

【在 d********t 的大作中提到】
: 以前也没觉得有啥,今天dei处理一个几百兆的csv文件,excel要开半天。R更搞笑,
: read.table度不完,换data.table.fread,每次到15%就死机了,只能关电源重启。awk
: 处理完两分钟不到。

avatar
e*2
50
awk可以用于streaming。

【在 M*P 的大作中提到】
: 这先用excel再用readtable一看就是外行啊。
:
: awk
: ★ 发自iPhone App: ChineseWeb 7.8

avatar
d*t
51
我根本不会excel,人家发的excel给我没办法看一眼。

【在 M*P 的大作中提到】
: 这先用excel再用readtable一看就是外行啊。
:
: awk
: ★ 发自iPhone App: ChineseWeb 7.8

avatar
j*x
52
怎么总是有人提这种cat xxx | grep/awk/sed ...
直接grep awk sed ...
莫名其妙。。。

【在 w***g 的大作中提到】
: 如果你没有parallel命令,或者命令比较老的话,先用下面的更新。
: (wget -O - pi.dk/3 || curl pi.dk/3/) | sudo bash
: 比如有个大文件XXX有1G, 想数行数。直接就是
: cat XXX | wc -l
: 用parallel就是
: cat XXX | parallel --block 10M --pipe wc -l | awk 'BEGIN{a=0;}{a = a+ $1;}
: END{print a;}'
: wc -l可以换成grep, awk等任意可以以pipe方式运行的程序。
: parallel --pipe会把输入分成大致--block指定的大小,默认是1M。然后启动N个wc一
: 块跑。和hadoop一样,parallel只会在行与行之间切分,所以是awk-friendly的。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。