码工码农，帮忙了！ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>PhotoGear - 摄影器材

码工码农，帮忙了！

码工码农，帮忙了！# PhotoGear - 摄影器材

G*Y2012-08-24 07:08

1 楼

技术帖。
一个文件1百多万行，怎么最快的从里面读出任意指定的行？（比如第500，000到第501
，000行）能在几秒钟内完成吗？看似应该不难。
linux下面。

o*p2012-08-24 07:08

2 楼

现在不是8086的年代了啊。

501

【在 G**Y 的大作中提到】

: 技术帖。
: 一个文件1百多万行，怎么最快的从里面读出任意指定的行？（比如第500，000到第501
: ，000行）能在几秒钟内完成吗？看似应该不难。
: linux下面。

c*e2012-08-24 07:08

3 楼

sed

501

【在 G**Y 的大作中提到】

x52012-08-24 07:08

4 楼

先发包子

501

【在 G**Y 的大作中提到】

l*b2012-08-24 07:08

5 楼

这个除了一个一个的数EOL还有什么办法......

s*e2012-08-24 07:08

6 楼

head -501000 file |tail -1000

501

【在 G**Y 的大作中提到】

c*e2012-08-24 07:08

7 楼

举俩例子
1.sed -n '2'p filename
打印文件的第二行。
2.sed -n '1,3'p filename
打印文件的1到3行

【在 c***e 的大作中提到】

: sed
:
: 501

G*Y2012-08-24 07:08

8 楼

sed 具慢呀。
他是每行扫描过去。
不要的行也扫描吧

【在 c***e 的大作中提到】

: 举俩例子
: 1.sed -n '2'p filename
: 打印文件的第二行。
: 2.sed -n '1,3'p filename
: 打印文件的1到3行

h*u2012-08-24 07:08

9 楼

sed 可以，不过sed本身也是靠读行实现的吧

【在 c***e 的大作中提到】

: sed
:
: 501

G*Y2012-08-24 07:08

10 楼

这个文件有7G，
你这个方法，得先扫描3，4G吧。几秒搞得定吗？
要是想要最后几行，不是很慢？

【在 s*****e 的大作中提到】

: head -501000 file |tail -1000
:
: 501

s*e2012-08-24 07:08

11 楼

一分钟估计也搞定了。。。没啥别的好办法，除非你先做索引

【在 G**Y 的大作中提到】

: 这个文件有7G，
: 你这个方法，得先扫描3，4G吧。几秒搞得定吗？
: 要是想要最后几行，不是很慢？

G*Y2012-08-24 07:08

12 楼

看来我只好把文件split了。

【在 s*****e 的大作中提到】

: 一分钟估计也搞定了。。。没啥别的好办法，除非你先做索引

c*e2012-08-24 07:08

13 楼

是啊 7G 太大了呵呵我处理的小多了

【在 h*********u 的大作中提到】

:
: sed 可以，不过sed本身也是靠读行实现的吧

G*Y2012-08-24 07:08

14 楼

我都知道行好了，不能跳快点吗？

【在 c***e 的大作中提到】

: 是啊 7G 太大了呵呵我处理的小多了

v*a2012-08-24 07:08

15 楼

找轩儿223和小黄

【在 G**Y 的大作中提到】

: 我都知道行好了，不能跳快点吗？

g*n2012-08-24 07:08

16 楼

有办法啊，费空间的办法啊，开始处理就固定每行的size

【在 s*****e 的大作中提到】

: 一分钟估计也搞定了。。。没啥别的好办法，除非你先做索引

h*u2012-08-24 07:08

17 楼

怎么跳？除非每行size一样

【在 G**Y 的大作中提到】

: 我都知道行好了，不能跳快点吗？

G*Y2012-08-24 07:08

18 楼

把文件转成binary的，然后随机访问？

【在 g*****n 的大作中提到】

: 有办法啊，费空间的办法啊，开始处理就固定每行的size

s*e2012-08-24 07:08

19 楼

实在要快，可以考虑binary format不过那东西比较容易出问题。
建议还是索引的办法比较好。
还有一个办法是把文件拆成若干份，比方说100000行一份，这样查找比较快，可以控制
在10秒以内。

【在 g*****n 的大作中提到】

: 有办法啊，费空间的办法啊，开始处理就固定每行的size

G*Y2012-08-24 07:08

20 楼

看来如果是文本文件，最快的话，每个记录也要至少读一次。基本上是无解了？
据说可以把它转成数据库，然后随机读取？

【在 h*********u 的大作中提到】

:
: 怎么跳？除非每行size一样

e*t2012-08-24 07:08

21 楼

没读懂你的问题
query 么
SELECT * FROM `Table_name` WHERE `id` BETWEEN 50000 AND 60000 ORDER BY XXX;

g*n2012-08-24 07:08

22 楼

也行，反正就是速度和空间的折衷

【在 s*****e 的大作中提到】

: 实在要快，可以考虑binary format不过那东西比较容易出问题。
: 建议还是索引的办法比较好。
: 还有一个办法是把文件拆成若干份，比方说100000行一份，这样查找比较快，可以控制
: 在10秒以内。

c*e2012-08-24 07:08

23 楼

我也就能想到这个写个脚本拆开查吧

【在 s*****e 的大作中提到】

h*u2012-08-24 07:08

24 楼

db可以啊，

【在 G**Y 的大作中提到】

: 看来如果是文本文件，最快的话，每个记录也要至少读一次。基本上是无解了？
: 据说可以把它转成数据库，然后随机读取？

e*t2012-08-24 07:08

25 楼

原来是文本文件

a*a2012-08-24 07:08

26 楼

sed很快。我一个72M行的文件，取第36M位置的行出来，不到6秒。

【在 G**Y 的大作中提到】

: sed 具慢呀。
: 他是每行扫描过去。
: 不要的行也扫描吧

G*Y2012-08-24 07:08

27 楼

啥 db比较方便，大侠zkss？

【在 h*********u 的大作中提到】

:
: db可以啊，

G*Y2012-08-24 07:08

28 楼

sqlite似乎很强大！

【在 G**Y 的大作中提到】

: 啥 db比较方便，大侠zkss？

h*52012-08-24 07:08

29 楼

工哥一句话总结了所有算法的内涵

【在 g*****n 的大作中提到】

: 也行，反正就是速度和空间的折衷

h*52012-08-24 07:08

30 楼

用DB的话要DB转换成structured data.其实你这个就是big data的一个很好应用，例如
用mapreduce/hadoop.

【在 G**Y 的大作中提到】

: 啥 db比较方便，大侠zkss？

2024-01-28 18:01

2024-01-09 19:01

2024-01-07 18:01

2024-01-06 18:01

2024-01-06 18:01

2023-12-13 17:12

2023-12-02 07:12

2023-11-26 18:11

中美航班重磅消息！每周85班，直飞更方便！

微软、亚马逊、谷歌大裁员！哪些科技和零售公司有缩减规模计划？

中国外长王毅：中美关系已经止跌回稳

脱轨事故造成20多人受伤联邦调查纽约市全部地铁系统

更多 2024-11-14 的新闻