码工码农，帮忙了！ (转载) - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Linux - Linux 操作系统

码工码农，帮忙了！ (转载)

码工码农，帮忙了！ (转载)# Linux - Linux 操作系统

o*52012-08-24 07:08

1 楼

从国内进的设备出现质量问题.国内厂家需带便携式探伤仪来美检测,不知可否?若不行,
在美可以租到吗? 便携式波超声探伤仪.没时间去GOOGLE了.若有知道的,赐教.多谢!

G*Y2012-08-24 07:08

2 楼

【以下文字转载自 PhotoGear 讨论区】
发信人: GGYY (唧唧歪歪), 信区: PhotoGear
标题: 码工码农，帮忙了！
发信站: BBS 未名空间站 (Fri Aug 24 16:09:45 2012, 美东)
技术帖。
一个文件1百多万行，怎么最快的从里面读出任意指定的行？（比如第500，000到第501
，000行）能在几秒钟内完成吗？看似应该不难。
linux下面。

g*s2012-08-24 07:08

3 楼

不可以托运吗？

行,

【在 o*******5 的大作中提到】

: 从国内进的设备出现质量问题.国内厂家需带便携式探伤仪来美检测,不知可否?若不行,
: 在美可以租到吗? 便携式波超声探伤仪.没时间去GOOGLE了.若有知道的,赐教.多谢!

y*n2012-08-24 07:08

4 楼

hash吧。

o*52012-08-24 07:08

5 楼

需要报关吗?

L*n2012-08-24 07:08

6 楼

首先什么文件，文本的还是字节的，你想干什么？写C程序还是script处理数据?

501

【在 G**Y 的大作中提到】

: 【以下文字转载自 PhotoGear 讨论区】
: 发信人: GGYY (唧唧歪歪), 信区: PhotoGear
: 标题: 码工码农，帮忙了！
: 发信站: BBS 未名空间站 (Fri Aug 24 16:09:45 2012, 美东)
: 技术帖。
: 一个文件1百多万行，怎么最快的从里面读出任意指定的行？（比如第500，000到第501
: ，000行）能在几秒钟内完成吗？看似应该不难。
: linux下面。

l*n2012-08-24 07:08

7 楼

几秒完成那是不可能的, 除非是每行固定长度或者允许事先花个几分钟的时间做一个索
引文件.

501

【在 G**Y 的大作中提到】

G*Y2012-08-24 07:08

8 楼

文本的，就是一个巨大矩阵，
我需要从中间随意读出几行。

【在 L***n 的大作中提到】

: 首先什么文件，文本的还是字节的，你想干什么？写C程序还是script处理数据?
:
: 501

a*a2012-08-24 07:08

9 楼

允许事先建立索引吧

【在 G**Y 的大作中提到】

: 文本的，就是一个巨大矩阵，
: 我需要从中间随意读出几行。

L*n2012-08-24 07:08

10 楼

文本文件应该没什么难的，python应该没问题吧，如果
是手工编辑vim也可以。几秒钟这个要求不高。文件多大啊，
上G么

【在 G**Y 的大作中提到】

: 文本的，就是一个巨大矩阵，
: 我需要从中间随意读出几行。

G*h2012-08-24 07:08

11 楼

tail -5000 | head -1
hehe 不过很慢

【在 G**Y 的大作中提到】

: 文本的，就是一个巨大矩阵，
: 我需要从中间随意读出几行。

G*Y2012-08-24 07:08

12 楼

上G了，7个G吧。没法都搞到内存里。一是内存不够，而是I/O太慢。
google了一下，有人说可以把它转成一个数据库。然后随机选取就容易了？

【在 L***n 的大作中提到】

: 文本文件应该没什么难的，python应该没问题吧，如果
: 是手工编辑vim也可以。几秒钟这个要求不高。文件多大啊，
: 上G么

G*Y2012-08-24 07:08

13 楼

允许是允许，可要是让我自己建，就又得调试，测试啥的。得不偿失了。

【在 a****a 的大作中提到】

: 允许事先建立索引吧

L*n2012-08-24 07:08

14 楼

7G vim就不行了，简单点处理，你先split成几个小文件吧

【在 G**Y 的大作中提到】

: 上G了，7个G吧。没法都搞到内存里。一是内存不够，而是I/O太慢。
: google了一下，有人说可以把它转成一个数据库。然后随机选取就容易了？

G*Y2012-08-24 07:08

15 楼

看来只能先这样了。

【在 L***n 的大作中提到】

: 7G vim就不行了，简单点处理，你先split成几个小文件吧

L*n2012-08-24 07:08

16 楼

你的是矩阵，所以列数固定，应该很容易算从哪个文件里找第几行吧

【在 G**Y 的大作中提到】

: 看来只能先这样了。

l*n2012-08-24 07:08

17 楼

允许的话那就一点难度都没有了, 最简单的如果不缺存储空间的话就用split命令分割
成1万行的一堆小文件, 然后的事情就很easy了.

【在 G**Y 的大作中提到】

: 允许是允许，可要是让我自己建，就又得调试，测试啥的。得不偿失了。

G*Y2012-08-24 07:08

18 楼

csv的。
不能确定是fixed width的，可能有些数字长，有些数字短呀。

【在 L***n 的大作中提到】

: 你的是矩阵，所以列数固定，应该很容易算从哪个文件里找第几行吧

G*h2012-08-24 07:08

19 楼

纯数据弄到数据库里访问比较爽

【在 G**Y 的大作中提到】

: csv的。
: 不能确定是fixed width的，可能有些数字长，有些数字短呀。

L*n2012-08-24 07:08

20 楼

哦，先写个小程序把大文件分割成固定行数的若干小文件吧，
可能你要数\n来决定在哪里分割了，不知道有没有现成的工具
干这个的，这步可能慢些，分割完了以后查找就快了。

【在 G**Y 的大作中提到】

: csv的。
: 不能确定是fixed width的，可能有些数字长，有些数字短呀。

G*Y2012-08-24 07:08

21 楼

zkss？
听说是可以搞到sqlite里。但是俺对这玩意一点都不熟。
google了一下，没找到特别简单的csv转sqlite的工具（csv 1000来列，能自动处理列
名吗？）
关键就不知道从哪开始google

【在 G*****h 的大作中提到】

: 纯数据弄到数据库里访问比较爽

l*n2012-08-24 07:08

22 楼

split呀, 比如如果文件是千万行这个级别的话, 下面这样就可以了
split -l 10000 -d -a 4 filename filename
分割后的文件命名filename0000, filename0001, ...

【在 L***n 的大作中提到】

: 哦，先写个小程序把大文件分割成固定行数的若干小文件吧，
: 可能你要数\n来决定在哪里分割了，不知道有没有现成的工具
: 干这个的，这步可能慢些，分割完了以后查找就快了。

L*n2012-08-24 07:08

23 楼

ft 我还真不知道split可以按行分...

【在 l******n 的大作中提到】

: split呀, 比如如果文件是千万行这个级别的话, 下面这样就可以了
: split -l 10000 -d -a 4 filename filename
: 分割后的文件命名filename0000, filename0001, ...

l*n2012-08-24 07:08

24 楼

... split就是按照行分的呀, csplit才是按照pattern来分.

【在 L***n 的大作中提到】

: ft 我还真不知道split可以按行分...

L*n2012-08-24 07:08

25 楼

我以前从来都是按字节分的...

【在 l******n 的大作中提到】

: ... split就是按照行分的呀, csplit才是按照pattern来分.

G*Y2012-08-24 07:08

26 楼

我就是用这个分了，现在分了10几个，看看够不够快。不行就得分100个了。

【在 l******n 的大作中提到】

: split呀, 比如如果文件是千万行这个级别的话, 下面这样就可以了
: split -l 10000 -d -a 4 filename filename
: 分割后的文件命名filename0000, filename0001, ...

l*n2012-08-24 07:08

27 楼

分小点好, 如果是ext系列文件系统的话吧1000个左右基本不怎么影响速度, 如果是
reiserfs文件系统的话, 可以分得更多一点.

【在 G**Y 的大作中提到】

: 我就是用这个分了，现在分了10几个，看看够不够快。不行就得分100个了。

m*52012-08-24 07:08

28 楼

database啊

m*52012-08-24 07:08

29 楼

try pytable

【在 G**Y 的大作中提到】

: zkss？
: 听说是可以搞到sqlite里。但是俺对这玩意一点都不熟。
: google了一下，没找到特别简单的csv转sqlite的工具（csv 1000来列，能自动处理列
: 名吗？）
: 关键就不知道从哪开始google

kc2012-08-24 07:08

30 楼

Google一下aster database，用ncluster_loader非常适合你这需要。半个小时内就能
搞明白。
而且可以直接都csv file

zkss？听说是可以搞到sqlite里。但是俺对这玩意一点都不熟。google了一下，没找到
特别简单的csv转sqlite的工具（csv 1000来列，能自动处理列名吗？）关键........
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite

【在 G**Y 的大作中提到】

: 我就是用这个分了，现在分了10几个，看看够不够快。不行就得分100个了。

l*i2012-08-24 07:08

31 楼

map reduce, hadoop

S*A2012-08-24 07:08

32 楼

这个问题要搞清楚前提是什么。
例如要读的大文件是要反复修改的么？
是读一次还是反复读若干行？
假设大文件是不修改的，需要反复读若干行。
那就用程序建立个 Index 好了，数组记住每一行开始在
什么位置。
然后查找就是数组里面按照行号查找就知道位置了。
如果是只读一次，没有辅助信息。那就从头向后数就行了，
而且这个没有更加简单的办法。因为每个字节都可能是新行，
所以必须每个字节都遍历一次直到查找的行号。

w*w2012-08-24 07:08

33 楼

没人提把table存成binary?还省了parsing。

h*c2012-08-24 07:08

34 楼

我的原则：
随机读写-〉database
whole table scale-〉file split, sort, merge (basically mapper reducer)

d*n2012-08-24 07:08

35 楼

1. first use getc() or getline (),
when reach a newline char '\n', use ftell() function save the current
position into a list/array sequentially
save this entire array into a text/binary format file as index.
2. when you try to pull out server lines from the huge file,
organize the line numbers in ascending order,
for each line number in your query
binary search your previous saved index
lseek the position in the index.
getc() or getline() until to the first '\n' by that offset
3. done