Cravath's profit down 24% - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Law - 律师事务所

Cravath's profit down 24%

Cravath's profit down 24%# Law - 律师事务所

w*r2009-02-19 08:02

1 楼

我已经取了大约5千到1万个网页，分析，提取其中的内容。
提取出来的内容，保存的时候，需要有id, url, 正文，访问时间等等一系列内容。正
文一般都不大，可能1k字节是上限。
我该采取什么结构来存这些文件呢？这些文件存在一个大文件里即可，不需要分开存储
。我能想到的是数据库和xml文件。大部分时间只是阅读这些文件，偶尔可能会排一下
序。怎么保存能够容易读取、排序呢?还有，阅读的时候，偶尔可能在某个文件上面加
上几行注释再保存。
高手们给我指点一下？
谢谢！

D*s2009-02-19 08:02

2 楼

Cravath is hurt more probably because of their lack of diversification.
WLRK's profit will probably decline a lot, too.

g*g2009-02-19 08:02

3 楼

DB

【在 w*********r 的大作中提到】

: 我已经取了大约5千到1万个网页，分析，提取其中的内容。
: 提取出来的内容，保存的时候，需要有id, url, 正文，访问时间等等一系列内容。正
: 文一般都不大，可能1k字节是上限。
: 我该采取什么结构来存这些文件呢？这些文件存在一个大文件里即可，不需要分开存储
: 。我能想到的是数据库和xml文件。大部分时间只是阅读这些文件，偶尔可能会排一下
: 序。怎么保存能够容易读取、排序呢?还有，阅读的时候，偶尔可能在某个文件上面加
: 上几行注释再保存。
: 高手们给我指点一下？
: 谢谢！