Cravath's profit down 24%# Law - 律师事务所
w*r
1 楼
我已经取了大约5千到1万个网页,分析,提取其中的内容。
提取出来的内容,保存的时候,需要有id, url, 正文,访问时间等等一系列内容。正
文一般都不大,可能1k字节是上限。
我该采取什么结构来存这些文件呢?这些文件存在一个大文件里即可,不需要分开存储
。 我能想到的是数据库和xml文件。大部分时间只是阅读这些文件,偶尔可能会排一下
序。怎么保存能够容易读取、排序呢?还有,阅读的时候,偶尔可能在某个文件上面加
上几行注释再保存。
高手们给我指点一下?
谢谢!
提取出来的内容,保存的时候,需要有id, url, 正文,访问时间等等一系列内容。正
文一般都不大,可能1k字节是上限。
我该采取什么结构来存这些文件呢?这些文件存在一个大文件里即可,不需要分开存储
。 我能想到的是数据库和xml文件。大部分时间只是阅读这些文件,偶尔可能会排一下
序。怎么保存能够容易读取、排序呢?还有,阅读的时候,偶尔可能在某个文件上面加
上几行注释再保存。
高手们给我指点一下?
谢谢!