Redian新闻
>
询问:纽约及附近地区的非盈利组织 (转载)
avatar
询问:纽约及附近地区的非盈利组织 (转载)# Economics - 经济
j*p
1
刚才居然发错版了,皑皑。
avatar
X*o
2
avatar
s*o
3
本人在研究trading system 和 strategy desgin, 自然最先遇到的问题就是要维护好
历史data, 从而可以以此为背景做backtesting 去找到统计上的交易edge。我的data
是tickdata,格式如下图所示,
最后两列是volume,没有用,可以去掉的。这样就包含日期,bid, ask, 三个data。
如图所示,这些data很密集,两个月40个交易日大概有500万行这样的data,我在c#的
程序如果从储存这些数据的csv里边直接读取并存到内存里的data structure里的话,
大概30秒左右。然后再对内存里的进行回测,大体的思路是这样的。现在的问题就是
csv肯定是不合理的储存方式:
方案1: mysql, mssql去储存数据,但我看一些trading的论坛一些技术人员说因为这
些database是relational,对tick这样的time series不是最佳的方案。
方案2:存储为binaryfile,然后通过文件夹和文件的名字来寻找相应的data,比如建
立一个文件夹EUR。USD,里边有很多单独的bin文件,每个文件存取一天的tickdata。
同时存取的时候只存去delta值,因为大家也许注意到了,每一行的时间间隔是
milliseconds,价格的差别也许是0.0002-0.0010,如果我们只存取这些price change
,也许能进一步压缩空间。
大家都是database的专家,能不能给我一些建议,谢谢
avatar
e*a
4
【 以下文字转载自 NewYork 讨论区 】
发信人: enpea (PPP...P...), 信区: NewYork
标 题: 询问:纽约及附近地区的非盈利组织
发信站: BBS 未名空间站 (Sun Feb 22 16:09:58 2009)
打算到NPO、NGO实习,最好是经济类的
不知道有达人了解纽约地区的情况吗?都有哪些这样的组织?
谢谢
avatar
w*b
5
不错啊

【在 j****p 的大作中提到】
: 刚才居然发错版了,皑皑。
avatar
s*o
6
方案3:用.net 4里边新家的memory-mapped files 来做,这样也是对硬盘上的file进
行操作,但是不读取到内存里,对内存压力小些,不过怀疑速度和第二种会有些缓慢,
毕竟计算的时候不是在内存里吧?
avatar
y*w
7
google "big data"
另外,如果只分析两个月,5M行这么简单的数据也不是什么大事儿。怎么方便怎么来就行了。

data

【在 s*******o 的大作中提到】
: 本人在研究trading system 和 strategy desgin, 自然最先遇到的问题就是要维护好
: 历史data, 从而可以以此为背景做backtesting 去找到统计上的交易edge。我的data
: 是tickdata,格式如下图所示,
: 最后两列是volume,没有用,可以去掉的。这样就包含日期,bid, ask, 三个data。
: 如图所示,这些data很密集,两个月40个交易日大概有500万行这样的data,我在c#的
: 程序如果从储存这些数据的csv里边直接读取并存到内存里的data structure里的话,
: 大概30秒左右。然后再对内存里的进行回测,大体的思路是这样的。现在的问题就是
: csv肯定是不合理的储存方式:
: 方案1: mysql, mssql去储存数据,但我看一些trading的论坛一些技术人员说因为这
: 些database是relational,对tick这样的time series不是最佳的方案。

avatar
s*o
8
也许我没说清楚,现在可以下载的data有2003-2012, 算8年吧,一个月2M,这样的话
一个pair就就有8*12*2, 一亿多行data把。在外汇里一般有10个可以交易的货币对,
这样的话就接近1billion了,其实有26个,有些不活跃或者不适合交易。这样data算多
了把。
avatar
g*l
9
你那些老数据并不是时刻要用的,保留一周的就够了,其它老数据SUMMARIZE一下
ARCHIVE起来。

【在 s*******o 的大作中提到】
: 也许我没说清楚,现在可以下载的data有2003-2012, 算8年吧,一个月2M,这样的话
: 一个pair就就有8*12*2, 一亿多行data把。在外汇里一般有10个可以交易的货币对,
: 这样的话就接近1billion了,其实有26个,有些不活跃或者不适合交易。这样data算多
: 了把。

avatar
a9
10
关键你是要怎么用这些数据。
不想好怎么用就想怎么存取是没有意义的。
csv不见的不好。

【在 s*******o 的大作中提到】
: 也许我没说清楚,现在可以下载的data有2003-2012, 算8年吧,一个月2M,这样的话
: 一个pair就就有8*12*2, 一亿多行data把。在外汇里一般有10个可以交易的货币对,
: 这样的话就接近1billion了,其实有26个,有些不活跃或者不适合交易。这样data算多
: 了把。

avatar
g*l
11
CSV一个打开了一个就不能写了,不就成了PERSONAL DATABAE了?搞数据库就是用来
SHARE的吧

【在 a9 的大作中提到】
: 关键你是要怎么用这些数据。
: 不想好怎么用就想怎么存取是没有意义的。
: csv不见的不好。

avatar
a9
12
打开的方式也有很多种啊。他不一定需要“数据库”

【在 g***l 的大作中提到】
: CSV一个打开了一个就不能写了,不就成了PERSONAL DATABAE了?搞数据库就是用来
: SHARE的吧

avatar
g*l
13
打开的方式是在文件上的,有一个UPDATE的,其它的就不能打开了,这个大家用WORD都
印象吧

【在 a9 的大作中提到】
: 打开的方式也有很多种啊。他不一定需要“数据库”
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。