麻烦pvq大侠进来一下，先谢谢了！ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Joke - 肚皮舞运动

麻烦pvq大侠进来一下，先谢谢了！

麻烦pvq大侠进来一下，先谢谢了！# Joke - 肚皮舞运动

g*52017-10-01 07:10

1 楼

对大盘木啥关键作用
er都还前面等着呢

f*t2017-10-01 07:10

2 楼

多谢大侠先！
昨天用您给的matlab那个例子试了一下：用第1到9组流速作为输入，第10组流速为目标
，预测第11组流速，预测结果与实际测量值相差的很大，可能是我那个sample文件不对
。麻烦您帮忙看一下我的input和target还有sample文件。
input (使用第1到9组流速作为输入）
1.12 1.82 0.11 0.54 4.87 0.64
1.61 2.04 0.16 0.68 4.93 0.66
1.32 1.71 0.21 0.63 4.89 0.58
1.69 2.00 0.19 0.78 4.83 0.60
1.12 2.04 0.21 0.72 4.76 0.59
1.55 1.92 0.16 0.62 4.68 0.60
1.67 1.96 0.17 0.83 4.82 0.52
1.73 1.99 0.21 0.72 4.75 0.62
1.77 2.18 0.20 0.70 4.56 0.70
target (使用第10组流速为目标）
1.45 1.93 0.16 0.60 4.73 0.65
sample (这个我不知道应该怎么写，只好使用第1组到第10组的全部数据，问题可能就
是出在它身上。）
1.12 1.82 0.11 0.54 4.87 0.64
1.61 2.04 0.16 0.68 4.93 0.66
1.32 1.71 0.21 0.63 4.89 0.58
1.69 2.00 0.19 0.78 4.83 0.60
1.12 2.04 0.21 0.72 4.76 0.59
1.55 1.92 0.16 0.62 4.68 0.60
1.67 1.96 0.17 0.83 4.82 0.52
1.73 1.99 0.21 0.72 4.75 0.62
1.77 2.18 0.20 0.70 4.56 0.70
1.45 1.93 0.16 0.60 4.73 0.65
再次感谢您出手相助！

w*o2017-10-01 07:10

3 楼

今天就是最典型的"不应期"

【在 g********5 的大作中提到】

: 对大盘木啥关键作用
: er都还前面等着呢

p*q2017-10-01 07:10

4 楼

你试一下用时间点来作为参数(假设时间点的interval是均等的, 或者至少时间点之间
有某种可以测量的关系, 这样我们可以将它们映射到自然数或者实数空间上)...
我们再假设一下你的六个监控点都是相互完全独立的 (如果不独立而有某种关联的话,
以后可以在独立的基础上逐渐优化 ).
这样我们需要有6个独立的神经网络, 每个神经网络对应一个监控点...
这样我们实际上是假定了有6个单变量(即以时间点作为变量)的方程, 每个单变量方程
对应了一个监控点:
f1(t) = 监控点1在时间点t的数据
f2(t) = 监控点2在时间点t的数据
...
f6(t) = 监控点6在时间点t的数据
因为假设了每个监控点互相间独立，我们对每个监控点独立的训练一个神经网络. 我
在这里用第一个监控点举个例子, 剩下的第二, 三,
四, 五, 六个监控点的神经网络的训练方法相同...
* 训练第一个点的神经网络
我们已知的数据有
f1(1) = 1.12
f1(2) = 1.61
f1(3) = 1.32
f1(4) = 1.69
f1(5) = 1.12
f1(6) = 1.55
f1(7) = 1.67
f1(8) = 1.73
f1(9) = 1.77
f1(10) = 1.45
我们用上面的数据来生成一个神经网络
这样input矩阵是 [1 2 3 4 5 6 7 8 9 10] (即一个1 x 10 的矩阵)
类似那个youtube的例子用“input”作为输入变量, matlab的语法是
input = [1 2 3 4 5 6 7 8 9 10]
或者可以简写
input = 1:1:10
然后”target“作为输出值,
target = [1.12 1.61 1.32 1.69 1.12 1.55 1.67 1.73 1.77 1.
45 ]
然后你按照youtube视频中的教程的方法生成第一个监控点的神经网络,
然后用第11个点的数据做个测试
f1(11) = 1.38
输入11, 然后看看输出的值离1.38有多远...
剩下的5个监控点的网络类似上面的过程....
(假如你的时间点的interval不是均等的, 那么你按照他们之间的比例 -- 一般来说普
通情况下的时间是某种线性的 -- 把它们映射到实数空间上去 )

g*52017-10-01 07:10

5 楼

一语道破天机哈哈
未免股神ｖ５

【在 w*******o 的大作中提到】

: 今天就是最典型的"不应期"

H*g2017-10-01 07:10

6 楼

我觉得你应该先澄清一下这个项目的思路究竟是用5 个数据点来预测第六个数据点
还是通过历史记录来预测下一个时间点的所有6个值这两个预测所用的训练组和目标
组是不一样的
如果是5个点预测特定的第六个点就类似于用当天的温度是否节假日来预测当天的
用电量或者用体温舌苔脉搏预测病人是否怀孕
如果是第二种情况就类似基于股票的历史表现建模然后在某个时间点用当时的
价格涨幅交易量预测第二天的价格涨幅交易量我猜你的目的很可能是这种
情况

【在 f***t 的大作中提到】

: 多谢大侠先！
: 昨天用您给的matlab那个例子试了一下：用第1到9组流速作为输入，第10组流速为目标
: ，预测第11组流速，预测结果与实际测量值相差的很大，可能是我那个sample文件不对
: 。麻烦您帮忙看一下我的input和target还有sample文件。
: input (使用第1到9组流速作为输入）
: 1.12 1.82 0.11 0.54 4.87 0.64
: 1.61 2.04 0.16 0.68 4.93 0.66
: 1.32 1.71 0.21 0.63 4.89 0.58
: 1.69 2.00 0.19 0.78 4.83 0.60
: 1.12 2.04 0.21 0.72 4.76 0.59

p*q2017-10-01 07:10

7 楼

你前面表述的方法的主要问题是没有利用到时间这个貌似implicit的变量以及时间类
上的已知点的关系...
要不然，机器怎么区分不同组的数据之间的ordering的关系呢?
对机器来说, 你的第10组数据和第11组数据是区分不开来的....
而且 -- 一般来说普通情况下的所有观测属性的公共时间是某种线性的关系 -- 时间的
这个线性的比例关系很重要, 比如你第一个时间点是1pm测得, 第二个时间点是同一天
3pm测得, 第三个时间点是同一天8pm测得, 那么你需要按照它们间的线性比例将输入
变量值记为 1, 3, 8 而不是上面的 1, 2, 3

【在 f***t 的大作中提到】

p*q2017-10-01 07:10

8 楼

是的, 虽然所有问题的最基本的模型是就是方程的最简形式:
f: X -> Y
(或许这就是category theory的foundation是映射的原因吧)
但是这个f方程上面的结构需要根据具体的研究对象的结构来建立的(理想状态下是f的
结构和研究对象的结构是isomorphic的)...
所谓结构, 就是一个dependency的关系, 系统属性A和属性B之间到底是怎样的
dependency关系，这个关系是不是还涉及到系统其他的可测量的属性...
=================================
BTW，夹带点私货，我个人觉得我党不应该把马克思主义作为立党之本...我觉得他们应
该把category theory作为立党之本...每个党员都要好好学习认真理解和观测category
theory的核心思想...

【在 H********g 的大作中提到】

: 我觉得你应该先澄清一下这个项目的思路究竟是用5 个数据点来预测第六个数据点
: 还是通过历史记录来预测下一个时间点的所有6个值这两个预测所用的训练组和目标
: 组是不一样的
: 如果是5个点预测特定的第六个点就类似于用当天的温度是否节假日来预测当天的
: 用电量或者用体温舌苔脉搏预测病人是否怀孕
: 如果是第二种情况就类似基于股票的历史表现建模然后在某个时间点用当时的
: 价格涨幅交易量预测第二天的价格涨幅交易量我猜你的目的很可能是这种
: 情况

f*t2017-10-01 07:10

9 楼

好的，按着您这个思路我再计算一下。

,

【在 p*q 的大作中提到】

: 你试一下用时间点来作为参数(假设时间点的interval是均等的, 或者至少时间点之间
: 有某种可以测量的关系, 这样我们可以将它们映射到自然数或者实数空间上)...
: 我们再假设一下你的六个监控点都是相互完全独立的 (如果不独立而有某种关联的话,
: 以后可以在独立的基础上逐渐优化 ).
: 这样我们需要有6个独立的神经网络, 每个神经网络对应一个监控点...
: 这样我们实际上是假定了有6个单变量(即以时间点作为变量)的方程, 每个单变量方程
: 对应了一个监控点:
: f1(t) = 监控点1在时间点t的数据
: f2(t) = 监控点2在时间点t的数据
: ...

f*n2017-10-01 07:10

10 楼

留名

f*t2017-10-01 07:10

11 楼

是第二种情况。
[1]，在每个时间点上的六个节点流速是使用流速计同时测出来的。
[2]，虽然六个取样点的位置不同，但是在每个时间点上的六个节点流速应该是有关联
的，因为是在同一个流速场中取样。
[3]，测量取样的时间间隔是相同的。
[4]，用已经测得的在不同时刻下的全部6个节点流速，去预测未来时间下的全部6个节
点的流速。
不知道俺表达清楚了没有：（

【在 H********g 的大作中提到】

p*q2017-10-01 07:10

12 楼

另外, 我不是什么大侠...我machine learning方面的认识非常的非常的noob...
但是我感觉, neural network似乎对这个问题似乎不是一个特别好的选择....你的问题
的基本框架是: 已知前面时间上的观测数据来预测紧接着的时间上的观测数据 (而且如
果现在要预测的数据很大程度上取决于之前的数据的) -- 这实际上是个bayes的一个过
程...你有时间可以试试bayes的模型或者之前n时间点的markov模型....
这里有可能potentially 有帮助的参考:
https://www.stata.com/meeting/spain15/abstracts/materials/spain15_sanchez.
pdf
https://en.wikipedia.org/wiki/Bayesian_inference
https://en.wikipedia.org/wiki/Markov_chain
neural network我的理解是比较适合用于分类 (这个和时间没有关系的, 所有的状态都
是同一时间, 只是需要你在对世界拥有局部知识的情况下对相关联的未知的世界其他部
分作出预测 -- 可以想象一下人脑的神经认知模型，比如自然语言理解之类的，或者对
图形的辨识)
http://www.turingfinance.com/misconceptions-about-neural-networks/
http://karpathy.github.io/neuralnets/
https://www.quora.com/Are-Neural-Networks-only-good-at-classification-do-
they-do-well-on-regression-clustering-problems
如果有对machine learning知道多的大侠，请指正...

H*g2017-10-01 07:10

13 楼

清楚了我觉得pvq给的方法很适合这种情况另外你现在有多少时间点了？人工测还
是自动取样？样本越多越密集预测的效果应该越好。

【在 f***t 的大作中提到】

: 是第二种情况。
: [1]，在每个时间点上的六个节点流速是使用流速计同时测出来的。
: [2]，虽然六个取样点的位置不同，但是在每个时间点上的六个节点流速应该是有关联
: 的，因为是在同一个流速场中取样。
: [3]，测量取样的时间间隔是相同的。
: [4]，用已经测得的在不同时刻下的全部6个节点流速，去预测未来时间下的全部6个节
: 点的流速。
: 不知道俺表达清楚了没有：（
:
:

f*t2017-10-01 07:10

14 楼

多谢指教，我先折腾一下神经网络，这个是大老板提出来的，其实他和我差不多，都是
做实验出身的，对modeling也都是道听途说而已，今天先折腾一下，出几组数据，明天
和大老板再聊聊，看看换markov模型。

【在 p*q 的大作中提到】

: 另外, 我不是什么大侠...我machine learning方面的认识非常的非常的noob...
: 但是我感觉, neural network似乎对这个问题似乎不是一个特别好的选择....你的问题
: 的基本框架是: 已知前面时间上的观测数据来预测紧接着的时间上的观测数据 (而且如
: 果现在要预测的数据很大程度上取决于之前的数据的) -- 这实际上是个bayes的一个过
: 程...你有时间可以试试bayes的模型或者之前n时间点的markov模型....
: 这里有可能potentially 有帮助的参考:
: https://www.stata.com/meeting/spain15/abstracts/materials/spain15_sanchez.
: pdf
: https://en.wikipedia.org/wiki/Bayesian_inference
: https://en.wikipedia.org/wiki/Markov_chain

p*q2017-10-01 07:10

15 楼

嗯，你表达的很清楚了...
你说的这一点, 对我有点困扰...
"[2]，虽然六个取样点的位置不同，但是在每个时间点上的六个节点流速应该是有关联
的，因为是在同一个流速场中取样。"
主要是我不知道这六个点是怎样的dependency -- 当然, 我们需要量化这个dependency
，如果不量化的话, 实际上是在隐含的假设我们的量化系数是0，也就是我最之前做的
完全独立的假设, 对六个观测点单独的独立的建立神经网络...
但是很显然，肉眼的观测至少可以大概知道每个点的观测数据的变化方向大概是一致
的, 而且在相同时间区间的变化率的数值有点类似...我个人觉得, 这个可以用来继续
优化模型(从精确度的方面优化)....
但是具体的怎么操作, 我现在不是很清楚 -- sigh...我对machine learning的了解只
是皮毛...
有这方面的专家，还请指点...

【在 f***t 的大作中提到】

f*t2017-10-01 07:10

16 楼

嗯，我正在按pvq的方法做ing。
目前取样已经达到37组流速了。人工读流速计，比较苦逼:(

【在 H********g 的大作中提到】

: 清楚了我觉得pvq给的方法很适合这种情况另外你现在有多少时间点了？人工测还
: 是自动取样？样本越多越密集预测的效果应该越好。

H*g2017-10-01 07:10

17 楼

流速计有电子输出么？有的话用raspberrypi就能自动取样数字或模拟信号都可以
的如果只有仪表盘其实也可以用摄像头抓拍然后写个小程序换成度读数
我们这里连冰箱都装了无线监测器也就是把热电偶的信号放大再无线网卡送出去
这个年代花点小钱就可以自动化了自动化不仅减少人为误差也可以大幅增加采样
密度利于数据处理

【在 f***t 的大作中提到】

: 嗯，我正在按pvq的方法做ing。
: 目前取样已经达到37组流速了。人工读流速计，比较苦逼:(

r*s2017-10-01 07:10

18 楼

有道理，得搞清楚空间和时间的区别

【在 H********g 的大作中提到】

f*t2017-10-01 07:10

19 楼

你很敏锐！说到了这个工艺流程的关键点了。那么大的一个流程系统，为什么单单取这
六个位置测流速，很大的一个原因就是因为这六个位置上的流速关系我们不知道。我们
目前只能肯定这六个位置的流速是有关联的，仅此而已，其他的一概不知。
在实验上的做法就是，对于全部六个位置，尽可能多地测量在不同时间点上的流速，然
后数值拟合找出关系。
现在的问题是，尽可能多地测量不同时间点上的流速，一是需要时间，二是cost越来越
高，所以就想试试modeling能否通过已经测得的数据，给出尽量可靠的未来时间的流速。
我说清楚了吗？

dependency

【在 p*q 的大作中提到】

: 嗯，你表达的很清楚了...
: 你说的这一点, 对我有点困扰...
: "[2]，虽然六个取样点的位置不同，但是在每个时间点上的六个节点流速应该是有关联
: 的，因为是在同一个流速场中取样。"
: 主要是我不知道这六个点是怎样的dependency -- 当然, 我们需要量化这个dependency
: ，如果不量化的话, 实际上是在隐含的假设我们的量化系数是0，也就是我最之前做的
: 完全独立的假设, 对六个观测点单独的独立的建立神经网络...
: 但是很显然，肉眼的观测至少可以大概知道每个点的观测数据的变化方向大概是一致
: 的, 而且在相同时间区间的变化率的数值有点类似...我个人觉得, 这个可以用来继续
: 优化模型(从精确度的方面优化)....

p*q2017-10-01 07:10

20 楼

原来这样，现在对你们的系统更清楚一些了...
我刚才去把现有的6组数据(每组10个点)画了一下...估计你早就已经画过了....我贴一
下这样参与讨论的人都可以看到...
我把数值放大了100倍...
可以看到第一个观测点和第二个观测点的图形非常像...估计这两个观测点比较近, 而
且这两个观测点的流体的系统结构非常类似...
第四个点和一二两个点也非常类似...估计离它们稍微远点, 但是相对于其它的点还是
要更近些...
第六个点和第三个点的图比较类似, 估计流体的系统结构非常类似...
不过至少很明显, 各个观测点的相关性很不同...
相关性强的点可以放在一块儿做regression来做些未来值得预测....这样可以提高互相
的精确度...或者再做一些mining看看类似的点到底有什么关系....类似的点的
dependency要相对更容易发现一些(mutual entropy比较高 )...

速。

【在 f***t 的大作中提到】

: 你很敏锐！说到了这个工艺流程的关键点了。那么大的一个流程系统，为什么单单取这
: 六个位置测流速，很大的一个原因就是因为这六个位置上的流速关系我们不知道。我们
: 目前只能肯定这六个位置的流速是有关联的，仅此而已，其他的一概不知。
: 在实验上的做法就是，对于全部六个位置，尽可能多地测量在不同时间点上的流速，然
: 后数值拟合找出关系。
: 现在的问题是，尽可能多地测量不同时间点上的流速，一是需要时间，二是cost越来越
: 高，所以就想试试modeling能否通过已经测得的数据，给出尽量可靠的未来时间的流速。
: 我说清楚了吗？
:
: dependency

F*y2017-10-01 07:10

21 楼

几点建议：
[1] 如果每个点在不同时间采集的数据互相关，可以考虑其它复杂的Time Series
Models，比如AR（Ｎ），ARCH and GARCH， Box-Jenkins (ARIMA or SARIMA )，等等。
[2] 个人以为各个点之间的相关性不重要，除非这个相关性不固定，会不停变化。那就
是random walk,可以尝试蒙特卡洛离散优化法和各种布朗运动有关的模型。
[3] 严谨的讲，任何仿真结果，要让人信服，Warm up阶段需要至少几千个数据，你手
工要采集几年？

【在 f***t 的大作中提到】