译作|老师柯尔莫戈洛夫的生平和工作(下)
1940年代,湍流、2/3律、关联函数、标度律
1930年代末和1940年代初,柯尔莫哥洛夫的工作以平稳随机过程理论和各向同性湍流理论为标志,它们孕育的概念、深刻思想和应用前景是非凡的。
柯尔莫哥洛夫在[PS]473页中指出,他“对平稳随机过程的谱理论感兴趣”,源于辛钦和Slutskii 1930年代初的相关研究。柯尔莫哥洛夫的报告“具有连续谱振荡的统计理论”,在1947年苏联科学院大会上给出[K141],[PS-34],他在其中强调了Stieltjes积分对平稳振荡过程(包括准周期振荡以及具有连续谱的振荡)的一般表示的深刻意义。
1940年的工作,“Kurven im Hilbertschen Raum, die gegeniiber einer einparametrigen Gruppe von Bewegungen invariant sind” [K110],[MM-42]以及“维纳螺旋和希尔伯特空间中的其他有趣曲线” [K111],[MM -43],讨论了随机过程
从协方差函数结构来看,它们具有平稳的增量和平稳的各种子类(包括广义上的平稳过程,维纳过程等):
([K110],[MM-42]中的定理2) ; 也讨论了过程
的谱表示的可能性,柯尔莫哥洛夫给出其表达式(参见[K110],[MM-42]中的定理3):
如果过程
本身是平稳的,也具有平稳的增量,则
且该过程的谱表示可从 (30) 式导出:
该Stieltjes积分相对一随机测度 而言 满足正交条件:
。
Cramér(1942)和 Maruyama(1949)随后也独立得到了这一结果。另可参见 Loéve [116]。
论文[K111],[MM-43]与[K110],[MM-42]相邻,讨论了具平稳独立增量的随机过程
的某些特殊情况。实际上,柯尔莫戈洛夫认为过程 ξ 具自相似性,这意味着对 k
≠ 0 ,都存在相似变换Ak ,对于任意 t 有
从而,该随机过程的“结构”函数 可以表示为
其中 和 是实常数,满足不等式 。[现在,协方差函数形如(32)式且均值为0的高斯过程,称为 阶的分数布朗运动。]
值得注意的是,近年来出现了许多应用到其他领域例如统计物理的论文(见西奈[181]、Taqqu和列维[192]),也在研究具自相似的随机过程(关于自相似的背景知识可参见Vervaat [198])。
接着这些关于平稳增量随机过程的论文随后,是柯尔莫戈洛夫关于平稳(广义上)随机过程的经典著作,其中(如[K110,K111]),他广泛采用了希尔伯特空间技术,这在他1941年的著作标题中有所反映, “希尔伯特空间中的平稳序列” [K116],[PS-27]。其中,他引入了新的概念(一个平稳序列对另一个的从属性(subordination),正则性(regularity),奇异性(singularity)和最小性(minimality)),这引发了对连续时间向量随机过程的大量后续研究(见[161,162])。
平稳序列 从属于 (subordination) 另一个平稳序列 意味着它们是平稳关联的,并且由元素 生成的封闭线性子空间 也包含所有 该结果一个令人惊讶的意味是,从属性可能能单靠谱来表达。即, 从属于 ,当且仅当存在函数 使得谱函数 和 的协方差表示
满足
其中
。序列 的奇异性 (或说确定性(determinacy)) 指的是,空间 与 相重合,其中 是由随机变量柯尔莫哥洛夫证明:
序列 是极小的,当且仅当存在谱密度 ,其在勒贝格测度上几乎处处大 于0,并且
若满足这些条件,则
紧接着这项工作,是与之密接相关的“平稳随机序列的内插和外推(Interpolation and extrapolation of stationary random sequences)” [K117] [PS-28],他在论文的前言写到,该工作“给出了在任意精度上,平稳随机序列外推的谱条件,只要具有足够多的观察结果。”
在这项工作中,作者给出了关于外推和内插问题的误差值的第一个结果,并提供了此类问题的精确形式。
柯尔莫戈洛夫的这些结果和维纳 [210]的工作(另见Doob [43],第十二章)创建了一个全新的随机过程分支,并在各种科学和技术领域中得到了广泛应用。
用 逼近 最小可能误差,柯尔莫戈洛夫记为 然后,通过 ,作者得到了用谱项表达的 的显式。他也证明了,若 ,则对所有 , 趋于0。对正则序列 ( regular sequences),当 有限,柯尔莫哥洛夫给出了 的表达式 ( [K117], [PS-28])定理2)。
在内插问题中,柯尔莫哥洛夫引入了值
来衡量
内插 的最小可能误差。记 ,作者发现,若积分 ,则 ;若 ,则 定理 3
对柯尔莫哥洛夫在1947年苏联科学院大会的报告[K141] [PS-34],AM Yaglom(请参阅其评论[PS],第491-496页)评价道:“它是平稳随机过程谱理论的首次广为传播的综述,作为随机函数理论的最重要分支之一,直到最近才被发展起来(由柯尔莫哥洛夫本人积极参与),在少数专家范围之外鲜有人熟悉。” (在Yaglom的这篇评论中,读者能找到与平稳过程谱理论有关的详细历史和参考文献;另请参见[161、162、212、43、35]。)
1940年代初期,柯尔莫戈洛夫的工作在湍流理论中的重要性,是难以高估的,它推动了湍流局部结构这一概念及其理论和应用的进一步发展。
柯尔莫哥洛夫回首他在湍流方面的工作([MM],第421页)时说:
“我从1930年代后期开始对液体、气体的湍流过程感兴趣。我立即意识到,新发展的多变量随机函数(随机场)理论将成为湍流研究的主要数学工具。此外,很快我就清楚认识到:人们难以发展一种自洽的纯理论框架,这意味着我们需要依赖从实验数据中得出假设。招到能在这样一个理论与实验相结合的交叉领域工作、有才华的学生也很重要。
“我为后者感到幸运:从萨拉托夫大学来莫斯科大学读研的A. M. Obukhov,在我的指导下,写了他的毕业(1939)和博士论文。几乎同时,M. D. Millionshchikov成为我在莫斯科航空学院的研究生。后来A. S. Monin和Yaglom也成为我的研究生。
由于湍流中速度 和压力 的混沌脉动以及其他流体力学特征的存在,使得对湍流单个侧面进行研究几乎是不可能的。这启发了理论创建者雷诺尝试流体的统计描述,他甚至在19世纪末就意识到了这一点。但是,他建议在给定的空间或时间间隔内作平均相当不便,因为难以获得用于平均场的足够简单可靠的公式。
柯尔莫哥洛夫在概率意义上取平均值,即取系综平均。因此,他建议将流体力学特征量的场视为空间和时间坐标的随机函数,这已为当今普遍接受。
柯尔莫哥洛夫对物理学的深刻直觉帮助他区分了哪些定性和定量规律确定了足够大雷诺数的湍流中小尺度脉动(pulsation)的随机性本质(基于作者提出的两个相似性假设):这些在他1940年的著名论文中得到了清晰阐述,“The local structure of turbulence in incompressible viscous liquid for very large Reynolds’ numbers”,([K119],[MM-45])。
作者引入的假设使人们能够得出重要的定量关系,首要的是著名的“三分之二律”:在流体中相距 处 ( 不太大或过小)的两个点的速度差的平方的平均值(均值),正与 成比。
柯尔莫哥洛夫引入的速度场的纵向和横向结构函数 和 已得到大量实验的证实,“三分之二律" 以及公式 在相当大的 值范围内得到了验证。(更多详细资料,请参见[K119],[MM-45];[MM],第421-433页。)
柯尔莫哥洛夫在湍流上的工作[K119],[MM-45]和[K121],[MM-46],在他1961年马赛国际湍流力学学术讨论会的报告中[K306],[MM-58] ],以及在[K307]中(与AM Obukhov [141]的论文相邻)得到了进一步发展。柯尔莫哥洛夫建议用两个更细致的假设来代替他之前([K119])的两个相似假设,即,使用归一化的速度差;并提出第三个假设来补充:能量耗散 (在半径 的球面上平均而得) 概率分布的 对数正态性 (logarithmic normality) 以及 与 之偏差的的线性性,其中 是所考虑的流长度的特征尺度(characteristic scale)。
这三个假设导致对“三分之二律”的改进 ,其中已考虑到了朗道在评论柯尔莫哥洛夫论文[K119]中提出的观点,即不能忽略随 的增长而引起的能量耗散变化。(更多详细信息,请参见[MM]第349和428页。)
总结柯尔莫哥洛夫对湍流理论的贡献,可以引用A. M. Obukhov [142]的文章“柯尔莫哥洛夫流及其实验模拟”的最后几行:
”柯尔莫哥洛夫对湍流研究的独到贡献以及他在动力学系统一般理论有关的思想,是研究自然界中最复杂的现象——与各领域知识相关的——湍流的根本参考。“
译者注:
1 柯尔莫哥洛夫1941年提出2/3律的论文,史称”K41“,1990s,法国科学院院士、数学物理学家Uriel Frisch专门写了一本专著来讲解这篇论文,Turbulence: the legacy of AN Kolmogorov,引用达到了惊人的8000+。这本书中,作者论证了为什么自然界青睐柯大师的2/3律:尺度不变性。我们这部分译文并不详细。在这本书第6章,Frisch讨论了导出2/3律等依据的假设。,也强调了柯大师从Stokes-Navier方程导出的4-5律的极端重要性(本译文并没有强调:毕竟对工作的评价因评论者、因时间而变)。
2 网上可以搜到潘玉林博士的一篇文章《流体力学风云录-东邪柯尔莫哥洛夫》,非常有意思。其中,潘老师提到:“2/3 这个数字被无数实验所证实。其中最惊人的当属Carl Gibson教授1991年所测得的星系湍流,其结构函数在近十个数量级的尺度范围内与湍流标度律相符。柯老邪一念之力,竟至于斯。”
3 潘老师提到的另一件趣事:梵高的旷世名作“星夜(The Starry Night)”。画中的光影星云结构被认为是湍流涡结构很好的诠释。新近的研究表明:如果将画中每一像素点的亮度看作是湍流场中速度大小的话,由此画所计算出的结构函数与柯老邪的 2/3 律有着近乎完美的相符。
四十年代(1940-1949)之二:苏联卫国战争中的火炮射击理论、无偏估计、分支过程、编纂苏联大百科全书
火炮射击理论(Kolmogorov-Wiener filter)
无论是作为全能数学家还是作为应用研究人员,柯尔莫哥洛夫都思维敏捷。他拥有迅速深入特定问题实质的非凡才能,选择其根本和最重要方面,并澄清有争议之处。
柯尔莫哥洛夫的火炮射击理论工作生动地说明了这一点,这部分的历史可以追溯到伟大卫国战争时期(1941-1945),柯尔莫哥洛夫的论文"The determination of the center of dispersion and the measure of accuracy resulting from a limited number of observations“[K126](1942年9月15日付印)。作者在战时承担研究“如何根据实验数据估算火炮射击的精度问题”。柯尔莫戈洛夫谦虚地指出,该文仅具有某种方法论价值,并对不同方法进行了批判性比较。
与苏联科学院斯捷克洛夫研究所,莫斯科大学数力系,火炮部队,海洋科学研究所等部门合作,柯尔莫戈洛夫对火力系统的效率进行了深刻的理论与计算研究。人们可以从柯尔莫戈洛夫的两篇论文中窥到这些研究的本质:“Number of hits in several shots and the general principles of estimating the efficiency of firing systems” [K129]和“The artificial dispersion of single-shot hitting and 1D dispersion” [K130]。
论文[K129]考虑一组n次射击的命中数 。柯尔莫哥洛夫记 ,期望值 ,并定义了“射击系统效率特征”(efficiency characteristics of the firing system)。作者指出,“根据期望和概率进行估算”的相对优劣势,通常的论证往往不够清晰。他还提出了一个问题:可以表征火力射击系统效率的击中次数概率分布 ,其是否可以“置信地由单个值 代替, 可 以称为效率特征。
在对主题进行分析([K129]第1段)之后,柯尔莫戈洛夫导出了概率 的系列表达式,并提供了方便实用的近似值及准确度表。
该论文研究的另一问题是通过对影响射击结果的因子进行分类,来最优化火力系统,并解决“人为偏差”(artificial dispersion)问题。
记第 次射击击中方位角 目标 的概率为 。令 为极大化 的组合 (通常是唯一的),
令
问题是通过最大化每次射击的命中概率,是否可以保证系统的总体最大射击效率,即 。
文章说,在两种特殊情况:
并且事件 (在第 次射击中击中目标) 是独立的,则 成立。因此,在这两种特殊情况下,最优火力射击系统即等价于最大化单次射击的命中率。
但是,一般而言,这对于其他 情形是不正确的。因此,“为了达到最大的整体射击效率,应故意不时偏离单次射击的最大概率。”这是通过“人为偏差”进行的,在以下典型情况下将被证明是有用的:
“最重要的是,要命中一小部分,其数目远少于总射击数 。”
在第二篇论文[K130]中,柯尔莫哥洛夫考虑了“有人为偏差的情况,且射击和一维偏差满足给定限制,例如,在垂直于火力面的狭长地带(例如桥上)射击。“
1949年,柯尔莫戈洛夫撰写了一篇地质学论文,“与地层形成问题有关的概率问题的解”(The solution of a probability problem related to the question of the formation of strata) [K154],[PS-37]。A. B. Vistelius在评论中说([PS],第527-531页):
“当时,地质科学界几乎没有人懂诸如随机变量,概率分布函数和随机变量序列之类的概念。引入随机方法是构建地质科学基础的第一步。这篇奠基性文章和柯尔莫哥洛夫在1945~1950年期间的个人建议和评论,极大地刺激了该领域的基本构建,又孕育了随后兴起的数学地质学。”
数理统计方面
1946年,Cramér出版了《统计的数学方法》(Mathematical Methods of Statistics)一书[34]。作为数学和统计学教育的大师,以及苏联统计研究发展的热心参与者,柯尔莫哥洛夫为该书的俄语版撰写了详尽的介绍,并亲自进行了编辑[K149]。他介绍说:
“现有的数理统计课程是在理论基础上建立的,这已完全不能满足现代要求”,“对数理统计的特定问题的研究已经超出了数学和概率先决条件的旧有水平”,因此,Cramér这本书“试图从一个相对新颖的观点,系统地介绍数学统计学的基本问题。”
为了激励苏联的统计学研究,柯尔莫哥洛夫在1948年塔什干举行的第二届全苏数理统计大会上发表了报告:“理论统计的基本问题”(Basic problems of theoretical statistics) [K156]和“方差分析的实际意义”(The real meaning of the analysis of variance) [K157]。
1950年3月,柯尔莫哥洛夫完成了一项基本工作:“无偏估计” (Unbiased estimates)[K164],[PS-38]。其中,他使用充分统计量的手段,系统地分析了无偏估计的性质及其不同构建方法,并描述了在统计控制和大规模工业质量控制问题中无偏估计的重要用途。
柯尔莫哥洛夫的论文“Unbiased estimates”和随后的“Statistical quality control with the allowed number of defective items equal to zero” [K189]开启了采样方法广泛的理论和实践的概率研究(请参阅[PS]第522-523页,Belyaev和Lumelskii的评论)。
分支随机过程
柯尔莫哥洛夫是分支过程现代理论的奠基人之一。(这一概念是1946-1947年柯尔莫哥洛夫在一次大学研讨会上提出的。)
尽管Fisher [56],Steffenson [186],Leontovich [105]和柯尔莫哥洛夫本人[K101],[PS-25]已经考虑了一些与分支过程的简单模型有关的特定问题,但是,作为独立的概率新领域,分支随机过程理论的蓬勃发展,肇始于柯尔莫哥洛夫的论文“Branching random processes”(与NA Dmitriev合作)[K139],[PS-32],和“The computation of the final probabilities for branching random processes”(与B.A. Sevast'yanov合作)[K140],[PS-33]。
战后西方关于分支过程的第一本出版物似乎是Harris(1948)[75]。有关历史背景,请参阅Kendall [90, 91](需说明,Hawkins和Ulam于1944年发表了相关论文,由于洛斯阿拉莫斯国家实验室要求的安全问题而未发表,而Harris在普林斯顿的博士论文1947年发表。)
论文[K139]和[K140]考虑了离散和连续时间下,多种粒子类型的马尔可夫分支的模式(pattern)。然后,研究考虑了更复杂的模式,即复制(reproduction)对粒子寿命,位置,能量等的依赖性。Sévast’yanov 在[PS]中(485-486页)的评论,以及论文[12,76,170],除了提供当时分支过程的最新进展外, 还 包含了涉及将随机过程分支理论应用于生物学,化学,物理,技术等领域的丰富材料。
名著《独立随机变量和的极限分布》
Gnedenko和柯尔莫哥洛夫所著的《独立随机变量和的极限分布》(1949年)[K151](英文版 Limit Distributions for Sums of Independent Random Variables于1954年出现),极大的刺激了概率论的发展,该书专门研究极限定理,核心是无限可分的稳定定律。Gnedenko和柯尔莫哥洛夫在这本书的导言中描述了启发他们推导极限定理的问题:
如果 是独立同分布随机变量序列, , 一 个般问题是,对选定的常数 和 ,下式
在什么什么条件下成立,以及极限分布是什么形式。
辛钦解决了这个问题,他证明了可能的 是所谓的“稳定”分布,并且,正如书中[K151]所说:“它们能发挥重要作用的实际问题的范围应该会越来越广泛”。随后的发展证实了作者们的判断。
对无限可分分布问题,书中特别强调了随机变量序列 ,行间独立的情形的重要性。
因为此情形可能“本身包含所有有实际意义的关于独立项之和的极限定理,其与一般情形根本不同。”
针对上面提到的问题,Gnedenko和柯尔莫哥洛夫讨论了仅有如下微弱假设的序列:
, as ,其中 是常数。基于此假设,作者们完全解决了上述的极限问题,这已成了一代代概率学家的标准学习内容。
在第8章,Gnedenko和柯尔莫哥洛夫考虑了
v
收敛到 的收敛速度。他们写道,正是切比雪夫(相当早地)强调了 渐 渐进展开的重要性,并给出了含有 渐进展开项的中心极限定理(虽然并没有给出证明)。
因《独立随机变量和的极限分布》一书, Gnedenko和柯尔莫哥洛夫被授予苏联科学院切比雪夫奖(1951年12月14日)。
编纂苏联大百科全书
在1940年代后期,柯尔莫戈洛夫开始了他在《苏联大百科全书》(第二版)的重要工作:担任数学部分的负责人。他编写词表,选择词条作者,编辑文章,还亲自在数学的广泛分支中做出贡献。从1949年到1958年,他撰写了93篇文章(1949-6、1950-20、1951-7、1952-27、1953-14、1954-9、1955-5、1956-2和1958-3)。在柯尔莫哥洛夫对百科全书的贡献中,必须特别指出他的著名文章“数学”(《苏联大百科全书》第二版,26卷,第464-483页,1954年[K247]),其中“他简要概述了数学的历史,指出其发展的里程碑,并提出了一种巧妙的数学史发展划分方案” [21]。
1941年,柯尔莫哥洛夫和辛钦被授予斯大林奖。
1945年,柯尔莫哥洛夫获得了“伟大卫国战争劳动英勇奖章”,并在1944年和1945年获得了列宁勋章。
列宁勋章
1942年秋天,柯尔莫哥洛夫与安娜·德米特列夫娜·叶戈罗娃(Anna Dmitrievna Egorova)结婚,安娜从小学时代(译者注:该系列译文(1)中提到的Repman文法预科学校)就是他的朋友。
柯尔莫哥洛夫夫妇
1950年代之动力系统,三体问题与KAM理论,信息论数学基础,熵
哈密顿系统的一般理论。
信息论。
动力系统的遍历理论。
熵。
函数叠加和希尔伯特第13问题...
这些是1950年代柯尔莫哥洛夫从事研究的数学分支,他的工作引起了整个领域和学派的兴起。
柯尔莫哥洛夫在动力系统理论中的工作包括两个阶段:第一个阶段重心是经典力学领域直接引发的问题([K227,K242,K243]或[MM]中的51、52和53),而第二个阶段是信息论。
KAM
柯尔莫哥洛夫在评论他的经典力学工作时说([MM],第433页):
“我在经典力学中的工作最初受到冯·诺伊曼关于动力系统谱理论工作(例如[204])的启发,最重要的是受到克雷洛夫(Krylov)和博格留博夫(Bogolyubov)(1937)的相关工作的影响[102] 。
“然后,我被这个问题深深吸引:在经典力学的动力学系统中,哪些遍历集(在Krylov和Bogolyubov的意义上),以及它们的哪些类型可以填充正测度集(这个问题尚未被解决)?我专门开了一个讨论班,致力于一些具体实例研究,以积累有关该主题的直觉信息。我在这些及邻近领域的想法得到了莫斯科年轻数学家们的广泛响应。”
在1954年于阿姆斯特丹举行的国际数学大会的闭幕会上,柯尔莫哥洛夫作了报告,“动力系统和经典力学的一般理论 (The general theory of dynamical systems and classical mechanics)” [K243],[MM-53],其中提到了“动力学的基本问题”(用庞加莱的话),即研究在哈密顿量小的扰动下哈密顿量系统的准周期运动。[哈密顿量W(p)的变化的“微小”指的是,哈密顿量变为 ,其中 为小的参量。]
柯尔莫哥洛夫的惊人理论结果表明,对于一般情形和大多数初始条件,准周期运动将得以保持。
柯尔莫哥洛夫的定理及其后续发展为许多悬而未解的问题提供了解决思路。例如,它暗示了不对称刚体绕定点快速旋转的稳定性,蕴含了三体问题中质量极小天体运动的稳定性,蕴含着在环形系统中磁场变化很小的情况下大多数磁性表面的稳定性。
在谈到他的方法时,柯尔莫哥洛夫解释说(见他的报告[K243],[MM-53]),该证明是基于“在轨道扰动计算中避免异常“小分母”可能性的想法,这在天体力学领域引起了广泛讨论。” (例如,参见西格尔(Siegel)和莫泽(Moser) [178]。)
我们熟悉以下"小分母"的例子: ,其中 , 是木星和土星的转动频率。这些"小分母"会导致行星运动中大的互相扰动,因为表达式 在如下级数中以分母的形式出现
柯尔莫哥洛夫规避这些“小分母”的方法,后来由他的学生阿诺尔德,以及Moser(译者注:西格尔的学生)进行了改进,它现在被称为KAM(Kolmogorov-Arnol'd-Moser)理论。(请参阅阿诺尔德 [MM,第433-444页]和 Abraham 和 Marsden [1]中的详细信息和参考文献。)
信息论数学基础,熵
在他关于动力系统理论工作的第二个阶段,柯尔莫哥洛夫应用信息论的思想来研究这些系统的遍历特性。
在1950年代初期,香农的工作激发了柯尔莫哥洛夫直接解决信息论理论问题的方法。柯尔莫哥洛夫对香农的工作评价道([K316]):
“香农对纯数学的贡献并没有立即得到认可。我现在可以回想起,即使在1954年阿姆斯特丹国际数学大会时,我在美国的概率论同行对我所表现的对香农工作的强烈兴趣似乎也很怀疑,因为他们认为这仅是技术本身,而非数学。如今,这种错误的观点已无需批评。
……
“虽然香农没有为复杂情形提供严格的数学依据,而是将其全部留给了他的追随者,但他的数学直觉是非常准确的。”
因此,信息理论显然需要数学基础。辛钦 [97,98]朝此方向迈出了第一步,他证明了离散情形的信息论基本定理;随后柯尔莫哥洛夫和他的学生盖尔范德、Yaglom(请参阅“关于信息量的一般定义 (On a general definition of the amount of information) ” [K267],[[A-2]和“连续分布的信息量和熵(The amount of information and entropy for continuous distributions)“[K276],[[A-4])对一般情形,给出了高斯假设下信息量的一般性质,并证明了以给定精度传输消息的编码定理。
1956年,柯尔莫哥洛夫向致力于工业自动化科学问题的苏联科学院部门报告了他的“信息传输理论(The theory of transmission of information)” [K272],[A-3]。该报告包含了信息论的基本概念,并阐明了其适用范围。
所有这些工作“树立了遵循严格的数学标准来展示信息论结果的传统,这是由两类研究人员(数学家和工程师)细心留意到的。”
基于对香农信息论思想的独到理解,柯尔莫哥洛夫将之与他的近似理论和算法理论相结合——这些工作可以追溯到1930年代。现在让我们进一步讨论。
香农用"熵" 来度量离散消息 (假定取离散值 的概率为 ) 的不确定性:
香农也定义了事件对象 相对 的 (互) 信息 ,在离散随件变量的情况下,其为
这里 .
当存在联合概率 和边缘概率 和 时,互信息表达式为
在连续消息的情况下,所有对香农熵自然类比的相似表达都将导致无穷大的值。于此,辛钦 [97,98]反复强调,对于任意消息,基本概念是一个对象 相对 的互信息 ,而不是熵。
互信息的图示(图片原作者见图左下角)
信息论与各领域的交叉(图片来自教科书Elements of information theory.)
从这个想法开始,柯尔莫哥洛夫将随机对象 的 樀 定义为
在满足以下条件的所有对随机变量 上取最小值 (在 的固定分布 下),这些变量满足其联合分布 属于给定类 的限制,具体取决于参数 (例如,
香农最初将量 看作“消息产生率(rate of message generation)”。柯尔莫哥洛夫在[K273],[I [A-3]中写道:
“尽管选择新名称不会改变问题的本质,我还是冒险这样去做了,因为它 ( 熵)强调了自身的普适性以及它与通常的熵概念的更深层次的相似性。我尤其注意到大家对 时,熵的渐近行为的研究兴趣。先前研究的仅是可能规律的极特殊情形。因而,我的论文[K266]尽管使用了不同的术语,但可能能为未来的研究提供启发。”
论文[K266]是1956年发表的“关于完全有界度量空间的某些渐近特征(On certain asymptotic characteristics of totally bounded metric spaces)”。在这篇论文中,柯尔莫哥洛夫引入了非随机对象 (度量空间 中的一个集合) 的 熵 概念,定义为可以覆盖 、直径不大于 的集合的最小数目 的二进制对数。
除了随后被称为绝对熵的 熵 ,柯尔莫哥洛夫还引入了相对 熵 ,并将其定 义为从 到集合 的 网 ( -net) 中最小元素的 的二进制对数。
与他在1936年提出的“ 柯尔莫哥洛夫直径”[K62]构造方式相同。例如,直径
的反函数的二进制对数与 相同 (表达式中, 是N-点近似集合的合集)。
就像几乎所有柯尔莫哥洛夫提出的概念,估计函数类和函数空间的“度量质量”的“熵”,为近似理论的全新研究奠定了基础。(请参见Tikhomirov [IA]的评论,262-269页。)
动力系统的Kolmogorov-Sinai熵
1958年,柯尔莫哥洛夫发表了论文“传递动力系统的新度量不变量和勒贝格空间的自同构(A new metric invariant of transitive dynamical systems and automorphisms of Lebesgue spaces)” [K280],[IA-5]。(随后在[K468]中发表了稍作修订的版本)在这项工作中,信息论的思想使柯尔莫哥洛夫引入了动力系统理论的熵特征(这是上面提到的“第二个阶段”)。
这篇文章将动力系统理解为概率空间 的保测度变换的单参群 。与平稳随机过程理论一样,柯尔莫哥洛夫引入了准周期动力学系统的概念,现在称为-系统。几年后,这一概念对遍历理论的意义被揭示:西奈(Sinai,柯尔莫哥洛夫的学生)证明了许多与概率论毫无共性的经典动力系统是-系统。
对于准周期动力学系统,柯尔莫哥洛夫在[K280],[IA-5]中引入熵的概念。([K468]中给出了相应定义的稍加修改和细化的版本。)不久之后,西奈提出了适用于任意动力系统的熵的定义(更多详细信息,请参见西奈在[IA]的第275-279页中的评论)。
在离散时间 的情况下,“ Kolmogorov-Sinai熵”的定义如下。
令 是 的有限划分,即,
。基于此划分,可定义熵
记
则动力系统 的Kolmogorov-Sinai熵为
动力系统的熵在遍历理论中起着核心作用,首要的是在解决动力系统的度量分类问题时,即描述不变量完备集的问题,这暗示了动力学系统的度量同构。
应当指出,度量不变量的第一个例子是动态系统的谱。
对具有纯点谱的遍历动力系统,该谱给出了完备的度量不变集(von Neumann [204]以及Halmos和von Neumann [74])。但是,对于具有连续谱的动力系统,尤其是它们最重要的子类,即具有多个勒贝格谱的系统(例如,对于伯努利自同构),我们将看到在柯尔莫哥洛夫的工作之前,无法对其度量进行分类。
在动力学系统的度量同构下,动力学系统的熵被证明是一个全新的不变量,它与系统的谱无关,因为熵可以假设具有可数勒贝格谱的系统类别中的任何可允许值。因此,新的不变量允许将具有可数勒贝格谱的动力系统分解为不变量子类的连续统,这些子类具有不同的熵值,因此在度量上是非同构的。
所有-系统(从随机过程理论的角度来看,它们对应于在大时间间隔上,值之间的依赖性非常弱的过程)具有可数的勒贝格谱和正熵。除了熵以外,在没有其他度量不变量来区分-系统的情况下,自然要问具有相等熵的-系统是否是度量同构的。
伯努利自同构的第一个非平凡同构例子由柯尔莫哥洛夫的学生L. D. Meshalkin提出。西奈证明具有相等熵的伯努利自同构是弱同构的,即,可以基于彼此构造出来。美国数学家Ornstein [143]完全解决了同构问题,他证明具有相等熵的伯努利自同构是度量同构的。但是,最近发现,在所有 -系统的类中,熵不足以提供完备的度量不变量。(D. Ornstein和P. Shields证明,具有相等熵的-系统的非同构类型是不可数的。)有关更多信息,请参见西奈对柯尔莫哥洛夫在遍历理论中的工作的评论([IA],第275- 279)和[100,101,124,145]。其中可以看到,由柯尔莫哥洛夫提出的动力系统的熵理论现已经成为遍历理论的重要分支。
译者注:
1 关于KAM,这么庞大的理论,本译文只是粗线条勾勒了几笔。有一本科普书,叫《KAM的故事:经典Kolmogorov-Arnold-Moser理论的历史之旅》,网上也有英文电子版。
计划后续也继续写几篇这方面的文章或译作。
2 关于柯尔莫哥洛夫在1954年数学大会上给了结论,却没有给证明,康纳尔的J H Hubbard教授写过:”
I first heard about the KAM theorem when I was an undergraduate, around 1966. It seemed to me the most beautiful result in the world, but for many years my interests were engaged elsewhere. Around 1980, I came back to dynamical systems, and I quickly realized that the KAM theorem is indispensable.
Each year, for about 15 years, I said to myself in September: this is the year that I am going to understand the proof. Each year, as March came around, I had to admit failure once again: I no longer knew the order of the quantifiers in the technical lemmas, and so was unable to apply them.
During these years, I tackled all the proofs that I knew... I did not succeed in mastering a single one. And I am far from being alone: I know numerous dynamicists who realize that they ought be able to prove the theorem, who even teach it sometimes, but who have never mastered the proof either.
After being pointed in the right direction by Pierre Lochak, I finally discovered the article of Bennettin, Galgani, Giorgilli and Strelcyn ... With the help of Yulij Ilyashenko, I discovered several improvements…… Ilyashenko gave an exposition of it at the Moscow mathematics seminar in 2002; in the audience were some participants from Kolmogorov’s seminar in 1957(好像观众席里就包括西奈院士); they told him that this proof was in fact the original proof. “
柯尔莫哥洛夫的学生阿诺尔德院士(KAM中的”A“)也是持一样的观点:KAM定理应该就叫做Kolmogorov定理。
3 关于信息论的诞生历史,中科院王飞跃老师的一篇文章《维纳:控制论之父鲜为人知的悲惨遭遇》,其中强调了维纳对信息论的巨大贡献,文中写道:“
二战期间,他像帮助自己学生一样,毫无保留地帮助已经毕业但不断来MIT找他解疑的香农,特别是关于熵的研究。但最后,维纳却拒绝再见香农,因为觉得香农是来 “挖他脑袋” 的。
最让维纳恼火的是,他关于现代通讯与信息论最核心的研究和成果, 却被香农的上司(一位数学家)束之高阁,划为 “绝密” 材料归档,结果只有极少数人才可以看到,而且将其轻蔑称之为 “黄祸”(Yellow Perils)。更可气的是,香农与他的这位上司抢在维纳之前发表了著名的《通讯的数学原理》,成为现代通讯和信息论的奠基之作;而维纳因为保密的原因,迟迟无法发表自己的成果。这就是为什么至今还有些人为他愤愤不平,认为维纳才是信息论的真正之父,比如香农的熵只是把维纳的熵改了正负号重新解释但等于没改,而香农主要是靠重新解释和转述他人的成果而出名,从布尔的代数干到维纳的信息论。
香农也承认,自己通讯理论的 “新数学理论的一些中心观点要归功于维纳”,而且 “明确地说,通信理论很大程度上要归功于维纳的基本哲学和理论。”
香农晚年也否认“信息理论” 这个词是他创造的,他的夫人进一步解释道:“这件事” 让香农 “烦恼过好几次,但到那时,他也无法控制了。” 相当程度上,维纳就是为此而发明 “控制论” 一词,试图挽回局面,而且里面除了通信、信息、还加了智能,但就是少了控制。
……”
作者介绍:宋维凯,量子耗散动力学方向博士,当前为腾讯的高级算法工程师。原文已获作者授权,更多内容请查看原文链接。
编辑:张露、李雅祺
---END---
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
微信扫码关注该文公众号作者