统计科学数智化,数智科学统计学
本文转自《统计学报》2023年第1期 《统计科学的发展研究》,原文已获出版社和作者授权。
作者简介:赵彦云(1957-),男,天津武清人,中国人民大学统计学院教授,博士生导师,研究方向是经济统计和分析、国民经济核算、国际竞争力与创新指数、互联网统计。
摘要: 数智化(DT)使能技术与统计学融合科学发展是互联网技术革命深入发展的核心问题之一。DT for Statistics释义数智化的统计科学原理和统计学数智化发展。本文的科学逻辑是“DT for Statistics” for Science,也就是统计学遵循科学思维逻辑及规则,以及DT使能技术的统计学关联科学作用。DT内生改变了什么?统计学为DT内生贡献了什么?DT使统计学改变了什么?统计学在DT使能技术下发展什么新科学理论方法?DT与统计学的融合发展增强了统计学应用解决全局性、系统网络赋能性现代化发展问题的能力。本文从中切分了统计学发展的关键重点,做出一系列典型性例证研究,包括:以一般均衡理论为核心的经济学到DT使能技术融入统计科学的全局性统计理论方法,以及DT使能技术融入生产力与生产关系并直接对接自然社会生态系统的量化统计解析理论方法。并在此基础上,提出了自然力、生命力、知识力、生产力螺旋式循环发展的生态统计逻辑架构体系,论证了产品和服务统计是人类社会所有活动互联互通互动整体智能化的根基,探索了机理模型和数据模型融合计算在人文社科中应用的统计学新问题、系统医学的新统计学问题,包括天空地一体化经济社会统计理论方法以及国家统计工作与国家数据工作相分离的问题等对全局性统计学发展的重要问题研究。
一、从AI for Science到统计学的科学发展
2018年8月北京大学鄂维南院士提出AI for Science,认为这是具有强大交叉新科学范式的发展方向,张平文院士、汤超院士等都对此高度重视并以此引领其学科不断的科学发展[1]。2022年8月8日开幕的主题为“AI for Science:共创新未来”的首届科学智能峰会,汤超院士对AI for Science的内涵做了三个层次的解析。第一层是AI,即目前的机器学习理论方法及应用,成为强势的主流发展研究。汤超院士评论道,在这方面,从1到10、10到100、甚至10到1000 的例子不少,而从0到1的可能不多。第二层是利用AI来发现new science。即利用互联网技术革命的机会,发现偶尔发生的科学革命,建立新的科学范式。显然,这需要积极探索顺应数智化(DT)自然的新思想、新思维逻辑和新理论方法。第三层是Science of AI 。AI是一项强大的使能技术,但背后肯定有其自身的科学原理,也就是说,会有相应的Science。汤超院士认为计算机科学家、数学家、物理学家已经在这方面做了不少工作。
数学与物理学的互动协同发展创造了两个学科的巨大融合拓展空间,数学物理和统计物理学作为理论物理的重要分支发挥了重要作用。鄂维南、汤超、张平文三位院士关于AI for Science的发展研究,都是建立在数学、应用数学解决物理学与工程问题基础上的新科学研究,包括机器学习的算法发展、人工智能科学问题、机理模型与数据模型融合计算,展示了科学智能的明确方向和深入发展的科学思想和科学思维逻辑。相比之下,概率论与数理统计、经济社会统计、生物医学统计都没有表现出数学与物理学和统计物理学的科学性强劲光环。从概率论与数理统计来看,可能比较强调对所有领域的随机性思维思想方法论,忽视了像统计物理学的方法论对物理学发展的深刻科学思想及理论方法发展的重要贡献,并由此推动概率论与数理统计针对应用领域的深入发展。从经济社会统计看,统计物理学从微观到宏观一体化的“其小无内”、“其大无外”的基本粒子科学基础,以及微观世界到宏观宇宙的完整系统理论方法,对物理学基本科学思想的发展产生了重要的推动作用。相比之下,统计学对经济学和社会学的推动作用可能相差较大,更为关键的是统计学对经济学和社会学的发展没有突出的内生科学思想贡献。这也让我们从字面上提问,统计物理学为什么不是物理统计学?经济统计学、社会统计学,为什么不是统计经济学和统计社会学?
统计物理学既是物理学,又是方法论。作为物理学,它的主要对象是气体、液体、固体、等离子体等“多体系统”,也涉及更复杂的化学和生物过程;作为方法论,它探讨如何从单个或少量粒子的运动规律出发,以概率统计的方法推断和说明由大量粒子组成的物体的性质。统计物理的研究对象是由大量粒子、准粒子组成,具有大量自由度的系统。各类宏观物体中的准粒子名目繁多:声子、极化子、激子、等离激元、超导金属中的电子对、液氦中的旋子……它们与作为物质结构单位的粒子有一个根本区别,就是不能离开环境独立存在。它们作为物理对象的确定性,并不亚于任何“基本”粒子(分子、原子、原子核、电子等)。“微观”和“宏观”的划分也更为相对,通常首先不是指物质结构的层次,而是用以区别物理描述的层次。描述单个或少量粒子的运动和相互作用的科学,可以统称之为“力学”。无论是描述天体运行的经典力学、反映电子运动的量子力学、表征电子与电磁场相互作用的量子电动力学,包括相对论力学,从统计物理的观点看来,都是“微观”理论。统计物理的一种基本精神:研究那些不受具体初始条件影响的普遍性质。统计物理学的任务首先在说明平衡态的性质、平衡态理论方法和非平衡态理论方法中发挥了重要作用。无论平衡态的相变,还是远离平衡的突变,有序和结构的出现,通常都伴随着对称的改变。对称变换在统计物理中,如同在理论物理的其他分支中一样,起着重要的建设作用。统计物理方法描述相变这类突变现象,运用“系综平均”方法。
比较统计物理学和数学物理,好像我们应该深入研究统计经济学,当然前者是自然科学思维,后者是社会科学思维,在基础理论可能有一般性的相同原理,也有特殊的不同思维逻辑。作为一般性原理,统计物理学的物理描述,与统计经济学的经济描述在科学原理上应该是一致的,统计物理学的物理描述追求的是对自然世界物质及其运动的量化统计解析,统计经济学的经济描述追求的是对社会关系及其变化的量化统计解析。自然与社会,物质及其运动与社会关系及其变化都有内生性质的不同,但是,二者的统计认知原理是相似的。进一步比较,统计物理学的物理描述在微观世界与宏观宇宙的统一性,对于物理学发展具有重要的推动作用,而统计经济学还没有建立。然而从经济统计学看,统计比较被动为经济学服务,虽然也在积极发展微观到宏观的统一性描述方法,但是,经济学发展并没有因此而受到更新的科学思想推动和较大发展。统计物理学对象的粒子、准粒子及微观世界、宏观宇宙和物质层次等统计问题与统计经济学对象的产品和服务生产过程、经营过程、消费、投资、进出口,以及收入分配关系等是可以对比其科学思想和原理的。统计物理学的力学、热力学、量子力学、电力学和“一生二、二生三,三生万物”的量的变化导致物质运动由简单到复杂、由低级到高级的各种形态和阶段,直至生命和意识,以及平衡态、非平衡态及耗散结构等统计物理学理论方法,对于统计经济学研究具有重要的科学意义。
物理学、数学物理、统计物理学的协同互动科学发展过程是通过实验室技术增强过程,不断螺旋式发展的。相比类推,经济学、数理经济学、经济统计学之间的协同互动科学发展是什么?实验室技术增强是什么?我的观察,经济学一枝独大,基本上运用的是哲学思想和逻辑思维方法,微观经济学、宏观经济学、发展经济学、政治经济学、规范经济学、实证经济学、行为经济学。与数学相结合的是数理经济学,明确用数学方程推演经济学模型关系。与数学、统计学结合的是经济计量学,沿袭经济学问题、数理逻辑建方程模型、统计参数估计、假设检验。经济学联系实际的量化统计,产生的经济统计学,完全是按照经济学概念理论确定和设计统计指标和统计原则建立数据生产体系,直接连接管理目标和管理过程,以及为经济计量模型提供统计数据所做出的统计实际应用服务。经济学的社会性质表明是以人之社会关系为中心,显然统计物理学的实验室技术增强发展研究,可能是不能简单照搬的,那么应该按照什么使能技术方式方法发展,也是需要研究的一个重要问题。然而,互联网技术革命,数字化、物联网、智能化、区块链、数字孪生、元宇宙等,可以形成经济学与数学、统计学融合协同发展的使能技术基础。
从上述这些发展格局与基本关系,可以得出两点结论:(1)经济学独立性比较强,数学、统计学、经济统计学的独立科学思想反向影响经济学科学思维思想发展的作用几乎没有。进一步讲没有产生统计经济学,数学更没有深入经济学本质发展像数学物理一样的专门数学思想及理论方法。因此,缺乏数学、统计学的经济学桥,现代科技支撑的经济学整体系统能力比较疲软弱势。(2)经济学分析的一般均衡理论及其相关理论方法,可以看似是一个经济学自身整体性发展的内核,包含微观世界与宏观世界的统一,因为缺乏紧密于经济学的数学和统计学的独立思想和理论方法诞生,所以,经济学研究的发展在面对现实经济活动复杂系统网络内容上,没有专门独特并决定内生的科学思想理论方法基础,明显表现在发展现代金融巨复杂系统网络可控量化统计分析技术方法上的不明不清。基本的类比,统计物理学的气态、液态、固态、等离子体,与经济活动的产品和服务统计分类及产业、行业统计分类有一定的系统比较关系,但是,后者的研究根本没有独立根基性的科学思想及理论方法,更看不到对经济学系统网络量化统计整体性研究的影响,统计学基本上没有形成对经济学根本发展的科学影响。借鉴数学物理、统计物理学在物理学发展中的桥之科学思想及作用,即探索对标统计物理学的气态、液态、固态、等离子体等“多体系统”,与经济活动的产品和服务统计分类及产业、行业统计分类研究,可能会有所突破经济学的传统思维思想。类似的问题还有是打破生产函数抽象,解析出效用论与社会平均劳动时间决定所有产品和服务系统网络价格生态规律。
诺贝尔经济学奖得主罗伯特·索洛(Robert Solow)的话来说:数字时代的影响力无处不在,除了在GDP统计数据中。这句话的背后说明的是生产产出增加值统计与产品和服务统计的不一致性。经济活动和生产经营需要市场原则上的价值一致统计原则,但是科学把握价值一致的统计原则是社会劳动标准和时间的一致性,再进一步是产品和服务效用的社会一致性,统计基础应该是知识、技术与业务和社会效用过程的统一。GDP统计上,面对数字经济的免费共享等社会新机制,就无法做出全面和社会效用一致的统计。因此,产品和服务最小统计颗粒到最大统计总体的统计就成为人类社会的新统计基础。传统经济统计和政府统计工作中,产品和服务统计只是作为国民经济行业统计分类的理论原则运用为主,并没有在政府统计工作中建立系统科学的统计理论方法,其中不排除产品和服务统计完整体系的技术复杂性和工作成本巨大的问题。然而,互联网数字化智能化使能技术,以及物联网、传感器、穿戴设备和云平台等广泛深入应用,为市场层面直接统计与数据信息搜集整理工作提供了越来越充分可行的统计技术条件,建设全面的系统的科学的产品和服务统计体系与市场数字化服务平台成为可能,为把经济统计从传统的生产统计转到市场全场景的需求及使用统计,进而实现以人民为中心,全面系统科学实现民生统计和人民经济福祉统计为中心的现代经济统计体系奠定基础,也为市场全场景为中心的数字化智能化经济统计运行服务平台建设,以及经济系统网络运行的智能智慧优化决策管理与实时有效控制提供可能。
二、DT for Statistics的概念内涵
我们用数智化使能技术DT(以后简称DT)替代AI,来寻求统计学的科学发展,也是在积极探索统计学为人类社会进步发挥更大作用和做出更大贡献的可能性。科学界普遍认为统计学是个小学科,为什么这样,表面看来统计学的学科特点是应用,统计学在各个领域应用的知识被宽广的应用领域所分散,例如统计学知识的碎片化导致其在经济社会应用中的重点冲击力相对比较弱。概率论与数理统计受数学家族影响其自身超越比较难。经济社会统计在经济学家族和社会学家族中被边缘化,经济计量学和新兴起的计算社会学对经济社会统计学产生了巨大遮荫影响,与概率论数理统计一样,经济社会统计明显缺乏向一个家族自主发展的内外生机氛围。纵观统计学科发展的方方面面,我们发现统计学的科学整体性还没有提到议程上来,统计学整体性科学问题是否是一个对统计学生存发展具有根本性影响的问题?因为统计学的整体性科学问题不明确,许多统计学的新发展方向面临被随意领走的问题,当然统计科学发展并不怕这个过程中的曲折影响,但是它却影响统计学整体发展的进程。逻辑上,数智化使能技术DT对于统计学发展是一个百年不遇的重大发展机遇,然而在DT发展的一片莺歌燕舞声中,不仅看不到统计的挑战排队,而且在“数字+”的所有发展领域和研究开发工作中,以及智慧交通、智慧城市、智慧农业、工业互联网4.0、智慧教育等“智慧+”的领域中,“统计”的文字都几乎消失,大有“统计”成为历史概念的趋势。到底是需要还是不需要统计?从科学思维、科学逻辑、科学方法出发考量统计学知识及其对人类社会进步发展作用的绝对价值,特别是面对DT使能技术融合的统计学挑战,无论从统计学科发展本身,还是从统计学在人类社会发展中的重要作用,都具有非常重要的研究意义。
DT可以是Digitization数字化、Digital Technology数字技术或数字化技术、Digital Transformation数字化转型以及Data Technology数据技术等所有相关概念的集合,比AI有更广泛的技术范围和技术应用内涵及更复杂多样的系统网络层结,因此,总体可以把DT的中文概括为数智化使能技术(互联网技术革命深化内容要点概括,数字化、智能化),能够更全面深刻分层次反映互联网技术革命的内容技术特点、特性和全面系统作用。我们可以迁移AI for Science到DT for Statistics的研究。我们的科学逻辑是“DT for Statistics”for Science,也就是统计学遵循科学思维逻辑及规则,以及DT使能技术的统计学关联作用,换成一句话是:统计学遵循科学思维逻辑及规则解析DT中的统计学、广义统计学和新统计科学空间。DT for Statistics的第一层是机器学习、统计学习、深度学习的统计理论方法。其实,对于DT使能技术发展,不仅需要不断创新发展统计模型分析和算法等问题,而且还需要面向不同数据类型和应用领域的广泛DT使能技术与统计学之间的互动发展,包括卫星遥感空间数字统计技术的统计、物联网和穿戴设备等数字统计技术的统计、文本图像音视频等量化统计,以及统计分析和优化计算等在智能化和智慧领域应用DT使能技术融入的统计。第二层是从数字化转型中发现了new statistics (新统计学),本质是科学梳理融合数字化智能化的统计技术及深入到统计应用的统计理论方法。从统计学相对传统的统计描述和统计推断,以及关于核算关系、相关关系、回归关系的分析,向人类社会活动DT使能技术的互联、互通、互动量化统计解析经济社会巨复杂系统网络的理论方法发展,这将带动一系列广义统计理论方法的新发展。DT使能技术覆盖最大统计总体、量化统计最小颗粒、数据信息资源体系、系统网络动能统计关系、统计生态逻辑、生命力与生产力统计系统架构,都具有新科学探索的发展空间。第三层是Statistics of DT。DT是数字化技术为基础的科学问题,统计科学是以现实的数字和数据信息为主要科学对象,逻辑上具有科学链条和学科家族关系,要解析DT使能技术中的统计学原理及其互动发展的理论方法问题。根据DT for Statistics研究的三层次内涵,我们通过例举性研究,探索DT for Statistics发展的趋势特点及重大研究问题的发展方向。
三、融入DT使能技术的整体性统计理论方法
互联网技术革命,所有的领域和所有的学科都要在DT使能技术推动下升级换代发展。用什么思维逻辑来研究DT中的统计学及其发展,可能对当代的统计学科发展至关重要。目前,更多的研究可能是在DT使能技术潮流冲击中被动研究统计学及应用的发展,由于DT本身含有数学、统计的使能技术越来越强大,所以DT中的许多统计发展问题被隐含起来,现实应用更多体现为DT使能技术外推需求的部分统计理论方法,其传统统计思维突出而且构不成统计发展的完整知识体系。因此,统计学在DT中的整体作用被消减了许多。其实,我们还有两种思维逻辑可以用于考察和分析研究统计学在DT中的发展作用,一个是针对统计学与其应用领域伴生发展的特点,我们可以从重要的人类社会发展基础与核心领域即经济学和社会学之生产力与生产关系的领域中,加入DT应用到经济社会发展领域的(或者讲是数字化转型后的经济社会领域)条件后,研究统计学应用的新系统、新问题、新逻辑、新技术、新方法等全新统计学发展问题。另一个是从统计学历史形成过程的特点,加入DT使能技术之后的统计学及应用的新发展问题。统计学历史形成悠久,集中的特点是伴随人类社会发展不断创新发展,政治算术、国势学、人口统计、农业试验、生物遗传、概率论与数理统计、流行病与临床医学统计、生物信息统计、国民经济核算体系SNA等发展,可以总结成统计学是人类认知精准化的发展过程和理论方法,加上DT使能技术后,这一发展趋势更加突出。因此,本部分主要是针对经济社会发展领域加入DT,按照统计学是人类认知精准化理论方法的发展趋势,分析研究具体的思维逻辑和理论方法及其传承发展的统计问题。
前世界银行首席经济学家考希克·巴苏梳理了从1776年亚当·斯密《国富论》问世以来经济学的发展轨迹[2],将经济学理论研究和实际应用经济学的政策研究融为一体,突出发展脉络、思想变化和趋势使然的内容要点,具有全面性、系统性和前瞻性。本研究根据他的研究内容体系,探索经济学、经济政策和统计学过去和未来发展关系,特别希望把加入DT使能技术的未来影响研究作为重点,目标是研究基于经济社会发展领域DT中的统计学作用发展空间。
图1梳理了三条发展脉络,最上面的是经济学理论方法的发展脉络,最下面是经济学理论应用于经济政策研究理论方法的发展脉络,中间是上下两个方面发展的方法技能发展脉络。在发展脉络梳理上,均划分四个断面层,即经济学理论、经济学方法、统计学作用、DT使能技术融合的统计作用趋势,框图中给出了要点文字概括,下面分别作出对应的分析研究说明。
现代经济学是以提出商品价值理论及不断完善的系统理论为发展脉络的,其中一般均衡理论思想和应用方法成为经济社会系统整体发展的核心。经济学有许多具体的理论学说,包括经济人假说、商品价值决定、市场公平竞争、生产函数、消费函数、效用函数等,成为一般均衡理论的前提基础。显然,一般均衡理论从思想到理论方法是经济学发展的系统学说,具有整体性、系统性、网络能动性特点。斯拉法用商品生产商品的思想和瓦尔拉斯一般均衡方程组及求解的数学思维方法,把经济理论深入发展到运用数理逻辑和数学方法,以及深入到概念和数字、数据和统计的现实系统对接方式方法之上。投入产出模型和可计算一般均衡模型(CGE)深入到实际应用的系统理论方法,其中包含着统计的基础和统计发展的重要作用。关于伴随经济学发展的统计学,我们简要概括为市场产品和服务统计、统计分类及体系、国民经济核算体系SNA以及关联的计量经济学。经济学比较重视统计学的核算关系、相关关系、回归关系的分析运用,但是相对在经济社会系统网络关系的统计分析重视不足,主要问题是统计学与经济学面和心不和,两种思维两种逻辑,没有形成统计学深入经济学思维细节深入发展的互动研究关系。例如产品和服务统计及分类体系这一统计思维逻辑没有进入经济学思维逻辑之中,经济学的市场运行时间空间微观细分巨复杂系统网络连续动态关系也没有引起统计学者的紧追和有效解决。尽管经济学把数学思维逻辑作为数理经济学发展的方向,但这与现实量化统计思维逻辑不完全是一回事,当然数学与统计在量化思维逻辑上的分工有待联系DT,做深入的发展应用研究。国民经济核算体系SNA在基于经济学概念和理论体系向统计思维逻辑体系转化上做出了杰出的统计设计,但是SNA的进一步发展却独立其身,把增加值核算及体系作为统计发展内核,脱离经济学发展的新思维新逻辑新方法,经济社会发展的重要问题很难纳入SNA有效体系的深入发展之中,例如市场竞争关系、金融资本深化、知识及人力资本趋向的核心作用、贫困化、环境污染和双碳绿色发展等人民生活质量不断提升目标下的系统网络关系等问题,并没有对应统计学的系统性理论方法,这表明统计学与经济学思维逻辑存在内在分离。总之,经济统计学基本上脱离了投入产出模型和CGE一般均衡模型的全市场经济系统网络关系分析的主要逻辑发展脉络。投入产出模型和CGE模型是计量经济学的组成部分,但是,对于投入产出模型表体现出的以一般均衡思想理论为目标的统计思维方法深入应用和创新发展却不够,投入产出表和模型是经济学系统理论与统计体系思维逻辑相融合的一个亮点,却没有被双方所关注。从投入产出表的统计工作到对各商品和服务及部门生产过程产品链、产业链和消费投资进出口与增加值创造的价值链做出了系统网络关系的全市场经济活动的统计分析架构,商品和服务统计、行业部门统计分类、商品价值形成过程,以及人力资本、经济资源和技术创新、非技术创新等被纳入统计系统网络分析之中,也激发了系统动力学、模拟仿真技术等信息化技术的引入发展,随着DT使能技术的数字化、智能化,还有更大的发展空间。
世界银行的研究工作进一步深入了经济学理论应用于实际政策研究发展的重要性,属于经济学发展归宿人类服务的重要方面。在图1中下面的经济政策发展脉络上,计量经济模型应用范围与内容深入的发展成为主要方式方法,克莱因的世界LINK模型把全球经济作为一个整体研究,以及日本企划厅开发了一千多个方程的国家计量经济模型,研究全球经济或国家经济的有效发展关系及政策选择、科学制定政策及效果管控。这个发展挑战世界到各国的经济社会统计体系的完整性,挑战统计方式方法的现代化,挑战经济学、数学、统计学融合应用发展。世界银行的全球经济社会可持续发展研究为世界统计体系建设发展提出了新要求,相关的经济学理论方法包括政策及管控为人类社会进步发展的贡献作用也被提到新的高度,习总书记提出的人类命运共同体发展目标包含了政治、经济、社会、伦理、环境、法制等丰富的内容,为统计学在科学思想思维逻辑等变革基础和融入DT使能技术发展上发挥更大的作用,指引了统计学科发展建设的基本方向。
图1中中间的发展内容,说明经济学与统计学融合发展的主要内容,经济学是注重描述和充满思辨的理论,与统一方法、数据、模型、数据库的统计学深入运用紧密结合,展示了统计学作为人类社会认知精准化理论方法在人类社会经济基础发展上的重要地位和作用,经济活动的描述思维思想、方式方法、视角范围关系都非常重要。因福利经济学和发展经济学上的贡献,1998年获得诺贝尔经济学奖的阿马蒂亚·森(1980)在一篇颇有分量的文章中指出的[2],好的描述并不容易,而科学的进步很大程度上取决于描述。描述并不是复述我们看到的一切事物,无论是文字还是数据的描述都需要选择那些至关重要的内容,让他人知晓清楚明白,我们描述的方式和内容塑造了我们对世界的理解。因此,“描述者”是一个举足轻重的角色。其实,经济学的描述与规范经济学是有关系的。考希克·巴苏认为,规范经济学是介于哲学、数学逻辑和社会科学之间的分析。哲学是人们认知自然与社会的一般方法论,数学逻辑是人们逻辑推理的依据,社会科学是社会关系与互动行为的科学规范,规范经济学是要充分利用哲学、数学逻辑和社会科学的知识,建立人类经济学思维规范。数据和统计、理论和直觉是人类知识与进步的重要要素。考希克·巴苏组织的研究,在《世界发展报告》中提出了关于思想、社会和行为的问题,试图将此纳入发展政策议程(World Bank,2015a),提高人类经济社会发展政策制定和实施的效果。发展政策不能仅仅建立在经济学的基础之上,引入心理学、行为学、政治制度、经济社会预期是很重要的,相应的统计方法是不可缺少的。我们对宏观经济政策的影响以及金融与真实世界之间联系的理解与统计巨复杂系统网络理论方法研究还存在着很大差距,主要是对货币及金融在市场经济中的社会系统功能和作用,与现实需要解决的问题相比,遇到极其尖锐的挑战。关于经济发展中货币的系统网络关系及政策有效运用的统计逻辑和统计描述还有待科学深入的系统发展。人们对微观干预和宏观影响之间的联系了解得还不够,微观经济理论领域,比如金融学和人类行为的心理学基础怎么发挥作用,需要统计学的认知精准化理论方法。过去的可计算均衡模型、数理经济学、计量经济学所解决经济学系统网络关系并与经济政策互动的有效量化,在范围和关系框架、数据和系统网络深入、过程内外条件和互通互动等整体进入巨复杂系统网络实时互动的量化统计,以及智能化决策和优化管控,都需要经济学创新、统计学与DT紧密结合,建立实时和系统对称的统计,完成从统计反映到全面量化统计解析生态系统网络智能分析的统计学发展。其中,“实时和系统对称的统计”是要把统计与DT融合成新的统计技术,数字化统计达到“实时”和“系统对称”,才能进入智能化的新统计理论方法开发。另外,经济社会巨复杂系统网络中的结点作用的统计分类与统计描述等研究,对强化系统网络作用是非常重要的统计研究发展内容。考希克·巴苏总结了经济社会关系中“有影响力的人”的研究[2],说明经济社会系统运行发展中传统方式重要作用是社会有影响力的人,这可以传承到DT(数智化)使能技术的社会转化,能否对系统网络结点功效进行统计分类,功效节点内涵市场经济竞争和市场系统内在激励机制,用平台互通互动统计实时反馈在系统网络里,实现智能最优运行发展,对于整个系统网络可以自动升级或自动降级结点,逻辑功效最大化算法可以扮演一个重要角色。我们提倡统计学担当中介工具,用DT转化传统的社会系统网络功能,推动智能化大系统建设发展。
经济学和社会学是两个重要的学科领域和实践领域,统计学的发展作用非常关键和重要,前提都是在DT使能技术平台上融合发展。我们希望通过对过去、现在、未来发展的系统梳理,能够发现新的科学思维逻辑和理论方法发展方向,为经济学、社会学、统计学以及数学、计算机通信网络技术的融合大发展提供思路和依据。图2展示了三者融合发展的结构变化相对地位作用的趋势。归纳起来有如下要点:
1.一般均衡模型、投入产出模型、计量经济模型和国民经济核算体系SNA已经发展了基于经济学和社会学的统计思维逻辑和理论方法应用,但是,各自思维逻辑独立运行发展似和似离,缺乏深入的一体科学思想及量化统计理论方法支撑。数智化DT使能技术创造了互联互通互动融合量化统计系统网络发展的基础,但是许多问题尚未提到发展议程上来,根本问题是忽视了统计学的轴心作用。
2.互联网技术革命及数智化DT使能技术深入应用,对经济学、社会学、统计学、数学都有直接的新科学发展推动,其相互间系统网络一体发展要还原人类社会发展对应的自然和社会生态系统网络及动能,其中全面量化解析成为统计学发展的责任。数智化DT使能技术与统计学双向互动融合发展,探索更加全面深入的统计理论方法,将加速深入推动人类社会认知向精准化和智能化方向的有效发展。
3.经济学、社会学实际领域和统计科学应用理论方法与数智化DT使能技术的深入融合应用发展,使经济社会概念、统计数据、政策需求向更加生态化的心理、行为、预期、理性直觉等巨复杂系统网络上归集发展,使人类社会向认知更加实时系统网络复杂运行精准化、智能化管控优化范式上发展,与统计学和DT使能技术融合发展,统计学应该扮演重要的角色。把科学思想、思维逻辑和理论方法都统一到DT使能技术上来,建立人类社会发展的数智化空间,按照人类社会认知发展目标建立学科知识分工体系。在系统网络及动能整体上可以归集到生产力与生产关系的升级发展,统计的实时和系统网络充分量化与优化,构成利用DT与融合DT的主要方向。
4.统计学是人类认知精准化理论方法,主要是充分利用DT使能技术,建立全面量化统计解析经济社会系统网络及能量的演化发展,建立最大统计总体、最小统计颗粒和生态统计逻辑的全局统计,以及完整科学的数据资源体系和数据要素配置及智能化的统计理论方法,将统计学分支家族统一融合发展,并与数学、计算机通信网络技术融合发展相结合,建立DT使能技术上的学科发展新生态,为人类社会现代化做出更大的贡献。
5.经济社会领域与统计学和DT融合发展,展示了发展的三股驱动力螺旋式推动发展的过程,交互领先,例如过去开始的事后领域认知即经济学和社会学领先发展,其中非常关键的是人们遵从自然感悟中创造了社会关系及市场经济制度机制原则规范,统计学包括数学和DT使能技术融合其中,建立了全社会的循环往复的社会自学习,凝练最优社会生产关系和生产力,推动人类社会进步发展。现状是DT使能技术的辉煌时代,融合统计学和经济社会领域知识螺旋式发展,DT是最大的推动力。我们预测进一步发展统计学要成为最大的经济社会发展驱动要素。为什么这样?当然需要统计学的自我存在及自我发展的深刻领悟,因为统计学能够使人类社会认知精准化,包括心理、行为、预期过程中的互动社会生产关系和生产力系统网络赋能、转能、扩能等走向数智化不断应用发展完善。全面量化统计解析,生态统计逻辑建立的更大循环发展是把人类社会行为关系和生产力融入天空地一体化的自然生态系统网络运行之中,让人类的作用不仅为自己服务,还要为自然宇宙内生演化做出贡献。
四、经济统计学+DT推演出来的统计学系统网络研究
数智化DT使能技术推动人类社会进步巨大发展主要表现在:1.互联互通互动网络平台发展,消除任何孤岛,实现巨大经济社会系统网络关系优化实际应用能力。2.系统网络的充分对称数据信息,实现云平台个性化实时服务巨大能力,资源稀缺与资源利用在个性化与整体系统网络优化上统一成为人类社会发展巨大进步的重要标志。3.云设施和云计算巨大使能技术成为生产力发展的重要基础。4.全市场供给与全市场需求进入巨复杂系统网络精准实时天空地一体化对接,实现生产力与生产关系统一的良性循环和螺旋式发展,走向人类社会发展整体系统的智能化。5.全市场产品和服务的产业链、供应链、需求链、知识链、技术链、人力资本链、物质科技链、金融资本链、数据信息资本链、价值链,在云设施、云计算和DT使能技术平台上建成对应的数据资源体系,以及自然社会生态系统网络解析实时计算逻辑体系与计算能力,目标服务人类社会发展数智化体系。
国民经济核算体系SNA是目前世界各国都采用的经济统计理论方法,已经被认定为20世纪人类社会发展最伟大发明之一,为此做出贡献的几位都获得了诺贝尔经济学奖。但是,对于国民经济核算体系SNA的统计思想和思维逻辑及理论方法的系统网络解析是远远不够的,本文研究SNA的主要统计学贡献如下:
1.确定了人类社会最大统计总体理论方法。人类社会统计包括与自然生态直接连接的人类社会活动、社会关系等复杂的内容,应该是人类社会发展最复杂的统计问题,也是具有全局规范的统计问题。国民经济核算体系SNA在梳理经济理论及应用思维逻辑理论方法基础上,确定了社会活动、社会劳动、社会分工、社会生产、社会消费、社会扩大再生产,以及资源、资本包括人力资源和人力资本等一系列社会概念、数字、数据、关系、逻辑等,提出了人类社会统计最大、最全的统计范围即上述内容统一和完整一体化的统计范围理论方法,对接DT使能技术,具有统计学深入应用的巨大发展空间。我们可以称之为最大统计总体的理论和范例。
2.确定了人类社会最小统计颗粒系统理论方法。最小统计颗粒与最大统计总体融为一体,是精准量化统计人类社会活动全部内容的最小统计颗粒。人类社会活动是自然生态系统规律的具体体现,表现出人类社会通过社会劳动,利用自然、开发自然、不断深入社会分工、形成整体生产力的过程,在生产力系统能力层次上包括认知自然和社会过程、形成知识并进入科学的学科分工即科学创造、技术工程开发、生产过程、生产关系(生产社会关系)社会科学创造的过程,这个人类社会进步发展的投入产出过程,可以归集到所有的社会产品和服务的生产和使用过程,今天的人类社会活动横断面包括所有人类知识生产和使用过程,所有个人、家庭、企业、非营利机构、政府、世界国际组织的产品和服务的生产和使用过程,都归结到所有的产品和服务的生产和使用,因此,所有产品和服务统计就是对人类社会最简约、最全面、最系统的统计,国民经济核算体系SNA就是把每一种产品和服务的统计定义为最小统计颗粒,具体统计定义是具有技术特征和使用价值独立性的生产经营最小单元的产品和服务。
3.确定了人类社会生态统计逻辑理论方法。国民经济核算体系SNA直接展示了统计指标体系和统计分类体系的统计设计,包含了统计科学思想和生态统计逻辑。统计指标体系的科学思想主要是落实经济循环理论和社会再生产理论为具体统计,实现理论概念与现实对象量化结合的统计结果,可以认为是通过经济学理论的间接生态统计逻辑运用,因为可统计约束了经济理论统计指标设计运用的选择,可量化统计必须符合实际及有效运用统计的条件。SNA统计分类体系是统计学独立发展的生态统计逻辑应用,主要是两个系统及其对接成整体的统计系统问题。对于社会经济活动可以根据其活动生态家族分别建立各自的生态统计逻辑,例如生产统计最小统计颗粒是产品和服务统计分类,目前是10位码5个层次,从最小统计颗粒到最大统计总体(地区、国家、全世界)分别用实物(自然)单位和价值单位建立系统的统计体系,其背后是生产的生态统计逻辑,遵循知识创造、技术开发、产品和服务生产、成果使用整个完整系统过程的一体化生态统计逻辑。产品和服务统计分类仅局限于知识、技术、工程、成果使用价值的统计逻辑,统计内容只是量化统计解析了生产的本质和内核,与现实相比没有考虑生产组织这一重要环节。国民经济行业部门统计分类考虑了社会分工和生产组织、生产经营和成果使用全过程,是产品和服务统计分类体系基础上的又一个生态统计逻辑运用。相比之下,国民经济机构部门统计分类,目标是建立以社会财产、财富所有关系的统计系统,但是,由于缺乏像基于知识、技术、使用价值的产品和服务统计分类一样的人类社会财产、财富最小统计颗粒生态统计逻辑基础,国民经济机构部门统计分类基本上是非常综合的统计及分类,不能量化统计解析个人、家庭、企业、金融机构、非营利机构、政府等之间的生产关系、分配关系、财产财富关系,以及满足市场运行病态时对经济活动生态系统网络影响的统计监测判断、统计分析与政策调控的需要。因此,经济活动生态统计逻辑的许多方面还有待深入研究。相比较而言,SNA统计体系内容可以分成生产力和生产关系两大类别,前者生产力的生态统计逻辑比较成熟,发展方向在DT使能技术作用下,具有更大的发展空间,主要是增补数字化到智能化的生态统计逻辑。后者生产关系涉及经济活动到社会活动的融合发展,特别是市场经济系统网络的稳定性与不确定性问题,以及金融体系、金融创新、数字货币等复杂性的影响,其生态统计逻辑有待创新思维和创新理论方法去发展,应该讲这是统计学挑战DT使能技术深入应用,特别是实现全社会完整的智能化突破的最重要、最基础性统计问题。
最小统计颗粒决定最大统计总体的范围、构成和发展时空的统计定义。统计范围、构成的科学思想是人类认知精准、简约、充分、可组合、可优化基础,统计发展时空是要满足人类社会可持续创新发展内容的统计要求。例如从原始社会到蒸汽机革命、电力革命、信息技术革命和互联网技术革命,以及未来的任何革命,最大统计总体、最小统计颗粒的统计发展时空内容都能被连续容纳,而且统计数据信息资源体系云存储、云计算、云开发服务都能保持其连续性。生态统计逻辑不仅决定人类社会统计数据体系的科学性和最优可用,而且还决定统计理论方法包括概率论与数理统计理论方法、数学优化理论方法、DT使能技术和方法。
基于上述基本理论分析,可以得到经济统计学+DT推演出来的统计学系统网络研究方向,见图3。
人类社会发展的统计解析是从生命力与生产力的螺旋式循环发展开始,生命力是自然赋予的,包括个人生命力到人类社会生命力(社会关系整体的生命力),以及相依的动物生命力、植物生命力、物质生命力,对于人的生命力,通过人类社会的相互学习、研究创新和积累人类社会科学学科知识的方式,转化生产力,生产力进一步推动生命力的发展,其中,这里涉及复杂的系统关系与网络能量,生产关系赋予了丰富的社会运行发展能量。动物、植物、物质生命力本身也在演化,但是,人类生命力与它们的生命力形成生态演化发展关系。今天的数字化转型或DT使能技术,集中体现在社会劳动、社会分工、社会生产、社会分配、社会市场、社会消费的经济社会巨复杂系统网络之中,强化了全球的系统关系与网络能量,生命力与生产力螺旋式循环进入一个新的快速发展阶段。
生态统计逻辑可以探索生命力、生产力、系统网络、社会价值及四位一体的全面量化解析统计逻辑。生命力是生态统计逻辑的基础点(起点和归宿点);生产力是社会核心点(目标及集聚和力点);系统网络方法是人类认知二分形法:男与女(雄与雌)、0和1(数字化-计算机通信网络技术)、市场供求、两大部类及再生产理论(马克思)、产品或服务的技术与效用(使用价值)、流量与存量;社会价值是从市场经济的价值效用论到马克思社会劳动价值理论的发展。生命力和生产力的最优与发展,以学科知识转化体现,但最优来自生态系统认知解析。
人类社会互联互通互动是互联网技术革命和DT使能技术深入应用的归宿,产品和服务统计是人类社会进步发展最基础、最关键领域,也是DT使能技术发展收敛于人类社会一体化思维逻辑及数理优化极限唯一解的基础条件,具体表现在建立如图4展示的自然力、生命力、知识力、生产力菱形力螺旋式循环发展关系。因此,产品和服务统计是全局性统计学科建设的根基,融合互联网统计技术、广义统计、数族协同统计新内容,挑战数字化转型最科学、最简约、最通用的架构和逻辑体系,实现人类社会所有活动的数字化、智能化完整性(四通八达)发展。
五、以人本为体的系统医学的统计研究
我们利用生态统计逻辑基本的科学思想,把人类社会发展的量化统计系统网络关系及动能解析,归纳到自然力、生命力、知识力、生产力的交织循环过程的内生与外部环境协同螺旋式发展。自然力是基座和母机,人类社会的生命力发挥着对自然力利用开发的内生演化螺旋式发展的核心驱动作用。生命力包括人、动物、植物和物质不同生命力的系统协同,人的生命力对所有生命力具有全局的影响,通过生命力创造知识力,实现人与其他生命力的互通互动融合机理分工,是知识社会分工到生产力转化的理性之律,生产力产生物理化学形态及精神和社会组织生态关系,支撑生命力发展,最后回归作用自然力,形成自然力的总体生命力的螺旋式循环发展的持续运动过程。如果我们进一步把四力深入到人类社会活动认知最基本的二分法,就是生命力与生产力,因为所有的自然力都可以归到生命力和生产力,所有的知识力也是都可以归到生命力和生产力。这些内容对于统计学解析未来巨系统网络智能化研究发展是基本的生态统计逻辑。
人的生命力是所有生命力的核心,保证人的生命力发展最为重要。DT使能技术深入发展,本质是把传统社会下任何领域、任何发展、任何问题的数据信息孤岛,通过互联互通互动技术,建成DT技术支撑的新社会经济系统网络,这可能是巨复杂系统网络,未来有待分别支系统的深入研究。以人的生命力为例,在传统思维和知识体系上,素质、能力、健康、寿命、医疗、幸福生活等都是基本的发展目标,这些发展目标归集到基本的二分法,非健康及医疗,健康及更高质量。首都医科大学著名神经外科专家凌锋主任组织了系统医学研究团队[2],开展了10年的临床实践研究,针对现代经典医学做出了系统量化统计偏误矫正的系统医学实践,取得了突出的效果,更重要是探索出系统医学内容体系和科学思想和思维逻辑。她们的研究提出来的是系统论、控制论、中医药学、中国哲学、现代哲学、现代经典医学和医学技术、数学、模型、反馈系统、误差偏误矫正等理论方法,综合其全部知识成系统对一个人整体的体能、营养、机能、病情等一系列生命力特征监测统计分析,建立以人体为本包括能力与生活质量为目标的适度干预,研究反馈系统模型及其效果,完成个性化系统医学实施方案,事实证明了这一系统医学方案方法的合理性和有效性。
现代经典医学的科技进步是前所未有的,更多的疾病被发现,检验技术、影像技术、基因分析、分子蛋白等科学技术大大提升人类疾病的治疗面和治愈率,寿命持续提高。尽管所有医疗技术应用、所有治疗方案都是最好最完美的,但是有的病人的治疗结果却是相反的。例如曾经的一个食道癌的病人,在很好的医院被设计了一个很好的治疗方案,具体是先做化疗,再做放疗,最后再做手术。手术是在颈胸腹三个地方开刀,完全切除了这个食道癌,重建了它的消化道。治疗方案每一步都很完美,技术也很先进,手术也非常成功,但是这个病人却永远没有醒过来。为什么如此按照寻找病因切除肿瘤这样因果关系的一个原则走下去,却事与愿违呢?再例如一个人体检出来发现颈动脉狭窄,但没有什么症状,那就来问医生要不要放支架呀?这个时候医生也常常问自己,到底什么是病?能查出来的这些血管狭窄等只是影像显出来的,我们来针对它呢?还是病人的实际症状?这需要治疗吗?有一个事实,但是只有很少的医生愿意当着病人的面承认,有很多的病情好转是靠病人自己。总之,从现代经典医学,提出来什么是病,什么是健康,我们怎么来把握治疗的度,什么样的病该治,什么样的不该治?仅仅按照现代经典医学的分门别类割裂治疗发展下去是有问题,因此,系统医学新思想可能是未来医学发展必须面对的重要发展问题。首都医科大学凌锋团队的系统医学,就是希望建立健康与医疗完整系统认知的人类新医学系统知识范围,包括整合中医和西医、医学与哲学、医学与人文、医学与系统论、控制论、数学、统计学、计算机科学与技术,以及如何把现代经典医学理论技术方法有机纳入人类生命力系统之内发挥合情合理的精准系统作用,这是DT使能技术深入医学发展的必然趋势之一。这应该是我们前面提出的DT使能技术深入应用发展的整体性、系统性、量化统计解析系统网络优化的一个具体应用领域问题,应该纳入DT使能技术基础上全局统计学问题之一。
凌锋团队的系统医学定义[3],是利用系统论建立一个将生理学、病理学、临床医学和临床人文学都融入于一个系统框架里所建立的一个理论医学体系。她们的临床研究的几个成功例子给这一系统医学展示了全局整体科学思想和生态统计思维逻辑的关键性。第一个例子是2002年在英国火车脱轨事故中一位严重脑外伤的病人,曾经心跳都停止了,头颅做了三次手术,当时是已经到了要去做脑死亡鉴定的一个关口,经过凌锋主任判断她不是脑死亡。把这个病人带回北京治疗过程中间,运用现代经济医学技术做好系统统计监测,其中包括量化统计的精准性,所有的方法就是顺势而为,就是对症治疗,把所有影响她生命体征的症状,都去让它平稳下来,然后让她能够平稳的活着,最后这个病人醒了,她自己走出了医院,并且还上了主播台,系统医学效果轰动全世界。这个系统医学的治疗主要科学思想是遵循人是有自愈能力的不争事实,就像皮肤破了就可以自己愈合一样,任何疾病都可以实现这个过程,关键是量化统计系统解析和建立合情合理适度的干预,需要医生对病情的发展和愈后的直觉经验做好科学系统的描述,这个医生直觉描述量化统计系统解析,要有系统医学理论和DT使能技术支撑,因此,其发展的问题和DT使能技术要求,以及统计和控制系统都成为未来系统医学研究的关键。第二个例子是凌锋主任为101岁的老父亲病危的系统医学治疗。老父亲有十几种疾病,因为严重的呼吸障碍,上了无创的呼吸机,血氧也总是维持不住,二氧化碳分压很高,近乎于昏迷,还插了胃管,大小便也在床上,最后医院下了病危通知单,要求做气管切开等经典医学治疗。要做气管切开,从因果关系上来说是很明确的,你呼吸不好就要做气管切开。最后经过专家组讨论了半天,就整个改变了一个治疗的策略,决定用系统医学理论方法治疗。不做气切了,就用各种康复的手段、营养的改善等等,来促进他本身能力的一个恢复。在整个过程中,始终是从维持稳态的原则出发,对各个关键的系统,比如呼吸、消化、睡眠、精神、运动等每天的情况,都给病人列出来一个表,一个详细的记录,给它一个分值,把总体情况也给它一个分值,这样就画出了一个曲线,这样就能够了解每个系统的调节功能的强弱和相互的关系,这纯粹是从个体来设计的这样的一个方案。这样的话,对每一天可能出现的问题和这个预估就可以进行预判,然后避免亡羊了再去补牢。系统医学所有采取的方案,是尽量不用医疗手段,去剥夺它本身的功能。经过四个月的这种康复和治疗,老爷子终于站起来走路了,还唱起了中国人民志愿军的军歌。凌锋主任构建系统医学十几年的探索中间得出来的体会是,好的治疗应该是个体化的,治疗是一个逐渐逼近理想目标的一个过程,是不可能一步到位的。要尊重人体的自愈的能力,避免过度干预。医学是通过治病达到救人的艺术,所以必须是科学与人文的结合,没有科学的医学是愚昧的,但是没有人文的医学就是冰冷的。未来社会发展,系统医学可以提供给每个人自己全生命周期的管理,每一个人都会有自己的健康数据和健康的标准,医生们会根据系统医学的原理,全面个体地分析每一个人的情况,提供一套既维持稳态又能去除病因的解决方案。
系统医学的临床研究,得到两个基本公理。第一,稳态可以用自耦合系统来描述。实际上可以把人体想象成一个能够自我纠偏的一个大不倒翁。那么它内部有无数个类似小不倒翁的这样的一个生理的调节的机制,那么每一个不倒翁它都有它自己的一个纠偏的机制。比如说像血压,就把血压的调节看成一个小不倒翁。这个血压的调节会有上百种机制,但是它可以看它是一个整体,那人的身体里就有无穷多的这样子的小不倒翁了。把它看成一个整体的话,就可以运用好系统论和控制论,建立数学、统计、DT使能技术相融合的自耦合系统的科学体系。第二个公理,是人体是具有康复能力,也就是我们说的它有自愈的能力,于是凌风主任团队研究得到了系统的基本公式。实际上就是代表着一个稳态的偏离,越大,大到会像多米诺骨牌一样的,它就会引起其他稳态的一个不利的偏移,那就是病了。 代表着外因, 是代表着内因, 就是一个抵抗力稳态能力的强弱。现代经典医学,这种能力只能靠医生的直觉来判断。系统医学则用量化统计系统描述,DT使能技术可以提高认知量化统计颗粒和实时对称数据信息的精准性。疾病是因为 这个外因太强,或者还是 这个内因太弱,或者是两者兼而有之,可以用精准化统计理论和技术方法。因此,系统医学是全局系统网络统计精准理论方法应用的重要领域,系统医学的新科学思想,是互联网互联互通互动深入医学领域的科学发展,不仅不排斥现代经典医学,而且还要充分利用现代医学医疗技术,当然,更加重要的是建立全新的生命力理论方法,具有人类人文哲学思想高度和数智化DT使能技术平台支撑,把中医药理论方法与西医理论方法融为生命力系统,发挥数学、统计学、计算机通信网络技术等交叉学科的数族协同作用,建立人类社会生命力量化统计系统网络解析个性化服务平台理论方法,为支撑系统医学深入发展的生命力统计系统网络理论方法的科学发展努力奋斗。
总结一下系统医学发展的未来要点:把现代经典医学和医学技术以及中医药理论方法技术,加入更广泛更深入的DT使能技术,融入所有哲学、人文社会科学,以及动物、植物、物质生命力研究的相关学科知识,以系统医学为目标,探索人体及生命力系统网络关系及使能的全面量化统计生态解析理论方法,以及更加厚重的数学、统计学与计算机通信网络信息技术融合的数族协同理论方法。
六、经济社会系统机理模型与数据模型融合研究
张平文院士[4]从应用数学发展对以机理为中心的计算和以数据为中心的计算,以及最终进入机理与数据融合计算的历程进行了研究,论述了机理与数据融合计算科学思想及自然科学与工程技术上的应用,围绕AI for Social Science概念[5],提出了将机理与数据融合计算向人文社会科学应用发展的研究规划,具有重大的学术意义和实际应用价值。
应用数学的研究具有两大特点[4]:方向碎片化,发展并行化,研究主要聚焦于计算和统计。当代应用数学发展的第一个阶段是以机理为中心,重点在于建立有效的模型和高效的算法,而不需要大量的数据。当代应用数学发展的第二个阶段是以数据为中心,强调从数据中提取特征,其重点在于足够多的数据和有效特征,避免机理模型中的计算问题。机理与数据融合计算就是将机理模型与数据模型的融合计算应用研究。机理模型计算在流体力学、结构力学等领域取得巨大成功发展,数据模型计算在经济、卫生领域应用取得显著效果。当代应用数学发展的第三个阶段是机理与数据的融合计算。以机理为中心的优势在于时效性长,劣势是部分问题过于复杂,难以处理;以数据为中心的优势在于其适用范围广,劣势在于可解释性差,时效性短。因此机理与数据的融合就可以做到优势互补,为大量工程问题的最后一公里提供了实现途径,为经济社会发展重大问题提供复杂系统网络分析模式。
机理模型与数据模型融合计算的深入发展包括科学思想与技术方法实现两个方面的问题。科学思想主要是它们融合的科学深入方向,主要是扬长避短,对接相长。机理模型发展主要是普遍性规律与个性化问题,后者的思维逻辑与普遍性规律有所不同,可能是复杂性难点。具体研究深入的科学思想是个性化思维逻辑要对普遍性思维逻辑对接扩展的补充个性发展特点,换一句话讲是深入研究个性化特征特点特性及量化统计应用,对接机理理论和模型方法的深入理论补充和技术方法的扩展。数据模型发展主要是深刻理解认知机器学习、深度学习的两头关联效果的数理逻辑的模型原则,增强其可解释性深入研究主要是对接利用生态统计逻辑的研究,即深入完整过程的对应关系处理和精准化统计原则应用。张平文院士研究团队以冬奥会气象精细化预报为例,探索了机理模型和数据模型的融合计算应用,充分发挥各自模型优势,克制各自模型劣势,对接新的技术方法运用,取得了显著的效果。
结合已有的实例研究科学思想与技术方法的梳理,提出以下主要问题的研究方向,对此做一些深入的探讨。
1.计算的范式。具体总结为“实验”第一范式与“理论”第二范式[4]。第一范式的实验,主要是以物理、化学为主的实验规范,发现物理和化学的过程特征及自然逻辑。第二范式的理论,运用数理逻辑对物理和化学实验逻辑的数学刻画,完成量化解析的系统网络能量与能力的现实过程,实现对自然生态的系统网络量化统计解析。典型的融合计算例子是深度势能分子动力学。它利用第一性原理得到模拟数据、利用机器学习来学习分子的相互作用力,使其模型精度和效率得到极大的提升。但是,向经济社会及人文社科领域推广,“实验”难以统一规范精准,“理论”难以量化充分对称,“实验”与“理论”的内在对接一致性难以科学有效保证。未来的深入发展,可能要从经济社会发展和人文社科行为心理预期等复杂变动因素入手,探索严谨的量化统计方式和技术方法,可能要探索把“理论”作为计算的第一范式,把“实验”作为计算的第二范式。范式主次的变化主要是量化统计可以走进计算的内核,探索一致性与精细精准的统一收敛逻辑。
2.计算的要素。计算4大要素成为“计算金字塔”[4],包括数据、算力、算法和场景。数字化、智能化深入发展,计算金字塔的四大要素都发生了极大的变化,比如人工智能芯片、深度学习算法、大量的落地场景以及海量、多来源、高质量的数据的涌现。这些要素的发展(尤其是数据要素的发展)共同促进计算成为所有科研和创新的重要范式,对科学研究和实际应用发挥越来越重大的作用。如何深入各个学科之间交叉于应用领域上的知识解析与合作,可能是非常重要的研究新范式。数据、算力、算法和场景的说明比较模糊抽象,缺乏学科知识之间合作的归属表达。数据主要是统计学科的工作,如何利用数字技术发展到统计技术,保证数据信息量化解析客体对象内在与外在系统网络物理到社会关系上的充分对称,才是向其他学科展示的主要内容,其中里面包含向计算机通信网络技术学科请教的数字技术到统计技术的前沿性、简约性和高效性,作为统计学要善于不断汲取计算机科学与技术的前沿数字技术,装备更先进的统计技术。当然在充分对称统计上,要向其他学科展示统计的科研与创新发展,充分就是最大统计总体范围,对称就是最小统计颗粒及生态统计逻辑的内容。要使数据在量大上有清晰的系统网络关系和使能作用路径。算力主要是计算机通信网络技术学科的内容,要善于把运用先进材料和物理性科技发展各种先进技术和提升计算能力的前沿发展展现出来共享。同样数学算法要在数理逻辑提高计算速度和质量上做出不断创新发展的科学贡献。这些就是数族协同。
3.数据的特征。机理模型和数据模型的融合计算,总结了实验数据、观测数据、记录数据、调查数据、模拟数据五种数据特征[4]。这五种数据特征比较自然科学和技术工程传统概念,现代的数据应该是DT使能技术基础上的数据,交通及设施实时监测传感数据、穿戴设备跟踪数据、物联网数据、电商平台数据、媒体平台数据、金融保险平台数据、政府平台数据、工业互联网平台数据、文本量化数据、天空地一体技术资源数据,信令数据、空间位置数据等等的数据比例和发挥的作用越来越大。为什么没有统计数据,难道所有数据都不是统计数据吗?目前看定义数据类型及特征,主要是领域概念、科学概念、技术概念、设施概念、平台概念、资源概念,而这些数据概念中,都是以量化统计思维思想技术方法为主要原则的,包括统计总体、统计样本、统计分布、统计误差、统计时间、统计空间、统计颗粒、统计序列、统计单位等,都要保持统计逻辑、计算和分析的简约性、可变换性、互联互通互动性的数理性质与现实性质,这是未来数据资源体系和数据要素应用的全面性、系统性、网络性所要求的。总之,过去和现在比较重视数据领域的局部一致性、精确性、可分析要求,但随着互联网技术革命,数智化DT使能技术深入应用,总体要求的数据一致性、精确性、可分析要求涉及的系统网络复杂性大大提高,需要在全社会范围的数据资源体系和数据要素体系,以及数据类型特征标注的统计研究。这项基础统计工作与数据设施和DT使能技术一体化发展,为机理模型和数据模型融合计算更广泛领域应用奠定扎实基础。
4.资料同化算法。天气预报是融合计算的典型场景,“资料同化”算法就是一个融合计算的成功案例[4]。天气预报的数据来源广泛,数据时空分布很不均匀,而资料同化算法 就能够将这些不同精度、不同频次、不同类型的数据转换成一个好的数值模式初值。什么是资料同化算法,是智能化的数据统计处理吗?长期以来,相关、回归的统计模型分析基本上属于局部问题,与互联网数字化智能化DT使能技术深入发展的互联互通互动系统网络及赋能模型分析研究有比较大的差别,突出的是模型之前的数据资源体系、数据要素体系在生态统计逻辑科学思想下具有全面量化统计解析的能效,为模型应用奠定良好的基础,如果引入机理模型和数据模型融合计算,那么模型与前面的系统网络关系数据形成系统反馈新数据体系机制,这些都是当前和未来发展的新科学新统计,因此,需要建立一整套条件目标和科学思想的新统计理论方法。
5.经济社会领域应用。张平文团队围绕AI for Social Science概念,积极研究机理模型和数据模型融合计算面向人文社科(Social Science)的应用发展。典型的融合计算例子是深度势能分子动力学和北京冬奥会天气精细预报应用实例,比较好地解析了融合计算过程中的数理逻辑和数据技术方法,为向经济社会领域应用奠定了比较好的数理统计基础。从人文社科领域发展看,颠覆图书情报学的搜索算法和颠覆新闻传播学的推荐算法,都是基于数据的经典算法。统计软件、结构模型作为解决社会科学的DT使能技术和系统网络方法,也会产生积极的作用。但是,如同前面各个具体发展问题中分析的,经济社会领域属于巨复杂系统网络,社会关系、经济机制、资源潜能、互联互通互动影响,机理模型研究开发的科学思想与自然科学和工程技术有很大的不同,数据模型的生态统计逻辑需要在最大统计总体和最小统计颗粒组合的巨复杂系统网络上,要找到新的科学范式。因此,统计学的全局性、系统性、网络性、使能赋能性,以及市场经济系统网络机制、人们的心理、行为、预期等,与DT使能技术融合的全新研究,就成为非常重要的科学方向,建立“DT for Statistics” for Social Science的科学体系。
七、天空地一体化经济社会统计理论方法
天空地一体化通信网络技术及时空数据资源应用是DT使能技术强劲发展的重要领域,其中最基础、最重要和造福人类突出的是天空地一体化经济社会领域的应用。具体的是把天空地一体化时空数据资源与经济社会统计数据资源对接互通互动升级发展,具有传承经济社会统计历史发展结晶又发展时空DT使能技术新数据资源应用。天空地一体化对接和互通互动,可以升级赋能最大的系统网络,实时天空地一体化数据资源体系,为全社会最复杂系统网络智能化,开创数据要素配置开发最广阔的天地,推动实现智能+、智慧+、产业互联网+、数字治理+等深入应用发展。
从天空地一体化技术提出天空地一体化感知通信网、统一云计算框架、一体化大数据平台三层体系建设。第一层具有专门的技术,而第二、第三则是通用技术,需要站在全社会角度包括历史形成的经济社会统计体系和统计理论方法,做好对接的相关统计学研究。既要发挥天空地感知通信技术的数据资源优势,又要利用统计科学理论方法,还要考虑人类社会积累的数据资源与科学合理的基本标准范式。天空地一体化感知通信网技术包括北斗卫星、即时遥感星座、无人机监测体系、地面感知终端、4G5G网络、业务专网、物联网、通信卫星等设施应用。通过建设卫星星座,对接地面感知终端及监测系统、政务及业务数据,形成一套覆盖省市区县乡镇域范围的“天空地一体化”感知通信网,实现全域、全天时、全天候、立体化、多维度、实时动态的信息感知与传输,获取及时、安全、鲜活的天空地一体化数据资源。目前,这部分空间数据资源生产及其在自然科学技术领域的应用比较成熟,但是,进一步对接到经济社会领域各个层级的应用亟需开发,统计科学的关键作用是对接和升级传统的经济社会统计数据资源,建立各个层次网络平台应用所需要的统计,需要针对每一个方面研究统计理论方法应用的具体内容及方法和技术,例如“政务内网云”中数据信息网络一体化就需要最大统计总体范围和最小统计颗粒完整系统网络量化统计一体化最简约的统计标准,“统一基础云平台”和“业务专网云”都需要背后最大统计总体和数据资源体系、数据要素体系等的平台规范标准。“数据共享交换”如果没有统计理论方法的科学化,可能就是各行其是的数据信息堆砌,虽然可能有一点表面的数据信息功能,但是应用价值非常有限。
天空地技术融合的统计学和统计技术是新统计学的一项基础研究,其中,要探索天空地一体化技术与经济社会统计体系对接融合发展的基本理论方法。推动数据信息资源汇聚和整合,建立健全各级区域公共统计数据信息资源管理与服务体系,打造和升级发展以统一时空数据底座为特色的公共统计和数据信息支撑体系。统一时空数据底座利用北斗网格码技术和标准化字段赋值体系,动态联通天空地一体化感知通信网,提供时间维、空间维的统一数字基准,实现数据多层次展示、按需更新、精准化迭代,为各级区域实景三维建设、自然资源勘察利用、住建CIM 基础平台、城市治理等应用场景提供时空数字底座支撑和保障,研究开发与国家统计制度包括人口统计、市场统计、投资统计、消费统计、产业统计、企业统计、行政统计、业务统计、资产统计、金融保险统计、财政税务统计、进出口海关统计、国际收支与服务贸易统计等对接新标准、新技术、新方法。
八、国家统计工作与国家数据工程相分离问题
国家统计工作与国家数据工作相分离是存在的一个严重问题。国家统计工作经过数百年的统计科学发展,以及世界组织和各国努力已经形成了比较系统完整的政府统计体系和比较完善的政府统计工作体系。我国政府统计体系,自1949年新中国成立以来,在学习前苏联和发达市场经济国家政府统计基础上,取得了巨大的发展,具备了国家统计局综合统计体系和各级政府部门统计体系相结合的国家统计制度体系。国家数据工作完全是互联网数字化智能化云平台发展的产物,以互联网数智化云技术为应用的政府数据工作,包括中央网信办、各级政府数据管理局、政府大数据中心,以及从中央政府部门到地方政府部门数字化转型形成了国家政府数据工作组织和运行工作体系。
相比较,国家数据工作具有后来者居上的优势,国家统计工作的数据内容范围较窄,时效性差,数据颗粒和系统网络严重不够,以及统计技术理论方法落后于互联网数智化新时代的发展。但是,国家数据工作也存在问题,表现出来的只是数据多,数字化设施和技术工程先进,数据获取快和质量高,但是数据工作新孤岛单极发展,分散无序表面化问题严重。进一步的问题是技术病,用人类社会认知的四个层次(what是什么-个体、局部、全局, how怎么样-关联、关系、运行、过程, why为什么-因果关系、系统规律, should be应该是什么-最优,可控目标)看,只是停留在第一个层次和部分第二个层次。以公安大数据为例,只是能快速查到人在哪里,做什么?但不能得到为什么做,将会有什么社会危害,以及如何引导走入社会优化作用上来的一系列工作,等于光有眼看到东西及变化,但没有逻辑分析判断,相当于有数据但是数据傻子。
在国家统计工作与数据工作上,中国与英美发达国家不同。英美用Open Government Data(OGD)开放政府数据推进互联网数字化及大数据应用,完全建立在它们的政府部门业务科技工作第一位的部门稳健业务工作基础上,在OGD上,通过堆集政府部门数据集,部门之间主动业务配合协同发展,可以延伸创新发展工作。但是,中国不行,中国需要统一规划、科学研究、系统组织推进的方式,这是中国特色,如此这样做好了,我们可以超越英美发达国家,实现更快更高更系统全面的创新发展。然而,做好统一规划,首先是要科学理解和科学发展其中的理论方法与技术。就统计工作和数据工作相分离的问题,首要的是他们的科学根基是否同族同系,是否一体化发展的问题。事实上,今天的数据信息具有海量规模和更多维、时频短、关联复杂、互动多变等特点,远远超越传统的统计数据的范围、内涵和作用。但是,统计工作与数据工作的产品和量化与归纳思维逻辑和理论方法是完全一体的,绝不能用“新技术、新方法”否定内在基因的传承与发展关系。把国家统计工作与国家数据工作分离分别发展,可能是极其错误的。
参考文献
[1] 汤超,关于AI for Science的几层意思,科学智能AISI 2022-08-15。
[2] 考希克·巴苏:经济学的现状,世界的现状,《比较》第109辑,2022年8月。
[3] 凌锋,系统医学可以帮助我们走出现代经典医学的困境吗?大国智谋,2022-08-14。
[4] 张平文,机理与数据的融合计算,北京科学智能研究院(AISI)AI for Science系列学术讲座,2022年5月25日,AISI Colloquium 深度势能 2022-06-03发表于湖北。讲座视频回放https://www.bilibili.com/video/BV1yt4y1s7hL?spm_id_from=333.999.0.0。
[5] 鄂维南,从数学角度理解机器学习的“黑魔法”,并应用于更广泛的科学问题,科学智能AISI 2022-07-10发表于北京。
[6] 中国航天科工三院航天海鹰卫星运营事业部,数字经济天空地一体化的省域数字化改革解决方案,航天星云 2022-09-02 07:00 发表于北京
统计之都(Capital of Statistics,简称 COS)成立于 2006 年,是一个旨在推广与应用统计学、数据科学知识的公益性网站和社区。
统计之都以专业、人本、正直、团结的理念尝试推动统计和数据科学在中国的发展,促进各行业的创新和繁荣。
编辑 | 赵霖琳
微信扫码关注该文公众号作者