【数据】1.数据分析与数据解释：揭示并解释趋势

科学

2024-01-23 09:01

内容提纲

数据的收集、分析、解释：天气与气候
数据分析：一个复杂且具有挑战性的过程
数据解释：发现和解释数据的趋势

科学共同体存在不同解释
关于数据解释的争论激发了进一步的研究

为他人提供数据
共享数据的技术推动科学发展

你知道么？

科学家并不总是就数据的含义达成一致？面对同一组数据，不同的科学家会得出不同的解释。科学家之间的分歧并不是一件坏事。

关键概念

数据收集是对信息的系统性记录；数据分析涉及发现数据的规律和趋势；数据解释涉及解释这些模式和趋势。
科学家根据自己的背景知识和经验解释数据；因此，不同的科学家可以用不同的方式解释相同的数据。
通过发布数据以及用来分析和解释这些数据的技术，科学共同体提供审查数据并将其用于未来研究的机会。

早上决定穿什么之前，我们会收集各种数据：所处的季节、天气预报的天气情况、哪些衣服干净、哪些衣服脏、今天要干什么。然后我们会分析这些数据，我们也许考虑“现在是夏天，所以通常很温暖。” 这样的分析可帮助我们确定最佳行动方案，并根据对信息的解释做出着装决策。在夏日，当知道自己会在室外时，我们可能会选择T恤和短裤；但如果知道自己会在开空调的室内，我们会带上一件外套。

这个例子看起来很简单，但科学家也是这样做数据收集、分析、解释的！科学观察和测量就是数据。数据经过分析和解释，就可以发展成解决问题的证据。数据是所有科学研究的核心，所有科学家都以某种形式收集数据。例如，帮你决定穿什么的天气预报，是气象学家分析卫星收集的数据后做出的解释。数据形式是多样的：汤里生长的细菌菌落数量（请参阅“科学中的实验研究”模块）、形成山脉的不同岩石层的一系列绘图或照片（请参阅“科学中的描述研究”模块）、吸烟者和不吸烟者中肺癌受害者的统计（请参阅“科学中的比较研究”模块）、全球气候模型预测的年平均气温变化（请参阅“科学中的建模研究”模块）。

比起随意看一下温度计来考虑自己应该穿什么，收集科学数据需要更为用心。科学家的研究基于自己和他人的工作，因此数据收集必须系统，收集方法必须前后一致，并做出详细记录，方便其他人获得并使用这些数据。这一点很重要。

收集数据只是科学研究的第一步，科学知识不是数据点的简单汇编。世界上可以观察的太多了，但并非每个观察都构成有用的数据。例如，气象学家可以每天每秒记录一次室外气温，但这会比每小时记录一次更准确吗？或许不会。所有科学家都会选择哪些数据与自己的研究最相关以及拿这些数据做些什么：如何通过处理与分析将测量集转化为有用的数据集、如何基于研究背景解释这些分析后的数据。经过深思熟虑后系统地收集、分析、解释数据，才能让数据发展成为支持科学观点的证据。

数据的收集、分析、解释：天气与气候

长期以来，天气一直是广泛的数据收集、分析、解释的课题。十八世纪中期，丹尼尔·加布里埃尔·华伦海特（Daniel Gabriel Fahrenheit）1714年发明了第一个标准化水银温度计，让准确测量气温成为可能（请参阅“温度”模块）。对于海上的水手来说，气温、风速、风向这些信息对航行至关重要，但在十八世纪末和十九世纪初，虽然航海探险变得普遍，这些信息却并不容易获得。美国海军图表和仪器仓库负责人马修·方丹·莫里 (Matthew Fontaine Maury) 非常担心缺乏可靠数据。因此，莫里1853年在比利时布鲁塞尔组织了第一届国际海事会议。这次会议确立了在船上进行天气测量的国际标准，并建立了一个国际共享此信息的系统。定义统一的数据收集标准，是生成真正的全球气象信息数据库的重要一步，世界不同地区的人员才能把数据收集到一个数据库中。莫里对海员风和洋流标准化数据的汇编如图1所示。早期在天气相关数据收集方面的国际合作和投入产生了宝贵的长期气温记录，其历史可以追溯到十九世纪50年代。

图1：来自Maury, Matthew F. 1858年的《风》

如此庞大的信息被认为是“原始”数据：数字表（日期和温度）、描述（云层）、位置等。原始数据本身就很有用——例如我们可以了解1801年6月5日伦敦的气温。但仅凭数据，我们无法得知过去200年来伦敦气温的变化情况，也无法得知该信息与全球范围的气候变化有何关系。为了了解规律和趋势，必须首先分析、解释数据。然后，经过分析与解释的数据可以用作科学论证的证据，以支持假说或理论。

好的数据就像一个宝库——科学家可以随时打开——因此准确且一致的数据记录以及用于收集这些数据的方法对任何科学研究都很重要。十九世纪50年代以来所收集的天气数据就是这样一个宝库，这要感谢莫里制定的标准。这些标准为数据收集和记录提供了指导方针，确保了数据收集的一致性。当年的船长能够利用这些数据来确定，那条线路穿越海洋最可靠。到了现代，许多研究气候变化的科学家利用同一组数据集来了解最近全球气温的变化。走哪条航道、全球气候如何变化，都不能简单靠查看数字和观察结果来回答，这两个问题都需要对数据进行分析和解释。

【考考自己】怎样收集的数据最有价值？

a.基于统一标准

b.很多人收集

数据分析：一个复杂且具有挑战性的过程

利用150年的气温数据来描述全球气候的变化，虽然听起来简单，实际上分析和解释这些数据的过程却相当复杂。比如任意一天世界各地的气温范围（见图2）：南非约翰内斯堡正值夏季，气温可达35°C (95°F)，而阿拉斯加州费尔班克斯的气温同一时间正值隆冬，气温为-35°C (-31°F)，而广阔的海洋没有前后统一的测量结果。要想获得当天的全球气温平均值，我们可以简单地取一天所有测量值的平均值，但这个平均值没有考虑到：自然会随时间变化很快，且测量值再空间上的分布并不均匀。

图2：某一日全球平均气温（摄氏度）的卫星图像合成图

定义全球平均温度，如何将这些数据处理成一组有意义的数字，需要科学家做出多项决定。1986年，气候学家琼斯（Phil Jones）、威格利（Tom Wigley）、赖特（Peter Wright）发表论文（Jones，Wigley & Wright，1986），这是对1861年至1984年全球平均表面气温变化的最早的评估之一。论文主要描述（五页中的三页）他们如何处理数据，来纠正历史数据中由与气候无关的因素带来的问题与不统一。例如，作者指出：

早期的 SST（海面温度）是使用未隔热的帆布桶中收集的水进行测量的。而最近的数据来自隔热桶或冷却水进水测量（cooling water intake measurements）。后者比未隔热的桶测量温度高0.3-0.7°C。

纠正这种偏差看着简单，只需在早期用帆布桶的测量数据上加约0.5°C，但其实很复杂。因为作者继续说，大多数海表温度数据没描述用了对哪种桶或系统。

海洋空气温度数据也有类似的问题。历史上海洋上空的气温测量是在船上进行的，但船舶的类型和尺寸可能会影响测量结果，因为尺寸“决定了进行观测的高度”。气温会随着距海平面距离的变化而迅速变化。因此，作者根据船舶尺寸对数据进行修正。琼斯、威格利、赖特先进行了几次此类校正，然后他们使用空间平均技术分析数据。这项技术将测量结果放置在地球表面的网格单元内，这样做是考虑到陆地上的测量比海洋上来得多。

开发这个网格，需要根据经验和判断做出许多决定，例如每个网格单元多大、网格单元在地球上如何分布。然后，他们计算了每个网格单元内的平均温度，并将所有这些方法结合起来计算每年的全球平均气温。在研究过程中常使用“平均”等统计技术，帮助识别数据内部和数据之间的趋势和关系（请参阅“科学统计”模块）。计算出这些空间平均的全球平均温度后，作者比较了1861年至1984年期间的平均值。

分析一系列数据（例如温度测量值随时间的变化）的常用方法，是查看偏差或与预定义参考值的差异。在本例中，作者将温度值与1970到1979年间的平均值进行比较（见图3）。从每个年度平均值中减去该参考平均值，生成图3中的锯齿线。这些线显示正偏差或负偏差（值大于或小于零）。尽管这样来显示数据显得周而复始或复杂，但它很有用，因为我们的目标是显示平均温度的“变化”而不是绝对值。

图3：黑线显示全球温度偏差，即全球年平均温度测量值与参考值之间的差异。平滑的红线是数据过滤后的10年平均值。（基于琼斯等人1986年发表的论文图 5）。

数据可视化可以方便进一步的分析（请参阅“在科学中运用图表与可视化数据"模块）。图3显示了数据中的大量变化：在整个研究期间，全球气温出现了多次峰值和下降。在变化如此之大的数据中找到趋势不容易；我们的眼睛会被锯齿状线条中的峰值吸引，例如1876年左右的气温大幅上升或1918年左右的显著下降。然而，这些极值并不一定反映数据的长期趋势。

为了更清楚地看到长期规律和趋势，琼斯等使用了另一种处理技术来过滤数据：通过计算10年平均值让数据变得平滑。图中的平滑曲线代表的是过滤后的数据。平滑线紧密跟随数据，但不达到极值。

数据处理和分析有时被误解为操纵数据以达到预期结果。但实际上，这些方法的目标是使数据更清晰，并不会改变它的本质。如上所述，除了报告数据之外，科学家还报告他们在发表工作时使用的数据处理和分析方法（请参阅“理解科学期刊与论文”模块），使他们的同行有机会评估原始数据以及分析数据的技术。

数据解释：发现和解释数据趋势

然后，我们就可以对分析的数据进行解释。通常，当科学家解释数据时，他们试图解释通过分析发现规律和趋势，利用他们所有的背景知识、经验和技能来解决问题，并将他们的数据与现有的科学观点联系起来。考虑到他们利用的知识每个人都不一样，这一步骤具有主观性，但这种主观性将通过同行评审过程进行审查（请参阅“科学同行评审”模块）。根据平滑曲线，琼斯、威格利、赖特将数据解释为气候有长期变暖趋势。他们指出，整个数据集中最热的三个年份是1980年、1981年、1983年。然而，他们并没有进一步解释可能导致温度升高的原因，而只是指出“考虑最近提出的关于气候变化原因的观点，这些数据看起来非常有趣。”

【考考自己】分析、解释数据只有一种方法。

a.对

b.错

科学界有不同解释

这项研究中提供的数据被整个科学共同体广泛接受，这在很大程度上归功于他们对数据的仔细描述和分析过程。然而在二十世纪80年代，一些科学家仍然对变暖趋势的解释持怀疑态度。

1990年，麻省理工学院的气象学家理查德·林岑（Richard Lindzen）发表了一篇论文，表达了他对变暖论点的担忧（Lindzen，1990）。林岑强调了他认为会削弱全球变暖观点的几个点。首先，他认为数据收集不足，这表明当前的数据收集站网络不足以纠正具有如此大的自然变化的数据固有的不确定性（考虑一下南极洲和撒哈拉沙漠一天内的天气有多么不同）。其次，他认为数据分析是错误的，而且覆盖范围的巨大差距，特别是在海洋上，引发了关于这样一个数据集是否能够充分代表全球系统的问题。最后，林岑提出，对全球平均气温数据的解释不恰当，数据没有趋势。他指出，从1940年到1970年，平均气温有所下降，而此时大气中的二氧化碳含量（被认为是温度升高的原因）却迅速增加。换句话说，林岑将不同的背景、经验、观点应用于同一数据集，并得出了截然不同的结论。

这类分歧在科学中很常见，并且通常会引发更多的数据收集和研究。事实上，对趋势存在或不存在的解释差异促使气候科学家向两个方向扩展温度记录：进一步追溯到过去，继续在世界各地建立专门的气象站。1998 年，曼（Michael Mann）、布拉德利（Raymond Bradley）、休斯（Malcolm Hughes）发表了一篇论文，极大地扩展了琼斯、威格利、赖特最初引用的记录（Mann，Bradley， Hughes，1998）。他们当然无法利用温度计的气温读数将记录追溯到公元1000年；作者使用其他来源的数据重建过去的气候，这些数据可以提供与气温相关的信息，例如树木年轮宽度、冰芯数据、珊瑚（图4）。

图4：年平均气温与1961-1990年参考期平均气温的差异。蓝线代表树木年轮、冰芯、珊瑚生长记录的数据；橙色线代表用现代仪器测量的数据。改编自曼等人发表在IPCC第三次评估报告中的图表。

曼、布拉德利、休斯使用了许多与琼斯等人相同的分析技术，例如应用十年运行平均值，此外，他们在图表中包含了测量不确定性：图中的灰色区域图4。报告数据误差和不确定性并不意味着测量结果错误或有缺陷。恰恰相反，误差的大小描述了科学家对数据准确性的信心程度，因此报告的误差越大表明信心越低（请参阅“不确定性、误差、置信度”模块）。他们指出，随着时间的推移，不确定性的程度会增加，但在1900年左右变得更确定。

作者描述了他们在数据中看到的几个趋势：整个记录中的几个较温暖和较冷的时期（例如，比较图4中1360年至1460年左右的数据），以及二十世纪明显的变暖趋势。事实上，他们指出“二十世纪之前的几乎所有年份都远低于二十世纪的平均温度”，并且这些年份显示出温度下降的线性趋势（图 4，粉色虚线）。有趣的是，琼斯等人。报道称，最热的三个年份都在其记录的最后十年内，曼等人收集的更广泛的数据集也同样显示。报告称，他们直到1998年的数据显示，最热年份是1990年、1995年、1997年。

关于数据解释的争论激发了进一步的研究

关于气候变化相关数据解释的争论以及对这些变化后果的兴趣，导致针对气候变化的科学研究数量大幅增加，并且现在有多种科学证据支持最初的结论由琼斯、威格利、赖特在二十世纪80年代中期得出的结论。所有这些结果都总结在政府间气候变化专门委员会 (IPCC) 于 2007 年向公众发布的第四次评估报告 (AR4) 中（IPCC，2007）。根据这些多个数据集之间的一致性，科学家团队写道：

气候系统变暖是明确的。现在明显看到：全球平均空气和海洋温度上升、冰雪大范围融化、全球平均海平面上升。

“现在明显”反映了随着时间的推移，数据积累得更多了，包括了截至2007年的最新数据。

进一步的数据解释，包含了温度升高的原因。AR4继续写道：

自二十世纪中叶以来观察到的全球平均气温升高，很可能是由于观察到的人为温室气体浓度增加所致。

除了温度数据之外，这一声明还依赖于许多数据源，包括春季树芽首次出现的时间、大气中的温室气体浓度、冰芯中氧和氢同位素的测量等多种数据。分析和解释如此多样化的数据集，需要参与IPCC报告的许多科学家的综合专业知识。这种数据和解释的广泛综合对于科学进程至关重要，它强调了科学家个人如何在他人工作的基础上进行构建，并有可能激发不同学科科学家之间进一步研究的合作。

数据解释并不是混战，并不是所有解释都同样有效。解释涉及构建解释数据的逻辑科学论证。科学解释既不是绝对真理，也不是个人观点：它们是基于科学知识和个人专业知识的基础上对数据含义的推论、建议、假说。当科学家开始解释他们的数据时，他们会利用个人和集体知识，经常与走廊另一头或另一个大洲的同事讨论结果。他们利用经验、逻辑和简约来为数据构建一种或多种合理的解释。与任何人类活动一样，科学家可能会犯错误，甚至故意欺骗同行（请参阅“科学伦理”模块），但绝大多数科学家提出了他们认为最合理且有数据支持的解释。

【考考自己】如果科学家对如何解释一组数据存在分歧，这通常

a. 意味着数据无效并且研究是浪费时间。

b. 导致额外的数据收集和研究。

为他人提供数据

数据收集、分析、解释的过程可长可短。在一天、一年或很多年的过程中，可能有一名或多名科学家参与，他们的优先事项随着时间推移而改变。因此，科学实践最重要的组成部分之一是科学文献中数据的出版（请参阅“利用科学文献”模块）。随着新研究问题的出现，正确收集、存储的数据仍然有用。事实上，一些研究会使用新技术、用不同的方法来查看数据，或者结合多项研究的结果来重新分析数据。

例如，1997年，乳腺癌激素因素合作小组在著名医学杂志《柳叶刀》上发表了一项广为宣传的研究，题为“乳腺癌和激素替代疗法：对51项流行病学研究数据的协同再分析，研究对象为52705名患有乳腺癌的女性和 108411名未患乳腺癌的女性”（乳腺癌激素因素协同小组，1997年）。乳腺癌与激素替代疗法 (HRT) 之间可能存在的联系，已被科学家研究多年，但结果好坏参半：早在1981年，一些科学家就认为HRT会导致癌症风险小幅增加（Brinton 等，1981），但后来研究表明风险不会增加（Kaufman 等，1984）。通过汇总大量研究的结果并重新分析数据，研究人员得出结论，接受激素替代疗法的女性更容易患乳腺癌。作者解释为什么使用重新分析数据：

当前和最近使用者中每年使用[HRT]所导致的乳腺癌相对风险的增加很小。因此不可避免地，一些研究会偶然地显示出显著的关联，而其他研究则不会。结合许多研究的结果，能明显减少这种随机波动。

在许多情况下，科学家解决新问题用到的数据是出于其他目的收集的。例如，收集天气数据的最初原因是为了更好地预测风和风暴，帮助确保商船的安全航行。直到最近，人们的兴趣才转向天气的长期变化，但相同的数据很容易有助于回答这两个问题。

共享数据的技术推动科学发展

当今科学最令人兴奋的进步之一，是公共信息数据库的开发，让数据能被所有人访问和使用。例如，获取气候和海洋数据通常非常昂贵，因为它们需要大规模作业，如钻探冰芯、建立跨太平洋的浮标网络。这些数据通过机构运营（例如美国能源部运营的二氧化碳信息分析中心）维护与分发，并通过几个网站在线共享（请参阅“基于资源的研究”模块）。任何人都可以下载这些数据来进行分析和解释。同样，人类基因组计划有一个可搜索的人类基因组数据库，研究人员可以在其中上传和下载数据（请参阅“基于资源的研究”模块）。

共享数据库的数量相当庞大。出于需要，美国国家标准与技术研究院维护着一个关于这些数据库的数据库。一些机构要求参与者公开数据，例如美国地震学联合研究机构 (IRIS)是这么做的：IRIS的仪器部门通过提供地震仪器、设备维护和培训、实验的后勤现场支持，来为研究人员提供支持。任何人都可以申请使用这些仪器，只要向IRIS提供他们在地震实验中收集的数据即可。然后，IRIS将这些数据向公众公开。

向其他科学家提供数据并不是一个新概念，但以可搜索的格式在互联网上提供这些数据彻底改变了科学家与数据交互的方式，让以前无法进行的研究工作成为可能。这种数据的汇集有助于在全球范围内和长时间内进行新的分析和解释。此外，让数据容易获取有助于促进跨学科研究，为许多领域的不同科学家打开探索之门。

资料来源：

Anne E. Egger, Ph.D., Anthony Carpi, Ph.D. “Data Analysis and Interpretation” Visionlearning Vol. POS-1 (1), 2008.

https://www.visionlearning.com/en/library/process-of-science/49/data-analysis-and-interpretation/15

我们不需要英雄

但我们需要榜样

几只青椒

长按二维码关注

References

Brinton, L. A., Hoover, R. N., Szklo, M., & Fraumeni, J. F. J. (1981). Menopausal estrogen use and risk of breast cancer. Cancer, 47(10), 2517-2522.
Collaborative Group on Hormonal Factors in Breast Cancer. (1997). Breast cancer and hormone replacement therapy: Collaborative reanalysis of data from 51 epidemiological studies of 52,705 women with breast cancer and 108,411 women without breast cancer. The Lancet, 350(9084), 1047-1059.
IPCC. (2007). Climate change 2007: The physical science basis. Contribution of Working Group I to the Fourth Assessment Report of the Intergovernmental Panel on Climate Change. New York: Cambridge University Press.
Jones, P. D., Wigley, T. M. L., & Wright, P. B. (1986). Global temperature variations between 1861 and 1984. Nature, 322(6078), 430-434.
Kaufman, D. W., Miller, D. R., Rosenberg, L., Helmrich, S. P., Stolley, P., Schottenfeld, D., & Shapiro, S. (1984). Noncontraceptive estrogen use and the risk of breast cancer. Journal of the American Medical Association, 252(1), 63-67.
Lindzen, R. S. (1990). Some coolness concerning global warming. Bulletin of the American Meteorological Society, 71(3), 288-299.
Mann, M. E., Bradley, R. S., & Hughes, M. K. (1998). Global-scale temperature patterns and climate forcing over the past six centuries. Nature, 392(6678), 779-787.

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章