下一本 | 当人工智能越来越普及，我们如何面对AI数据伦理问题？

1年前

“

从机器学习到智能创造，从PGC、UGC到AIGC，我们即将见证一场深刻的生产力变革，而这份变革也会影响到我们工作与生活的方方面面。让我们一起迎接全新的智能创作时代。

（以下内容摘自《人工智能伦理与治理——未来视角》一书）

站在行业角度，人工智能主要的伦理问题涉及四个方面：透明可解释标准、公平性评价、隐私保护、安全。此外，人机协作、责任划分等问题也不可忽略。

AI科技伦理成为行业“必选项”，国家顶层设计亦有强调。十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》要求健全科技伦理治理体制；“十四五规划和2035年远景规划纲要”提出健全科技伦理体系，完善相关法律法规和伦理审查规则；“数据安全法”明确要求数据处理活动遵循社会公德和伦理价值；2022年3月发布的《关于加强科技伦理治理的指导意见》要求企业根据实际情况建立科技伦理（审查）委员会，从事AI等科技活动涉及科技伦理敏感领域的，应当设立伦理委员会。

三个阶段

2016 年至今，从原则到实践，AI科技伦理成为“必选项”经历了如下三个阶段。

1）原则爆发阶段，全球各大行业和一些知名企业及研究机构提出自己的AI伦理原则。哈佛大学法学院伯克曼 • 克莱因互联网和社会研究中心的报告《有原则的人工智能：基于伦理及权利的人工智能原则共识归纳》(Principled Artificial Intelligence: Mapping Consensus in Ethical and Rights-Based Approaches to Principles for AI)对此有详细介绍。

2）共识寻求阶段，加强AI国际治理，经济合作与发展组织 (Organization for Economic Cooperation and Development，OECD)等机构主张推动建立国际公认的伦理框架准则。

3）伦理实践阶段，很多企业都在讨论如何把AI原则贯彻到日常技术实践中。如Google Cloud为打造负责任的AI而采取措施；微软设立负责任AI办公室，全面推进负责任AI的落地实施。

AI伦理原则有两个嵌入实践的思路。一个思路是借鉴传统的隐私保护，把伦理嵌入AI全生命周期。具体而言，是把伦理价值、原则、要求和程序融入AI、机器人和大数据系统的设计、开发、部署过程。另一个思路是考虑公平、安全、透明（可解释）、责任等价值。

目前，伦理嵌入设计是全新的概念，涉及哪些基本原则，有哪些落地方式，还需要进一步探索。已有的行业实践包括设立伦理委员会，组织培训、审查从而确保设计活动中考虑伦理的要求；构建“AI模型说明书”，推动AI算法的透明性和可解释性。例如，谷歌推出的“模型卡”工具集(Model Card Toolkit)，IBM 的 AI 事实清单等等。

行业实践还包括树立伦理即服务战略，寻找AI伦理问题的技术解决方案。AI伦理服务是AI领域最新发展趋势，针对可解释、公平、安全、隐私等方面的伦理问题，研发、开源技术工具。目前，谷歌、IBM、微软等大型科技公司正大力布局，开发旨在解决伦理问题的技术工具并集成到云、算法平台上。此外，AI伦理创业公司也不断涌现，提供技术方案来应对伦理问题，实现可信、负责任的AI。

三个通用方式

关于 AI 数据伦理治理的实践，企业界有如下三个通用的方式。

1）寻找隐私防护的机器学习方法。AI训练需要大量的数据，数据中往往包含用户的个人隐私信息，利用一些技术，AI模型可以实现训练、开发与隐私保护之间的平衡。联邦学习、安全多方计算、区块链等技术或方案是其中的代表。

联邦学习能够在数据不出本地的情况下实现联合训练AI模型的效果，保护隐私和信息安全。从研究的角度，联邦学习和传统机器学习方法相比，准确率没有太大差别。目前联邦学习已经处于大规模商用的前期，但需要解决效率、成本、能耗、配置门槛等问题。

2）利用合成数据训练AI模型。合成数据是生成对抗网络的典型应用，代表性的模型是生成对抗网络(Generative Adversarial Networks，GAN)。GAN由生成网络和鉴别网络组成，前者负责产生合成数据，后者负责鉴别，在持续迭代中不断优化GAN。

目前，在医疗领域，可以利用“深度合成”技术合成医疗影像数据，为AI诊疗系统提供必需的训练数据，解决隐私保护、数据不足等问题。合成数据在2020年发展非常迅猛，在腾讯研究院和腾讯优图实验室发布的《AI生成内容发展报告2020》中，更是将2020年定位为“深度合成”元年。

3）构建无偏见训练数据集。AI大咖Yann LeCun曾发推称数据偏见导致了AI偏见，引发了关于数据是不是算法偏见唯一来源的大辩论。Yann LeCun推文译文为：机器学习系统的偏差，原因在于数据的偏差。如果模型在FlickFaceHQ数据集上进行预训练，该数据集里基本都是白人照片，会让每个人看起来很白。如果换成来自塞内加尔的数据集，训练完全相同的系统，那必然是每个人看起来都像非洲人。

当时热议的是Pulse算法，它可以把低分辨率图片转换成高分辨率图片。研究人员发现该算法会把模糊的黑人、亚裔人种的照片都还原为白人。这场争论的启示是：数据是AI最核心的要素，AI的很多偏见和歧视都源于数据。当然算法的设计选择、学习与交互过程等也可能带来偏见，但当前算法歧视最主要的来源还是数据，而且算法的运行可能把数据集中的微小偏见放大。所以AI数据伦理治理一个非常核心的问题是，需要在AI设计开发的源头上就构建无偏见的训练数据集，这需要各界一起探索相应的标准来指导技术实践。

《人工智能伦理与治理——未来视角》

编者：未来论坛

出版时间：2023年1月

出版社：中国工信出版集团/人民邮电出版社

扫码了解AI应用背后的挑战

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章