下一本 | 当人工智能越来越普及,我们如何面对AI数据伦理问题?
“
从机器学习到智能创造,从PGC、UGC到AIGC,我们即将见证一场深刻的生产力变革,而这份变革也会影响到我们工作与生活的方方面面。让我们一起迎接全新的智能创作时代。
(以下内容摘自《人工智能伦理与治理——未来视角》一书)
站在行业角度,人工智能主要的伦理问题涉及四个方面:透明可解释标准、公平性评价、隐私保护、安全。此外,人机协作、责任划分等问题也不可忽略。
AI科技伦理成为行业“必选项”,国家顶层设计亦有强调。十九届四中全会审议通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》要求健全科技伦理治理体制;“十四五规划和2035年远景规划纲要”提出健全科技伦理体系,完善相关法律法规和伦理审查规则;“数据安全法”明确要求数据处理活动遵循社会公德和伦理价值;2022年3月发布的《关于加强科技伦理治理的指导意见》要求企业根据实际情况建立科技伦理(审查)委员会,从事AI等科技活动涉及科技伦理敏感领域的,应当设立伦理委员会。
01
三个阶段
2016 年至今,从原则到实践,AI科技伦理成为“必选项”经历了如下三个阶段。
1)原则爆发阶段,全球各大行业和一些知名企业及研究机构提出自己的AI伦理原则。哈佛大学法学院伯克曼 • 克莱因互联网和社会研究中心的报告《有原则的人工智能:基于伦理及权利的人工智能原则共识归纳》(Principled Artificial Intelligence: Mapping Consensus in Ethical and Rights-Based Approaches to Principles for AI)对此有详细介绍。
2)共识寻求阶段,加强AI国际治理,经济合作与发展组织 (Organization for Economic Cooperation and Development,OECD)等机构主张推动建立国际公认的伦理框架准则。
3)伦理实践阶段,很多企业都在讨论如何把AI原则贯彻到日常技术实践中。如Google Cloud为打造负责任的AI而采取措施;微软设立负责任AI办公室,全面推进负责任AI的落地实施。
AI伦理原则有两个嵌入实践的思路。一个思路是借鉴传统的隐私保护,把伦理嵌入AI全生命周期。具体而言,是把伦理价值、原则、要求和程序融入AI、机器人和大数据系统的设计、开发、部署过程。另一个思路是考虑公平、安全、透明(可解释)、责任等价值。
目前,伦理嵌入设计是全新的概念,涉及哪些基本原则,有哪些落地方式,还需要进一步探索。已有的行业实践包括设立伦理委员会,组织培训、审查从而确保设计活动中考虑伦理的要求;构建“AI模型说明书”,推动AI算法的透明性和可解释性。例如,谷歌推出的“模型卡”工具集(Model Card Toolkit),IBM 的 AI 事实清单等等。
行业实践还包括树立伦理即服务战略,寻找AI伦理问题的技术解决方案。AI伦理服务是AI领域最新发展趋势,针对可解释、公平、安全、隐私等方面的伦理问题,研发、开源技术工具。目前,谷歌、IBM、微软等大型科技公司正大力布局,开发旨在解决伦理问题的技术工具并集成到云、算法平台上。此外,AI伦理创业公司也不断涌现,提供技术方案来应对伦理问题,实现可信、负责任的AI。
02
三个通用方式
关于 AI 数据伦理治理的实践,企业界有如下三个通用的方式。
1)寻找隐私防护的机器学习方法。AI训练需要大量的数据,数据中往往包含用户的个人隐私信息,利用一些技术,AI模型可以实现训练、开发与隐私保护之间的平衡。联邦学习、安全多方计算、区块链等技术或方案是其中的代表。
联邦学习能够在数据不出本地的情况下实现联合训练AI模型的效果,保护隐私和信息安全。从研究的角度,联邦学习和传统机器学习方法相比,准确率没有太大差别。目前联邦学习已经处于大规模商用的前期,但需要解决效率、成本、能耗、配置门槛等问题。
2)利用合成数据训练AI模型。合成数据是生成对抗网络的典型应用,代表性的模型是生成对抗网络(Generative Adversarial Networks,GAN)。GAN由生成网络和鉴别网络组成,前者负责产生合成数据,后者负责鉴别,在持续迭代中不断优化GAN。
目前,在医疗领域,可以利用“深度合成”技术合成医疗影像数据,为AI诊疗系统提供必需的训练数据,解决隐私保护、数据不足等问题。合成数据在2020年发展非常迅猛,在腾讯研究院和腾讯优图实验室发布的《AI生成内容发展报告2020》中,更是将2020年定位为“深度合成”元年。
3)构建无偏见训练数据集。AI大咖Yann LeCun曾发推称数据偏见导致了AI偏见,引发了关于数据是不是算法偏见唯一来源的大辩论。Yann LeCun推文译文为:机器学习系统的偏差,原因在于数据的偏差。如果模型在FlickFaceHQ数据集上进行预训练,该数据集里基本都是白人照片,会让每个人看起来很白。如果换成来自塞内加尔的数据集,训练完全相同的系统,那必然是每个人看起来都像非洲人。
当时热议的是Pulse算法,它可以把低分辨率图片转换成高分辨率图片。研究人员发现该算法会把模糊的黑人、亚裔人种的照片都还原为白人。这场争论的启示是:数据是AI最核心的要素,AI的很多偏见和歧视都源于数据。当然算法的设计选择、学习与交互过程等也可能带来偏见,但当前算法歧视最主要的来源还是数据,而且算法的运行可能把数据集中的微小偏见放大。所以AI数据伦理治理一个非常核心的问题是,需要在AI设计开发的源头上就构建无偏见的训练数据集,这需要各界一起探索相应的标准来指导技术实践。
《人工智能伦理与治理——未来视角》
编者:未来论坛
出版时间:2023年1月
出版社:中国工信出版集团/人民邮电出版社
扫码了解AI应用背后的挑战
微信扫码关注该文公众号作者