为了避免AI行为不端，有必要为其注入人类价值

2024-04-01 00:04

2023年3月推出GPT-4的时候，OpenAI号称它比其令人惊艳的前身更加优异，称新版本在准确性、推理能力和测试分数方面表现更好——所有这些都是之前常用的AI性能指标。然而，最引人注目的是，OpenAI将GPT-4描述为“更加一致”（more aligned）——这或许是AI产品或服务首次以“与人类价值观一致”而营销。

技术应该服从道德护栏的观点并不新鲜。随着AI价值与人类价值的一致性不仅仅是监管要求，而成为产品差异化的因素，公司需要调整AI产品和服务的开发流程。本文旨在明确企业家和高管在将安全和与人类价值观一致的AI产品推向市场时面临的挑战。及早采取行动应对这些挑战的公司将获得重要的竞争优势。

这些挑战分为六类，对应于典型创新过程的关键阶段。对于每个类别，我们提供了高管可以借鉴的框架、实践和工具。这些建议来自我们对AI产品价值对齐方法的联合和独立研究，以及我们帮助企业在多个领域开发和部署AI产品和服务的经验，包括社交媒体、医疗保健、金融和娱乐业。

为你的AI产品定义价值观

第一项任务是确定那些必须将其价值观考虑在内的人。鉴于AI对社会的潜在影响，公司需要考虑到比评估其他产品功能时更多样化的利益相关者群体。他们可能不仅包括员工和客户，还包括民间社会组织、政策制定者、社会活动家、行业协会和其他人。当产品所在市场涵盖不同文化或法规的地缘因素时，情况可能会变得更复杂。必须了解所有这些利益相关者的偏好，并弥合他们之间的分歧。

这方面的挑战可以通过两种方式来应对。

嵌入既定原则。按照这种方法，公司直接借鉴已有的道德体系和理念的价值观，如实用主义，或遵照由国际机构开发的价值观，比如OECD发布的AI原则。例如，由谷歌（现Alphabet）资助的AI创业公司Anthropic将其AI产品Claude的原则建立在联合国《世界人权宣言》的基础上。其他公司也有类似行动；例如，宝马的原则类似于OECD的原则。

阐明你自己的价值观。一些公司组建了一支专家团队——技术专家、伦理学家、人权专家等等——来建立自己的价值观。这些人可能对使用某种技术所固有的风险（和机遇）有很好的理解。Salesforce公司就采取了这种方法。在其原则声明的序言中，该公司将这一过程描述为“从公司各个部门的个人贡献者、经理和高管那里征求反馈的长达一年的旅程，包括工程部、产品开发部、用户体验部、数据科学部、法务部、平等事务部、政府事务部和营销部”。

另一种方法是由DeepMind的科学家团队开发的。DeepMind是一家AI研究实验公司，2014年被谷歌收购。这种方法包括向客户、员工等人咨询，以最小化自我利益偏见的方式激发出公司的AI原则和价值观。它是基于“无知之幕”（veil of ignorance）——由哲学家约翰·罗尔斯（John Rawls）构思的一个思想实验，人们在不知道自己在社区中的相应位置的情况下提出社区规则——这意味着他们不知道规则将如何影响他们。使用这种方法产生的价值相比其他方法而言不会那么自我利益驱动，而是更关注AI如何帮助最弱势的群体，并且更加稳健，这样人们通常更容易接受它们。

将价值观写进程序

除了建立指导价值观，公司还需要考虑明确限制AI产品的行为。隐私设计、安全设计等实践在这方面非常有用。这些实践以原则和评估工具为基础，将目标价值嵌入组织的文化和产品开发过程中。应用这些实践的公司员工有动力在设计新产品的早期，仔细评估和减轻潜在风险；建立客户可以用来报告问题的反馈循环；并不断评估和分析这些报告。

生成式AI系统需要在程序中写入正式的道德护栏，以便它们不会违反定义的价值观或越过红线（Red lines），例如，同意不当请求或生成不可接受的内容。包括英伟达和OpenAI在内的公司正在开发框架来提供这种护栏。例如，GPT-4被营销为比GPT-3.5更不可能响应不允许内容的请求，如仇恨言论或恶意软件代码。

红线也是由不断演变的法规所定义的。作为回应，公司需要更新其AI产品的合规性，这会在不同市场之间日益分化。以一家欧洲银行为例，该银行希望推出一款生成式AI工具来改善客户互动。直到最近，该银行只需要遵守欧盟的数据保护法（EU’s General Data Protection Regulation），但很快它也需要遵守欧盟的AI法案（EU’s AI Act）。如果它想在中国或美国部署AI，它将不得不遵守那里的法规。随着当地规则的变化，以及银行成为跨司法管辖区监管的对象，它还需要调整其AI产品策略并管理潜在的不兼容要求。

价值观、红线、道德护栏和法规都应该整合并嵌入AI产品的编程之中，以便，例如法规的变更可以被键入并自动传达给受其影响的AI程序的每个部分。

权衡取舍

近年来，我们看到公司在努力平衡隐私与安全、信任与安全、提供帮助的同时尊重他人的自主权，当然，还有短期财务指标的价值观。例如，提供老年人辅助或儿童教育产品的公司不仅要考虑安全，还要考虑尊严和代理程度：什么时候AI产品不应该帮助老年用户，以便增强他们的信心、照顾他们的尊严？什么时候应该帮助儿童确保他们积极的学习体验？

应对这种挑战的一个方法是根据其价值观对市场进行细分。例如，一家公司可能决定专注于一个更重视隐私等原则而不是算法准确性的较小市场。这就是搜索引擎公司DuckDuckGo选择的路径，它限制定向广告并优先考虑隐私。该公司定位自己是为不想被在线跟踪的互联网用户提供的替代品。

与合作伙伴对齐价值观

萨姆·奥特曼作为OpenAI的CEO，在播客《在好公司》（In Good Company）中分享了他们的挑战：公司应该给不同文化和价值体系的人多大的灵活性来定制OpenAI的产品？他指的是一种趋势，即公司采用预训练模型，如GPT-4、PaLM、LaMDA和稳定扩散，并对其进行微调以构建自己的产品。（注：PaLM与LaMDA均为大语言模型）

正如奥特曼指出的那样，问题在于基础模型的所有者对其产品的处理几乎没有控制权。调整模型的公司也有类似的问题：他们如何确保使用第三方模型创建的新产品，与期望的价值观保持一致——特别是考虑到他们可以微调的程度的限制？只有原始模型的开发人员知道在训练它们时使用了哪些数据，因此公司需要仔细选择他们的AI合作伙伴。他们还必须与其他合作伙伴保持一致，例如训练数据的提供者，这些合作伙伴可能持有各种不良偏见，从而影响最终产品。

为了解决这些问题，AI开发者可能需要建立评估外部AI模型和数据的程序，并在启动新的伙伴关系之前挖掘潜在伙伴的价值观和基本技术系统。（这可能类似于企业在管理可持续发展方面潜在伙伴风险的方式，以及衡量和管理范围三的碳排放做法。）

这不是一个一次性的游戏。随着强大基础模型之间的竞争展开，公司可能会随着时间的推移改变他们用于产品的模型。他们会发现，AI测试能力和围绕价值观的有效尽职调查很可能是公司竞争优势的来源。

确保人类的反馈

给AI产品注入价值观需要大量数据——如前所述，其中大部分将由人类生成或标记。在大多数情况下，它分为两个数据流：用于训练AI的数据，和对用户行为的持续反馈的数据。为了确保价值观的一致性，必须建立新的反馈流程。

一种常见做法被称为“从人类反馈中强化学习”（RLHF），这是一个过程，通过输入人类的反馈，可以最小化不良输出，如辱骂性语言。人类审查AI系统的输出，例如对某人简历的分类、执行导航动作的决定或生成内容，并根据其与某些价值观不对齐的程度对其进行评级。该评级用于新的训练数据中，以改善AI产品的行为。当然，这种方法中的一个关键决定是，谁应该提供反馈以及如何提供。强化学习可能发生在AI生命周期的各个阶段，包括产品推出之前和之后。在早期阶段，工程师可以在测试AI产品的输出时提供反馈。另一种做法是创建“红队”（red teams），其任务是逼迫出AI的不良行为。“红队”广泛用于其他领域，例如网络安全。他们充当对手，攻击系统以探索它是否以及如何可能失败。尽管这些团队通常是组织内部的，但外部社区也可以被使用。例如，2023年，数千名黑客在全球最大的网络安全会议Def Con上聚集，以“攻击”大语言模型并识别漏洞。

产品发布之后，还需要继续教AI按照某些价值观行事。AI在这方面就像人类：无论接受了何种正规教育，我们都会根据反馈不断调整自己的行为，以符合所在社区的价值观。当人们使用AI或受其影响时，他们可能会观察到似乎违反其营销价值观的行为。允许他们提供反馈可以成为改善AI行为的重要数据来源。

准备好迎接意外

AI程序出现了越来越多意想不到的行为。例如，据报道，美国空军最近在一次实验中使用的AI模拟工具，建议杀死飞行员，以确保飞行任务得到恰当执行。另一个例子是AlphaGo发明的围棋程序Go的最新举动，被围棋高手们认为是“超人的和出乎意料的”。也许最著名的例子要属微软的必应（Bing）聊天机器人，它在推出后不久就开始对用户表现出攻击性甚至威胁行为，直到微软大幅缩短了可能的对话长度后才停止。同样不可预见的体验将大幅增加，特别是因为Chat GPT和其他大型AI模型现在可以执行它们没有明确编程的任务——例如翻译任何训练数据中不包括的语言。

一些不可预测的行为可能是由用户与AI产品的互动引起的，无论是有意还是无意。这些产品可能允许个人和公司进行极端的版本更新和超级个人化，这些个人和公司利用来自不同市场的数据微调模型。通过这种方式，可以根据每个用户与AI产品的交互方式创建和定制无数版本。确保所有这些版本保持一致，并且不出现新的行为，会很有挑战性。

公司必须实施强大的流程来检测和改善AI产品发布后的有害或意外行为。事件必须被识别，由用户或任何其他受影响的人报告，并由公司进行分析。公司可能需要建立AI事件数据库，就像OECD和合作伙伴开发的AI数据库一样，以便不断学习和记录他们的AI产品是如何发展的。

在一个AI价值观一致性可能决定竞争结果甚至成为产品质量要求的世界里，认识到产品差异化的风险和机遇，拥抱新的AI产品实践和流程以保持领先地位至关重要。客户与更广大的社会，都期望公司按照某些价值观来运营。在这个新世界中，他们绝不能推出行为不端的AI产品和服务。

雅各布·艾伯内西（Jacob Abernethy）弗朗索瓦·坎德伦（François Candelon）西奥多罗斯·叶夫根尼乌（Theodoros Evgeniou）阿比谢克·古普塔（Abhishek Gupta）伊夫·洛斯坦伦（Yves Lostanlen）| 文

雅各布·艾伯内西是佐治亚理工学院的副教授，也是水质分析检测公司BlueConduit的联合创始人。弗朗索瓦·坎德伦是波士顿咨询公司的董事总经理和高级合伙人，也是BCG亨德森研究所的全球总监。西奥多罗斯·叶夫根尼乌是欧洲工商管理学院的教授，也是信托和安全公司Tremau的联合创始人。阿比谢克·古普塔是波士顿咨询公司负责AI的主任，BCG亨德森研究所研究员，蒙特利尔AI伦理研究所的创始人和首席研究员。伊夫·洛斯坦伦曾担任多家公司的CEO与CEO顾问，包括AI Redefined、Element AI。

飞书、Pi | 译校程明霞 | 编辑