Redian新闻
>
为了避免AI行为不端,有必要为其注入人类价值

为了避免AI行为不端,有必要为其注入人类价值

公众号新闻



2023年3月推出GPT-4的时候,OpenAI号称它比其令人惊艳的前身更加优异,称新版本在准确性、推理能力和测试分数方面表现更好——所有这些都是之前常用的AI性能指标。然而,最引人注目的是,OpenAI将GPT-4描述为“更加一致”(more aligned)——这或许是AI产品或服务首次以“与人类价值观一致”而营销。


技术应该服从道德护栏的观点并不新鲜。随着AI价值与人类价值的一致性不仅仅是监管要求,而成为产品差异化的因素,公司需要调整AI产品和服务的开发流程。本文旨在明确企业家和高管在将安全和与人类价值观一致的AI产品推向市场时面临的挑战。及早采取行动应对这些挑战的公司将获得重要的竞争优势。


这些挑战分为六类,对应于典型创新过程的关键阶段。对于每个类别,我们提供了高管可以借鉴的框架、实践和工具。这些建议来自我们对AI产品价值对齐方法的联合和独立研究,以及我们帮助企业在多个领域开发和部署AI产品和服务的经验,包括社交媒体、医疗保健、金融和娱乐业。



为你的AI产品定义价值观


第一项任务是确定那些必须将其价值观考虑在内的人。鉴于AI对社会的潜在影响,公司需要考虑到比评估其他产品功能时更多样化的利益相关者群体。他们可能不仅包括员工和客户,还包括民间社会组织、政策制定者、社会活动家、行业协会和其他人。当产品所在市场涵盖不同文化或法规的地缘因素时,情况可能会变得更复杂。必须了解所有这些利益相关者的偏好,并弥合他们之间的分歧。


这方面的挑战可以通过两种方式来应对。


嵌入既定原则。按照这种方法,公司直接借鉴已有的道德体系和理念的价值观,如实用主义,或遵照由国际机构开发的价值观,比如OECD发布的AI原则。例如,由谷歌(现Alphabet)资助的AI创业公司Anthropic将其AI产品Claude的原则建立在联合国《世界人权宣言》的基础上。其他公司也有类似行动;例如,宝马的原则类似于OECD的原则。


阐明你自己的价值观。一些公司组建了一支专家团队——技术专家、伦理学家、人权专家等等——来建立自己的价值观。这些人可能对使用某种技术所固有的风险(和机遇)有很好的理解。Salesforce公司就采取了这种方法。在其原则声明的序言中,该公司将这一过程描述为“从公司各个部门的个人贡献者、经理和高管那里征求反馈的长达一年的旅程,包括工程部、产品开发部、用户体验部、数据科学部、法务部、平等事务部、政府事务部和营销部”。


另一种方法是由DeepMind的科学家团队开发的。DeepMind是一家AI研究实验公司,2014年被谷歌收购。这种方法包括向客户、员工等人咨询,以最小化自我利益偏见的方式激发出公司的AI原则和价值观。它是基于“无知之幕”(veil of ignorance)——由哲学家约翰·罗尔斯(John Rawls)构思的一个思想实验,人们在不知道自己在社区中的相应位置的情况下提出社区规则——这意味着他们不知道规则将如何影响他们。使用这种方法产生的价值相比其他方法而言不会那么自我利益驱动,而是更关注AI如何帮助最弱势的群体,并且更加稳健,这样人们通常更容易接受它们。



将价值观写进程序


除了建立指导价值观,公司还需要考虑明确限制AI产品的行为。隐私设计、安全设计等实践在这方面非常有用。这些实践以原则和评估工具为基础,将目标价值嵌入组织的文化和产品开发过程中。应用这些实践的公司员工有动力在设计新产品的早期,仔细评估和减轻潜在风险;建立客户可以用来报告问题的反馈循环;并不断评估和分析这些报告。


生成式AI系统需要在程序中写入正式的道德护栏,以便它们不会违反定义的价值观或越过红线(Red lines),例如,同意不当请求或生成不可接受的内容。包括英伟达和OpenAI在内的公司正在开发框架来提供这种护栏。例如,GPT-4被营销为比GPT-3.5更不可能响应不允许内容的请求,如仇恨言论或恶意软件代码。


红线也是由不断演变的法规所定义的。作为回应,公司需要更新其AI产品的合规性,这会在不同市场之间日益分化。以一家欧洲银行为例,该银行希望推出一款生成式AI工具来改善客户互动。直到最近,该银行只需要遵守欧盟的数据保护法(EU’s General Data Protection Regulation),但很快它也需要遵守欧盟的AI法案(EU’s AI Act)。如果它想在中国或美国部署AI,它将不得不遵守那里的法规。随着当地规则的变化,以及银行成为跨司法管辖区监管的对象,它还需要调整其AI产品策略并管理潜在的不兼容要求。


价值观、红线、道德护栏和法规都应该整合并嵌入AI产品的编程之中,以便,例如法规的变更可以被键入并自动传达给受其影响的AI程序的每个部分。



权衡取舍


近年来,我们看到公司在努力平衡隐私与安全、信任与安全、提供帮助的同时尊重他人的自主权,当然,还有短期财务指标的价值观。例如,提供老年人辅助或儿童教育产品的公司不仅要考虑安全,还要考虑尊严和代理程度:什么时候AI产品不应该帮助老年用户,以便增强他们的信心、照顾他们的尊严?什么时候应该帮助儿童确保他们积极的学习体验?


应对这种挑战的一个方法是根据其价值观对市场进行细分。例如,一家公司可能决定专注于一个更重视隐私等原则而不是算法准确性的较小市场。这就是搜索引擎公司DuckDuckGo选择的路径,它限制定向广告并优先考虑隐私。该公司定位自己是为不想被在线跟踪的互联网用户提供的替代品。



与合作伙伴对齐价值观


萨姆·奥特曼作为OpenAI的CEO,在播客《在好公司》(In Good Company)中分享了他们的挑战:公司应该给不同文化和价值体系的人多大的灵活性来定制OpenAI的产品?他指的是一种趋势,即公司采用预训练模型,如GPT-4、PaLM、LaMDA和稳定扩散,并对其进行微调以构建自己的产品。(注:PaLM与LaMDA均为大语言模型)


正如奥特曼指出的那样,问题在于基础模型的所有者对其产品的处理几乎没有控制权。调整模型的公司也有类似的问题:他们如何确保使用第三方模型创建的新产品,与期望的价值观保持一致——特别是考虑到他们可以微调的程度的限制?只有原始模型的开发人员知道在训练它们时使用了哪些数据,因此公司需要仔细选择他们的AI合作伙伴。他们还必须与其他合作伙伴保持一致,例如训练数据的提供者,这些合作伙伴可能持有各种不良偏见,从而影响最终产品。


为了解决这些问题,AI开发者可能需要建立评估外部AI模型和数据的程序,并在启动新的伙伴关系之前挖掘潜在伙伴的价值观和基本技术系统。(这可能类似于企业在管理可持续发展方面潜在伙伴风险的方式,以及衡量和管理范围三的碳排放做法。)


这不是一个一次性的游戏。随着强大基础模型之间的竞争展开,公司可能会随着时间的推移改变他们用于产品的模型。他们会发现,AI测试能力和围绕价值观的有效尽职调查很可能是公司竞争优势的来源。



确保人类的反馈

给AI产品注入价值观需要大量数据——如前所述,其中大部分将由人类生成或标记。在大多数情况下,它分为两个数据流:用于训练AI的数据,和对用户行为的持续反馈的数据。为了确保价值观的一致性,必须建立新的反馈流程。


一种常见做法被称为“从人类反馈中强化学习”(RLHF),这是一个过程,通过输入人类的反馈,可以最小化不良输出,如辱骂性语言。人类审查AI系统的输出,例如对某人简历的分类、执行导航动作的决定或生成内容,并根据其与某些价值观不对齐的程度对其进行评级。该评级用于新的训练数据中,以改善AI产品的行为。当然,这种方法中的一个关键决定是,谁应该提供反馈以及如何提供。强化学习可能发生在AI生命周期的各个阶段,包括产品推出之前和之后。在早期阶段,工程师可以在测试AI产品的输出时提供反馈。另一种做法是创建“红队”(red teams),其任务是逼迫出AI的不良行为。“红队”广泛用于其他领域,例如网络安全。他们充当对手,攻击系统以探索它是否以及如何可能失败。尽管这些团队通常是组织内部的,但外部社区也可以被使用。例如,2023年,数千名黑客在全球最大的网络安全会议Def Con上聚集,以“攻击”大语言模型并识别漏洞。


产品发布之后,还需要继续教AI按照某些价值观行事。AI在这方面就像人类:无论接受了何种正规教育,我们都会根据反馈不断调整自己的行为,以符合所在社区的价值观。当人们使用AI或受其影响时,他们可能会观察到似乎违反其营销价值观的行为。允许他们提供反馈可以成为改善AI行为的重要数据来源。



准备好迎接意外


AI程序出现了越来越多意想不到的行为。例如,据报道,美国空军最近在一次实验中使用的AI模拟工具,建议杀死飞行员,以确保飞行任务得到恰当执行。另一个例子是AlphaGo发明的围棋程序Go的最新举动,被围棋高手们认为是“超人的和出乎意料的”。也许最著名的例子要属微软的必应(Bing)聊天机器人,它在推出后不久就开始对用户表现出攻击性甚至威胁行为,直到微软大幅缩短了可能的对话长度后才停止。同样不可预见的体验将大幅增加,特别是因为Chat GPT和其他大型AI模型现在可以执行它们没有明确编程的任务——例如翻译任何训练数据中不包括的语言。


一些不可预测的行为可能是由用户与AI产品的互动引起的,无论是有意还是无意。这些产品可能允许个人和公司进行极端的版本更新和超级个人化,这些个人和公司利用来自不同市场的数据微调模型。通过这种方式,可以根据每个用户与AI产品的交互方式创建和定制无数版本。确保所有这些版本保持一致,并且不出现新的行为,会很有挑战性。


公司必须实施强大的流程来检测和改善AI产品发布后的有害或意外行为。事件必须被识别,由用户或任何其他受影响的人报告,并由公司进行分析。公司可能需要建立AI事件数据库,就像OECD和合作伙伴开发的AI数据库一样,以便不断学习和记录他们的AI产品是如何发展的。


在一个AI价值观一致性可能决定竞争结果甚至成为产品质量要求的世界里,认识到产品差异化的风险和机遇,拥抱新的AI产品实践和流程以保持领先地位至关重要。客户与更广大的社会,都期望公司按照某些价值观来运营。在这个新世界中,他们绝不能推出行为不端的AI产品和服务。


雅各布·艾伯内西(Jacob Abernethy)弗朗索瓦·坎德伦(François Candelon)西奥多罗斯·叶夫根尼乌(Theodoros Evgeniou)阿比谢克·古普塔(Abhishek Gupta)伊夫·洛斯坦伦(Yves Lostanlen)| 文

雅各布·艾伯内西是佐治亚理工学院的副教授,也是水质分析检测公司BlueConduit的联合创始人。弗朗索瓦·坎德伦是波士顿咨询公司的董事总经理和高级合伙人,也是BCG亨德森研究所的全球总监。西奥多罗斯·叶夫根尼乌是欧洲工商管理学院的教授,也是信托和安全公司Tremau的联合创始人。阿比谢克·古普塔是波士顿咨询公司负责AI的主任,BCG亨德森研究所研究员,蒙特利尔AI伦理研究所的创始人和首席研究员。伊夫·洛斯坦伦曾担任多家公司的CEO与CEO顾问,包括AI Redefined、Element AI。

飞书、Pi | 译校   程明霞 | 编辑




推荐阅读





有一种职场大忌,是对工作投入过多感情


看不清公司里的权力格局,就很难走得更远


《哈佛商业评论》中文版 联系方式

投稿、广告、内容和商务合作

[email protected]

↓点击阅读原文进入哈评中文网,获取更多精品内容

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
悉尼周租金中位数涨至1000刀以上!高收入人群也撑不住了!住房住房危机引发关注,网友建议:摆脱住房危机的替代方案很多……[太难]查尔斯 凯特患癌后 哈里又出事了…卷入人口贩卖性侵巨案 英国王室迎至暗时刻拜登拉拢泰勒·斯威夫特,为其竞选背书丨外刊精读丨政治丨文娱也想起了邓丽君​北大发表 AI Alignment综述:确保AI与人类价值观一致的四个关键设计原则青椒当零食、白水煮一切,贾玲减肥,有必要吃这么惨吗?有必要重读鲁迅刚刚,OpenAI 正式驳斥马斯克!称造福人类未必要开源,Ilya 久违发声家长需要为未成年人的犯罪行为负刑事责任吗?为什么这么多人都迷上了'科目三'巴郎《行为随谈》43 完善自我高校学术不端行为频频曝光,暴露出哪些问题?注意!留学如何避免陷入学术与行为雷区钟睒睒发文:我有必要借与宗老生前几件值得追忆的往事,做一个澄清凯特三次生娃几小时后就完美亮相!梅根大呼为其悲哀,结果被警告:别低估未来王后的坚毅错把国宝当狗盆,乾隆本人亲自为其正名UC网盘称不限速,我国医生将基因编辑猪肝植入人体,B站用户平均年龄达24岁,元梦之星回应被起诉,这就是今天的其他大新闻!有必要公开她一下英伟达市值超越谷歌!老黄隔空回应Altman的巨资筹款计划:没必要,真的没必要!首个5G-A智慧机场通感一体基站开通;转基因猪肾成功植入人体丨科技早新闻《阴阳鱼》连载第14章:时间如刀,空间如砧板,而你我都不过是鱼肉关于未成年犯罪,为什么刑事责任年龄有必要在特定情形下下调?万科突传大消息!12家银行为其筹资800亿?接近银行人士:银行态度保守沈阳一轿车冲入人行道,已致3死2伤!驾驶员已逃逸?公安已介入哈里卷入人口贩卖性侵巨案,王室再遭重击!为了江山,查尔斯搏命了...皇后区一希尔顿酒店改造为经济适用房,成低收入人群和前游民永久住所职场上的交情,到底有没有必要?上网时有哪些行为,你以为不违法其实已经违法了?IRS针对高收入非申报者推出新举措;高收入人群涉125,000起案件,涉案人包括百万富翁首批Sora用户体验来了!7部创意大作,艺术家纷纷为其站台最新一批国自然不端行为案件通报!先发劳务费再回收的这种导师“基操”,被认定为套取科研经费!加州税收真的高吗?中低收入人群缴税比德州佛州低赵安吉落水逾1小时才被拉出 牧场应为其丈夫所有全澳房租飙涨,高收入人群也撑不住了!悉尼周租金中位数超$1000,税前收入超30%用于住房巴郎。《拾旧沙河梦》139。火种不灭
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。