在正文开始之前,我想先讲讲分析 Copilot 的设计有什么意义。初代 iPhone 的出现重新定义了触摸屏、智能手机,也重新定义了我们的生活。如今,出行、支付、沟通、 浏览信息等等这些生活中必不可少的环节都由点按和滑动组成,「触摸」这一新型人机交互模式改变了整个世界。在这之后问题又来了:下一个具有颠覆性的人机交互模式会是什么?是 VR、AR,还是脑机接口?或许都不是。现在看来,最现实的答案很可能是大语言模型——用「对话」,取代「触摸」。这并不是什么新概念。2008 年,微软首席 UI 设计总监 August de los Reyes 一次公开会议上提到,自然用户界面(Natural user interface,NLI)会是从命令行界面(CLI)转变到图形用户界面(GUI)后的下一演变形式。这里的自然用户界面指的是用户可以用本能、自然的方式与机器进行交互,而不是说界面本身是自然的。例如多点触摸的触摸屏、人脸识别、Kinect 上的动作捕捉就是典型的自然用户界面技术。其中,自然语言用户界面(NLUI)是一个重要的研究领域。自然语言用户界面允许用户用「对话」——人类最自然的行为方式操作机器,这会给人机交互带来极高的便利性和易用性。正因如此,你会发现增长最快的消费级应用往往都是与「对话」相关。此前,自然语言用户界面发展最大的障碍是机器「听不懂人话」,而现在,以 ChatGPT 为代表大语言模型让这一切有了落地的可能。随便和机器人聊几句话,就能颠覆世界了?微软随后拿出的 Copilot 证明,确实如此。Copilot 用一个简单的 Demo 完美诠释了自然语言用户界面的便利性:简单输入自己的想法就能做出一份完整的 PPT、数据透视表,一句命令就能得到一份数据报告,我们可以用「对话」命令 AI 代替我们完成很多工作。做一个简单类比的话,ChatGPT(大语言模型)是「触摸屏」技术,而 Copilot 就是「iPhone」。Copilot 充分展现了人类对这一新技术的想象力。这里就引出了一个新的问题——当我们拥有一种全新的人机交互方式时,设计师应该怎样设计产品,以适应新的交互逻辑?从「自动驾驶」转到「辅助驾驶」在图形交互界面时代,交互的逻辑很简单:所见即所得。我们可以对当下计算机正在处理的事情有着很大的掌控权,例如当你点下 X 时,意味着计算机马上要关闭一个窗口(当然,有时候它会卡住);当你选中一列数据后再点下柱状图的图标,计算机就会为你生成一个图表。你知道每点击一下计算机会发生什么,因为你足够信任计算机,经过多年的图形界面锻炼你的大脑早已明悉购物网站上手推车图标是购物车、放大镜是搜索。这是设计师的魔法,UI 设计就是在用户与机器之间构建信任的过程。但到了 Copilot 等 AI 应用上,「所见即所得」的法则开始失效,因为大语言模型是个黑箱,没人知道它在怎么运作,下一步又会展现出什么东西。同时,AI 在计算时需要时间,人们在点击与出现结果之间还会有一定的延迟,如何填补这段迟滞等时间,也是建立人机信任的关键环节。微软的设计团队认为,我们正在经历一种和过去完全不同的思维方式。我们过去认为 AI 应当完全取代人类的工作,实现完全的「自动驾驶」,因此人们理解未来在使用软件时就只有两种极端的情况:1. 完全人工操作,2. 完全由 AI 操作。但其实,在这两端之间还有非常大的空间,即以人类为主导、AI 辅助工作(AI 辅助驾驶)。基于这种新的使用场景和应用理念,微软做了很多深入的学习和研究,希望设计出能帮助更多人适应的全新交互方式。Copilot 便是微软交出的第一份完整答卷。微软认为,Copilot 是自然语言式用户界面(UX)的先驱,这是一种与首款触摸屏设备一样具有颠覆性的用户界面设计新前沿。Copilot 有可能改变人类与技术的互动方式。然而,我们必须通过简单、强大且植根于道德考量的用户体验对它的力量进行重新界定。为了解决这个问题,微软对视觉标识到交互设计的方方面面都进行了重新思考。Copilot 一词本身其实就蕴含了微软在设计 AI 交互时的核心原则:从「AI 自动驾驶」过渡到「AI 辅助驾驶」,确保人类始终掌控方向,引导 AI 协助工作最终实现个人目的。所以,在打造的用户体验时培养用户对这种关系的理解,帮助人们接受新的思维模式。微软提出了一个名为「适当信任」等概念,即让人们了解技术的局限和能力,并让他们有能力以负责任的方式使用它。Copilot 可能会出色地完成任务,但也可能产生不完美或需要完善的答案。只要人们越了解这些事情,他们就越善于使用它。AI 协作的「三个纬度」在生活和工作中,我们的生产力体现在不同层面上:有时候我们要关注细节,有时候我们需要看到整体,或制定策略。现在,工作和生活的需求常常超出我们的认知能力,导致压力、焦虑和生产力的流失。因此,Copilot 应该要拥有释放人们的创造力、精力和时间的能力。选择 Office 套件作为 Copilot 的切入口非常重要。微软根据人类不同的认知需求和能力,将大型语言模型的能力划分为三个纬度,以提高它在 Office 各种应用在内部运转以及外部协作时的全方位生产力:
沉浸式体验
辅助式体验
嵌入式体验
沉浸式体验适用于工作涉及多种工具、需要深入了解情境的时候,有时还要结合创造、协作和理解的需求。你可以脱离既有应用的限制,在一个全屏的环境下把大型语言模型与你的实际的数据和情境相结合,帮助你提高技能和生产力,例如起草演示文稿、商业提案,或者为一周的重要会议做准备。相比之下,辅助式和嵌入式体验适用于那些需要在特定应用中为特定目的加快工作速度和质量的场景。当你需要专注于更单一的工作类型,例如在 Word 中更具创造性、在 Excel 中更具分析力、在 PowerPoint 中更具表现力、在 Outlook 中更具生产力或在 Teams 中更具协作性时的支持。这时候这些功能就能以可适应的组件或模块的形式呈现,从特定应用中的嵌入式体验扩展到与 Copilot 进行全方位打通的沉浸式体验。Office 套件互通互补的应用基础为 Copilot 的整体交互带来了一致性,并且 Office 还为用户提供熟悉的图形功能,确保你当前的任务顺畅进行。这三种工作纬度的组合让 AI 可以与用户进行友好地协同工作,并且支持跨应用和平台的任务和工作流程,解决了许多数字环境下的办公难题。用户体验的基础旨在「授权」在设计 Copilot 体验时,微软把每个设计和工程决策都植根于一个强调人类主动性的道德框架。微软针对给予用户多少控制权和多少指导的问题做了大量的讨论:「我们是完全隐藏 AI,只给用户一个写着『总结』的按钮?还是给他们一个带有建议的开放式文本框?给用户的控制权越高,用户的责任就越大。」最后微软认为,如果他们要让用户掌握「方向盘」,他们就不能把 AI 隐藏在一个按钮后面——它的功能必须被访问和理解。Copilot 最终以对话框的形式出现。自然语言是释放模型能力的好方法,但前提是用户理解轮流互动的本质和重要性。到目前为止,我们熟悉大多数技术产品都是确定性的:相同的核心互动以精确且可重复的方式发生。而大型语言模型却在推着我们朝着概率性产品迈进,这些产品是不精确且不可重复的。设计师甚至无法对模型的响应进行硬编码,因为它们会随着每次互动而展开。所以在设计会话式用户体验时,微软认为加入轮流互动可以让用户探索模型的功能,同时在必要时将用户引导回预期的用例。用户教育是关键与大型语言模型互动是全新、相当新颖、甚至可能令人生畏的体验,微软希望当用户在第一次使用时就了解它的功能和局限。这是负责任地使用人工智能的重要部分,微软从零状态设计、错误通知、分享预期用途、提示建议等方面都做了设计优化,以推动对用户的教育。例如在设计零状态设计(即在进行任何互动之前用户看到的屏幕内容)时,微软花了大量时间思考利用这个空间教导人们关于模型可能犯的错误以及核实输出结果的必要性。与此同时,AI 模型输出的内容质量取决于用户输入的提示,而提示的写作是一项需要时间去掌握的新技能。微软创建了一个提示功能菜单,并附上提示建议,帮助初次使用 AI 工具的用户使用更长、更详细的提示以带来更好的结果。随着人们对这项技术逐渐熟悉和适应,这套设计可能会不断地迭代和改变,但在目前,这仍然是至关重要的一个部分。让等待变得有价值,让阻碍变得有意义经历过拨号上网年代的朋友应该清楚,计算机的处理速度在这些年发生了多大的变化。如今,人们普遍期望能在计算机那得到即时的响应。然而,对于大型语言模型来说,由于它处理的信息规模非常庞大,生成回应可能需要比我们预期的时间更长。通常来说,大语言模型得到的结果往往能帮人们省下比等待处理这几秒钟要多得多的时间,因此在设计 AI 产品时,设计师还要给用户做好教育,帮助用户愉快地渡过这段等待时间。微软认为设计师可以利用等待时间创造透明度,比如使用零状态进行教育等等。这可以包括从弹出对话框提醒人们核实回应的事实,到分享有关模型如何生成答案的信息。微软希望思考如何利用延迟来加强对模型局限性的了解,以及如何巧妙地增加乐趣,把简单的等待变成期待。另一方面,在确保人类主导地位这件事上,最大的风险之一就是过度依赖 AI 模型。因为 Copilot 并不是「自动驾驶」,它可能产生不准确或错误的答案,所以需要人类的监督和协作。在与他人共享 Copilot 结果时(比如某个财政年度的OKR总结、入职文件或活动回顾),这一点尤为重要。微软给出的解决方案是把 Copilot 的结果链接到引用素材,并在某些情况下,如果你将鼠标悬停在引用上,还会分享更多关于来源的信息。但这还不够,Copilot 需要人类做更多的审查工作,因此微软有意地创造了一些阻碍来实现这一目标。例如,在某人准备分享某个内容之前,Copilot 可以询问你是否已经核实了事实或是否有人类参与审查。视觉效果方面,微软想通过颜色和图标等元素,在微软产品中创造和加强 AI 的存在。设计师运用产品品牌的颜色和鲜艳的点缀,使得用户在与 AI 功能互动时产品更具生气,并明确地显示出模型在延迟时刻处于活跃状态,使其与周围的界面区分开来。视觉识别还可以清楚地显示出 AI 助手何时正在使用或已生成内容,微软的目标是通过让用户依赖自己的判断来评估输出结果,从而建立信任。以不断学习的心态继续前进微软团队认为,对于产品创造者来说,像现在这样的时刻是非常珍贵的。能真正改变游戏规则的技术出现的机会只有寥寥几次,所以他们非常关注大型语言模型的力量和影响。在接下来的六个月到一年内,还可能会出现新的 AI 模型,微软需要更敏捷、灵活的设计和工程流程,为融合新的研究成果和客户反馈留出足够的空间。这就是为什么微软团队要展示这些设计,虽然部分理念还很新、不够完善,但这些已经可以在安全的预览环境应用在实际的业务场景中。微软团队认为他们不能闭门造车,或与日常人群脱节的实验室中进行设计。相反的,他们要积极寻求反馈,拥抱学习一切的态度,并通过公开设计来分享经验。这些设计都要植根于道德考量和普遍的人类需求——技术本身可能会改变,但这些需求要持久得多。