这一次，苹果不自信了

2023-06-07 07:06

撰文 | 吴昕

「这是明天的工程，」苹果开发者大会WWDC 23 后，苹果 CEO 库克接受《早安美国》联合主持人罗宾·罗伯茨采访时说，「所以，你要活在未来，今天就要这样做。」

昨天凌晨（北京时间），苹果在 WWDC 23 上正式发布了首款头显设备 Apple Vision Pro。这款外观酷似滑雪镜的产品被特意留到了发布会最后「One more thing」保留环节，这一首创于乔布斯（1999年）的最高规格待遇，过去仅见于 MacBook Air、Apple Watch 等代表性硬件。

不同于 VR，Apple Vision Pro 使用 MR（混合现实），允许用户在不完全脱离周围环境的情况下利用该技术。售价 3499 美元（很苹果），计划于明年上市。

相比之下，Meta 宣布的 Quest 3 （也可以实现 MR ）售价为 499 美元，而 Quest 2 的零售价仅为 299 美元。

01、又一个典型的苹果式创新

贵，有贵的理由。

全球顶尖硬件制造商的一贯优势，特别是性能和工业设计，又一次成为苹果艳压群芳的力量。

Apple Vision Pro 外形非常流畅，酷似滑雪护目镜。正面部分系一整块以 3D方式成型的玻璃，经抛光处理。玻璃线条流畅，与定制铝合金边框融为一体，微妙贴合用户脸部曲线轮廓。

设备顶部有一个按钮和一个数字表冠（还记得苹果手表的工业设计？）。转动表冠，用户就能从一个极端（比如完全沉浸）平滑过渡到另一个极端（比如透视），自由控制在环境中的沉浸程度。

为了追求性能和体验的极致，苹果的硬件配置从不吝啬（所以也从来不便宜）。

显示屏很疯狂。Vision Pro 采用超高分辨率显示系统，两个微型 OLED 显示器（约邮票大小）具有 2300 万像素，相当于给每只眼睛配备了一台 4K 以上的电视。你甚至可以用它在 Safari 中阅读文字文本。

微型 OLED 显示器的结构与传统显示器不同。它直接建立在芯片晶圆上，而不是玻璃基板上，这使得显示器更薄、更小、更省电。

由于靠近眼睛，技术上只允许像素尺寸在 4 至 20 微米之间，而标准 OLED 面板的像素尺寸为 40 至 300 微米。

此外，它们必须具有更快的微秒级响应时间，这样才能够成为 AR/VR 应用的理想选择。

两年多前，苹果已与台积电合作开发这种微型 OLED。当时还处于试产阶段，媒体曾报道称，需要数年时间才能实现量产。

深层动物脑的作用下，如果很长一段时间内看不到周围的环境，很多人会感到非常不舒服（这也是库克批评 Meta VR 所在）。

戴上 Vision Pro，你不会完全「与世隔绝」。设备具有一个外向显示屏，创新 EyeSight 系统帮助用户与周围的人保持连接：

当有人靠近使用者时，设备的视区会变透明，让用户可以看见这个人，同时走近的人也会看到用户的眼睛。

除了隔绝带来的不适，如果你试过 VR ，一定也尝过延迟导致的晕眩和恶心。

Vision Pro 采用双芯片设计，搭载 Mac 级别的 M2 芯片单元，同时为实时传感器配备了一个新的处理器 R1。

R1 专门处理来自设备周围十多个摄像头、传感器和麦克风的输入，能够在 12 毫秒内将新图像传输到显示器，比眨眼还快 8 倍。这意味着几乎消除延迟，视觉体验上感受不到抖动或降帧。

「Apple Vision Pro 分辨率是我体验过的最好的。」有专业人士在大会后表示，它绝对实现了我们都相信总有一天会实现的沉浸感。

（AR 与 VR 之间无缝切换的）See-Through 体验方面，没有延迟，非常高的品质，它只会变得更好。

不出所料，苹果同时发布了与之相配的操作系统 VisonOS，称之为「全球首创的空间操作系统。」

该操作系统引入了专为低延迟空间计算而设计的新功能，例如实时执行引擎和动态注视点渲染管道，可最大限度地提高用户眼睛聚焦的图像质量。

还有多应用程序 3D 引擎，允许不同的应用程序在同一个模拟中同时运行，为多任务处理和协作开辟了新的可能性。

Vision Pro 不依赖手持设备（控制器），完全基于语音、视觉以及手感操控。用户可以根据虚拟键盘进行文字输入，也可通过手指进行画面的放大缩小，实现现实世界和虚拟世界的融合。

这也是为什么你会在设备周围数出 12 个摄像头、一个 LIDAR 传感器、一个原深感摄像头还有红外泛光照明器以及几个麦克风（听见美元的声音了吗？）：

这些先进的传感器阵列，包括高分辨率摄像头、精确的眼动追踪和实时 3D 映射，可实现迅速响应且直观的输入，摆脱硬件控制器的束缚。

苹果花了 10 年时间打造隐私品牌，现在却推出了一款配备十几个始终开启的摄像头的设备。

不难发现，苹果式创新的显著特点都在头显设备上展现出来。苹果一直很乐意也有耐性横跨几代产品，为新功能打基础。

比如，Apple Pay 首次出现在 iPhone 6, 但 iPhone 5S 上就有了作为基础的Touch ID 和安全元素；2014年推出 Apple Watch ，必要的硬件从 iPhone 4S 开始陆续登陆手机。

2017 年，苹果推出 ARKit，截止 2022 年 AR Kit 已经更新到 6.0 版本，所以基于原来手机的生态，苹果已经在 AR 上做过很多开发应用生态的尝试。

苹果也表示，iPhone 已经是世界上最大的增强现实平台，而 VisionOS 充分利用了其中的许多功能。

另一方面，这些年苹果的创新一直聚焦在连续改进、完善和缩小组件，进而催生了类似手表、耳机这样的小型硬件设备。

这一次，无论是自研还是收购，微创新（比如 3D sensing ）、更好的摄像头（比如，iPhoneX 就配备了原深感摄像头）和芯片（比如 M 系列芯片）等组合起来，又催生了头显设备。

02、许多用途？苹果有点慌

如何与苹果已有的生态优势（包括硬件与软件）打成一片，是 Vision Pro 的另一个卖点。

VisionOS 建立在 macOS、iOS 和 iPadOS 的基础上，意味着它将与许多现有应用程序和生态兼容，通过新的交互方式落地娱乐、办公等场景。

换句话说，你可以用更加沉浸的方式使用熟悉的 iPhone 和 iPad Apps，包括消息、音乐、照片、FaceTime、游戏等。

例如，在浏览全景照片时，它可以把你拉回拍摄某张照片时的具体场景，这是之前苹果的其他设备所做不到的。

除了自己的生态，苹果已经表示，这款头显设备可以与 Microsoft Office 应用程序以及 WebEX 和 Zoom 等视频会议服务配合使用。

但是，等等，这里并没有真正的AR应用程序，而是漂浮在空中的桌面应用程序。3499 美元的价值就在于可以将一个大屏带到任何地方，为已有的简单 2D 应用程序提供身临其境的体验？

难怪有人吐槽 Vision Pro 更像一个「昂贵的开发工具包」。这倒也符合苹果选择在开发者大会上发布的初衷——智能手机平台的数字地主，为广大开发者打开了一个新的「数字西部」。

至于苹果的开发者社区能否为 Vision Pro 生成杀手级应用程序，仍然悬而未决。

3499 美元与续航两小时的反差，是另一个槽点。计算机的所有工作最终都以热量的形式结束，归根结底是能耗问题，但 Vision Pro 显然没有解决了。谁会在工作场合带着它？这是营销还是劝退？

库克宁可在 Vision Pro 身边摆出胜利的手势，也不愿意戴上它让媒体拍照，或许透露出苹果对一代产品的成功不太有信心，不想成为笑点，但又必须推出它。

不妨看看 Meta 的数据。现在出售的头显中 90% 是 VR， Quest 占据了约 80% VR 市场。其中 Oculus Quest 2 目前在 VR/AR 设备领域一枝独秀。

2021 年，Quest 2 出货量 1120 万左右。业内一般认为，在一个平台上需要有约 1000 万人使用及购买 VR 内容才能使开发人员持续研发以及获利，而一旦超过这个门槛，内容与生态系统将会实现跨越式发展。

显然，Meta 希望低价出售更多设备，尽快跨越用户规模的临界值。除了广告收入，这也意味着他能复制苹果在智能手机时代对自己做过的事：

不再依赖硬件制造商来分发自己的应用，自己就是新平台的地主，并对应用商店里的每一笔雁过拔毛。

而对于苹果来说，无论是为了增长、为了市值，一定时候仍然需要媲美 iphone 的下一个硬件平台。与距离自己基因更远的汽车（手表、耳机用不上变速箱、发动机）相比，头显设备更不容有失。

03、 AIGC ？从 Siri 到 Jarvis？

不过，除了领先下一代硬件平台的紧迫性，本次大会上，苹果依旧没有就类似于 ChatGPT 或 Google 的 Bard 搜索引擎的生成式 AI 产品发布任何重大公告。

除了悄悄地在几个较小的功能中注入了 AI。

比如，一个由大型语言模型（LLM）驱动的键盘。由于在设备上运行了Transformer 模型，键盘能学习你的打字模式，自动纠错。

至于 Siri ，存在感弱得就像「打了一场酱油」。

使用头显设备时，「有了 Siri，你可以快速打开关闭应用，播放音乐，还有更多。」

不过，如果 Siri 在手机上的语音转录目前不能很好地工作，那么头显设备的语音控制又会有多好？之前有媒体爆料，在苹果内部，Siri 仍然因其缺乏功能和改进而受到嘲笑，包括 Vision Pro 团队。

在 iOS17 更新中，唤醒词不需要「Hey Siri 」，直接说「Siri 」即可。

不得不说，让古早的 Siri 成功逆袭，挑战 ChatGPT 这样的创意助手，是一件非常困难的事。

Siri 发布于 2011 年，远在深度学习在 2012 年席卷人工智能社区之前。本质上还是一种命令控制系统，仅能理解有限的问题和请求列表，比如「北京天气怎么样?」或者「打开卧室的灯。」

由于缺乏上下文感知，Siri 只擅长它被训练做的事情，这限制了它的能力。

Siri 的设计也很笨重，以至于在这个巨大的数据库里添加一些新短语，就要花六个礼拜的时间重建这个数据库。如果增加更复杂的功能，比如新的搜索工具，可能需要一年。

不过，吊诡的是，十年来一直将隐私一致性置于中心的苹果，因其对 AI 与隐私、安全的平衡能力，又在 AIGC 时代占据了一个很独特的位置：

「我们正朝着在边缘设备上使用个性化模型的未来迈进。」Stability CEO Emad Mostaque 在一次采访中提及。在这个过程中，苹果的神经引擎 (NE) 可能会发挥关键作用。

大多数 iPhone 、iPad 都有神经引擎，一种特殊处理器（NPU），非常适合让机器学习在苹果硬件上快速运行。如果能将这些设备的机器学习能力与保存在设备上的个人数据访问相结合，苹果有可能创建一个独特的私人解决方案，将 Siri 从零变成英雄（Jarvis）。

在 Emad Mostaque 看来，这个神经引擎可以解决当前大型语言模型 (LLM) 的一些局限性，而这一优势使苹果处于平衡强大 AI 功能与用户隐私和安全的最前沿。

「苹果正在等待大多数用户使用带有神经引擎的 Soc，将 Siri 升级到 Jarvis 的水平。」他认为。