近期,亚马逊宣布,计划将其智能语音助手Alexa接入其自研的大模型Alexa Teacher Model,这是继小度和天猫精灵后又一个接入大模型的语音助手。9年前,以Alexa智能语音助手衍生出来的智能音箱Echo曾创造了傲人的成绩,不仅被称为“品类开创者”,还被视作“谷歌与苹果的学习对象”。而在今年2月,据美国科技媒体Business Insider报道,亚马逊旗下的Alexa去年亏损100亿美元(折合人民币约693亿元),Alexa硬件团队在去年年底遭遇了大裁员。在生成式AI火爆的当下,像亚马逊一样寻求新变量的智能硬件厂商不在少数,他们纷纷将生成式AI引入自家智能硬件中,以期提升原有智能硬件的交互体验、使产品能够在更广泛的场景下服务用户。目前来看,调用ChatGPT服务到智能硬件产品上,可以通过REST API、SDK或者Webhooks等方式,继而实现自然语言处理(NLP)、聊天机器人(Chatbot)等功能。接入ChatGPT的智能硬件可以用于自动客服、聊天机器人、自动文本生成、自动问答等应用场景。当下,Humane等AI创企已先行一步推出AI可穿戴设备,百度、阿里、谷歌等巨头凭借自身在大模型上的积累和技术优势已将生成式AI融合进智能硬件中,创维数字、美的等智能家居品牌也宣布将推出搭载类ChatGPT的智能硬件产品。智能硬件的“第二春”似乎到来了,然而生成式AI如何赋能智能硬件,搭载生成式AI技术的智能硬件产品在规模量产前还面临着哪些问题,我们试图通过目前各类智能硬件玩家的最近动作来找到答案。
像VR\AR设备、可穿戴设备、智能家居产品这样的智能硬件在2022年似乎格外不好卖。而在销售的另一头,生产智能硬件也绝非容易。2013年,作为一个即将兴起的领域,智能硬件市场等待着产业链成熟,也等着一个真正的爆品出现。2014年,亚马逊推出基于Alexa的智能音箱Echo,智能硬件市场也经历了一场创投热潮。彼时,智能硬件产品开始在市场上涌现,但是多数智能硬件仅仅是实现App的控制,并没有找到用户的痛点,没有办法让用户能够真正形成使用意愿,一些用户出于新鲜感购买智能硬件产品,但是产品用户粘性很弱。▲亚马逊Echo第一代智能音箱
据腾讯科技不完全统计显示,截止2015年,完成A轮融资的智能硬件公司接近300家,而完成B轮仅有20家,90%的初创公司都在“战场”上死去。而在2016年,更是有3000多家智能硬件企业注销关停。2017年,坚果智能影院董事长胡震宇曾说:“98%做智能硬件的都死了,我是那2%的幸存者”。惨淡的市场、失意离开的玩家、不够智能的产品构成了“ChatGPT前夜”智能硬件领域的概貌。厂商们期盼着新技术的出现”拯救”陷入困局的智能硬件。
在ChatGPT之前,“元宇宙”曾带给制造VR/AR设备的智能硬件厂商希望。Meta、微软、索尼、字节跳动都曾下注号称是“虚拟世界入口”的VR/AR设备。但VR/AR设备的成绩单并非“亮眼”,甚至可以说有些“惨淡。市场研究机构IDC发布的数据显示,2022年全球VR/AR设备出货量下降20.9%。与之前几年相比,VR/AR设备市场的颓势显而易见,功能缺乏创新、性价比遭受质疑。目前,使用生成式AI推动AR设备功能创新的是一家德国智能眼镜开发商Innovation Eyewear,上月中旬它宣布推出首款支持ChatGPT的智能眼镜,用户可以使用眼镜内置的麦克风向ChatGPT提问,ChatGPT生成的内容,会通过Siri或者谷歌语音来传递给用户。Innovation Eyewear CEO哈里森·格罗斯称,目前这款眼镜不仅可以自动翻译用户所说的话,还能成为用户的移动学习系统,当用户有疑问的时候,只需连接到ChatGPT上,就能获得相关主题研究资料库。虽然Snap也在财报中透露,公司计划用生成式AI技术驱动智能眼镜,但它一直没有推出使用生成式AI驱动的AR眼镜。反而不是智能硬件厂商的斯坦福大学最近有了智能硬件方面的新进展。他们的研究人员在上月下旬开发出“rizzGPT”,并打造了可与ChatGPT实时对话的AR单片眼镜。简单来说,该眼镜利用OpenAI的自动语音识别工具Whisper来聆听用户的讲话,当获取到讲话内容后,GPT-4就会自动生成响应,AR开源设备Brilliant Monocle还会将上述的响应内容叠加在用户真实世界环境之中。当进行求职面试或者公开演讲时,这款眼镜还会指导用户接下来说什么,帮助用户更好地面对高压场景。▲可与ChatGPT实时对话的AR单片眼镜
可以看到,无论是还是德国眼镜商Innovation Eyewear推出的“行走的研究资料库”,还是斯坦福大学针对当下用户容易产生社交焦虑而设计的“语言指导”AR眼镜都在解决真实场景下的用户所关心的问题,AR眼镜的实用性得到了加强。虽然此前,元宇宙为VR/AR设备造起了极大的“声势”,但彼时智能硬件厂商们一直没有给用户一个“必须要买VR/AR设备”的理由。所谓的“未来虚拟世界入口”也离普通用户太远。而目前入局生成式AI赋能VR/AR设备的玩家,正在为VR/AR设备找到合适的应用场景,也努力在为用户提供“必须要买VR/AR设备”的理由。
与VR/AR设备相比,智能手表、智能手环等可穿戴设备在不断迭代中以“运动”和“健康监测”可为用户提供了购买理由。但这依旧没有阻挡住可穿戴设备的市场颓势。市场研究机构Canalys发布的报告显示,2022年全球智能可穿戴设备出货量下滑5%,只计算四季度的话,出货量更是低至5000万件,同比大跌18%。其中很大一部分原因是,智能手表等并非想象之中如此“智能”,它必须通过连接智能手机才能够实现功能的推展,处于“手表+手机”的尴尬处境,智能手表在很大程度上还是智能手机的附庸。在逃离做“智能手机附庸”这件事情上,苹果前高管伊姆兰·乔杜里(Imran Chaudhri)为其他可穿戴设备制造商开了一个好头。近期,他开办的AI初创企业Humane推出了一款AI可穿戴设备,无需与智能手机相连,就可实现无屏幕接打电话、自动生成会议摘要,还能充当智能健康助手。伊姆兰·乔杜里曾任苹果人机交互界面团队的设计总监。他对生产一款面向消费者的智能可穿戴产品有着极高的热情。▲伊姆兰·乔杜里和妻子合照
今年年初,这款AI可穿戴设备的背后的专利——“可穿戴设备和云计算平台与激光投影系统”被媒体扒出。仔细分析专利图纸,或许可以帮助我们想象未来智能硬件产品的形态与功能。如此之长的专利名称泄露出了这款设备的关键器件。除AI外,它还配备了3D深度传感器、Goolge lens、激光投影系统等。从工作流程来看,首先,3D深度传感器识别用户手势指令,接下来它会将捕捉的多媒体数据上传至云端。这时AI便会分析上下文,并将多媒体数据转化为图像、视频、音频等格式,最后,激光投影系统会把图像、视频等投射在物体表面。或许这么说来有些抽象,伊姆兰·乔杜里的现场演示或许可以帮助我们更好地理解这一流程。现场中,由于该设备较小,他将设备夹在夹克口袋上,然后对设备发出了“翻译”的手势指令,接着他说了一段话,3D深度传感器将捕捉的音频数据传到云端,AI通过分析然后生成了他所说的这段话的法语版。不仅如此,他还用这个3D深度传感器扫描了巧克力棒的信息,AI随后为伊姆兰·乔杜里提出了健康建议。最让人惊喜的操作是,伊姆兰·乔杜里还将原本应该在屏幕上的内容投射到手里,然后在无屏幕的情况下,与妻子打了一通电话。▲伊姆兰·乔杜里和妻子在无屏幕的状态下进行通话
Goolge lens的功能没有在演示中呈现,但专利图纸中却为我们勾画了一个场景:用户在修理汽车引擎的时候,Goole lens会将汽车引擎转化成一个虚拟模型,然后再对虚拟模型中的各元件进行识别,之后各元件功能信息以及修理步骤会通过过激光投影系统投射在汽车引擎表面,指导用户如何修理。如此看来,这些功能如果可以落地,将会使可穿戴设备逃离“智能手机附庸”的命运,同时还将会极大地拓展可穿戴设备的应用场景。
比起VR/AR设备和智能可穿戴设备,大家可能容易忽视的是,智能家居才是AI最早应用的领域之一。亿欧智库发布的报告曾分析出AIoT发展的三个阶段,也就是从“单机智能”到“互联智能”再到未来的“主动智能”,那时,智能系统可以根据用户行为偏好、用户画像、环境等各类信息,随时待命,并具有自学习、自适应、自提高能力,可主动提供适用于用户的服务。这听起来让人兴奋,但事实上,智能家居产品目前还很不“智能”。IDC发布的最新报告显示,2022年全球智能家居产品出货量下降2.6%,降至8.74亿台。▲2022年全球智能家居设备出货量情况,来源:IDC
造成这种情况非常关键的一点就是,智能家居产品目前交互体验较差。ChatGPT的融入将会弥补这种情况,那时用户下达多个指令,系统可以在分析理解后分步执行。Josh.ai家庭自动化系统的联合创始人Alex Capecelatro曾指出:“如果我们不采用类ChatGPT技术,像我们这样的企业将不复存在。”目前,创维数字已经在智能机顶盒领域发力,它计划将逐步融合AI、物联网、云计算和大数据技术,并结合NLP和CV等AIGC等相关应用系统,最后使智能机顶盒不仅可以提供电视直播服务,还能成为智慧家居的智能控制中心。创维数字目前计划接入百度文心一言大模型,推出创维小度盒子。国光电器在互动平台回答投资者提问时也指出,计划于今年推出搭载类ChatGPT的智能硬件产品。虽然现在还没有使用生成式AI技术的智能家居“爆品”出现,但可以预见的是,未来,生成式AI模型可以通过反馈式学习、联想和记忆能力,充当智能家电的”产品经理“,从而使智能家居产品不再拘泥于固定程序交互的情况,进一步提升产品的智能化程度。与其他智能硬件市场当下惨淡现状有所不同,中国机器人产业联盟发布的最新数据显示,2022年,中国工业机器人整体销量预计超30万台,全球销量占比超过50%,虽然增速较2021年放缓,但是全球市场中占比依旧增长。今年2月,美的集团宣布将接入百度文心一言大模型,美的家庭服务机器人也将优先内测和试用文心一言的诸多能力。就在3月,谷歌发布了一个基于名为PaLM-E的大模型的机器人样机,目前该机器人可以按照人类指令拿零食和可乐。将大模型接入智能机器人计划说得比较详细的是阿里巴巴。在今年第六届数字中国建设峰会上,阿里巴巴CEO张勇称,阿里云工程师正在将千问大模型接入工业机器人。按工程师的话来讲,千问大模型将会为机器人执行任务提供了推理决策的能力,也就是说,当一线工人真正操作这个机器人时,他只需发送文字,千问大模型就可以在理解意图的基础上进行任务推理,并自动翻译成机器可以理解的代码,指挥机器执行任务。但比较遗憾的是,目前阿里仍没有发布样机。近期,国盛证券对大模型接入智能机器人具体时间作出研判,它研报中指出,大模型在1-5年内,能够应用于行业化机器人等领域。展望5-10年后的发展,随着复杂多模态方案的成熟,AI大模型或将能够应用于通用机器人。
梳理来看,目前基于大模型的AI硬件大多还都处于概念阶段,真正的产品并不多。Humane推出的AI可穿戴设备只向公众做了功能演示,谷歌基于PaLM-E大模型的机器人也只是发了样机,而且从视频来看,这个机器人样机执行指令十分迟缓。▲谷歌发布基于PaLM-E大模型的机器人样机
那为什么会造成这种情况呢?这就不得不从智能硬件本身讨论起来。比起软件开发,智能硬件的制造更加复杂,这其中需要经历工业设计、软件开发、云服务搭建、开膜、销售等一系列的过程。对于厂商来说,制造智能硬件不仅成本高、时间长,而且盈利还难以预估。更重要的是,硬件的生产还涉及到供应链渠道体系,如果不能形成规模化的生产,供应链可能就会不支持,这就造成产品成本的居高不下。而就生成式AI赋能智能硬件落地而言,首先要面临的问题就是大模型训练的成本极高。创维数字、美的等计划接入大模型的公司无疑要支付一大笔费用。其次,在接入智能云大模型平台后,由于平台有大量的API接口访问,这就可能会带来较长的时延,进而影响硬件产品的交互体验。再次,硬件厂商还要遵守国家相关政策,保护好用户数据安全。最后,对于智能机器人这个品类来说,还面临着平衡商业机密与编程效率间关系两难问题。简单来说,大语言模型的动作指令代码生成依赖于动作环节的可拆解、可输入、可训练,编程效率提高就需要数据要尽可能开源、生产工艺要尽可能标准化,但一旦动作过程涉及商业机密,将存在训练数据泄漏的风险。
从市场研究机构发布的关于VR/AR设备、可穿戴设备、智能家居的报告来看,智能硬件市场呈现颓势,这种情况不单单是受宏观经济的影响,还在于这些智能硬件本身功能缺乏创新、缺乏杀手级应用等等。在生成式AI的浪潮下,智能硬件厂商开始布局将生成式AI融进产品功能或产品生产中去,这将还有助于一部分的智能硬件“重获生机”。但是目前仅有极少数玩家推出了基于生成式AI的硬件产品,大多数企业还都停留在概念阶段,同时这些硬件厂商也面临着一些问题,需要不断进行解决。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)