聆思科技徐燕松：生成式大模型潮流下，智能家居端侧智能化涌现变革

2023-05-12 12:05

ChatGPT智能涌现，实现七大智能维度突破，带来六大重要变革。

编辑 | 云鹏

智东西5月12日报道，近日，由智一科技旗下智能产业第一媒体智东西与AWE共同主办的GTIC 2023全球AIoT智能家居峰会正式在上海举办，13位重磅嘉宾带来了10场精彩演讲，全景式解构了新一轮家庭智能化变革。

峰会以“互联新世界智能新未来”为主题，围绕智能家居产业近期热点大模型ChatGPT和智能家居行业新标准Matter1.0的落地、全屋智能、家电智能化三大热门话题进行深入探讨。

当下，以ChatGPT为代表的AI大模型技术正从交互、内容分发、文本理解等多方面影响智能家居产业发展，用户可以获得更加定制化的个人体验。个性化的全屋智能改造风潮走进消费者群体，全屋智能赛道玩家们逐渐从以空间为主转向以人为主的场景化智能家居生态建设。智能家居单品，也正在围绕不同的应用困境，做出新的升级。

在本次峰会上，聆思科技副总裁徐燕松围绕《生成式大模型潮流下，智能家居端侧智能化的未来》进行了主题演讲。随着AIGC等新一代云端技术的突破，如何给市场提供更好体验、更高效率、更高性价比的端+云智能化解决方案，让用户使用智能家居更便捷，成为产业链上下游共同探讨的话题。

以下为徐燕松演讲实录整理：

我今天分享一下聆思对于“在深度式大模型的潮流下，端侧智能家居应该有哪些改变和变化”这一问题的一些深入思考。

01.

从芯片、解决方案到一站式平台，
用一揽子方案，完成设备智能化升级

聆思科技是一家是基于智能涌现时代的赋能者，整个聆思有四大块业务，一块是AI芯片，另一块是IoT芯片。只有芯片大家用不起来，所以我们有对应的解决方案，围绕解决方案我们会有研、测、产、制的工具平台。

AI芯片需要与算法强耦合。我们经常可以看到传统的芯片公司和AI芯片公司，最重要的是芯片和算法的耦合度，能不能做到极致的成本和算力“刚刚好”，算力的刚刚好和成本的刚刚好平衡。

第二，AI芯片因为是连接芯片，一定要做端云一体，设备在线智能的连接器，如果没有连接芯片，大模型在云端上是没有机会落地的。

第三是解决方案，我们可以看到云端有服务，我们端侧需要有配套的一揽子解决方案，需要有符合不同场景的算法和芯片的耦合，如果不是耦合状态的垂类方案，这个行业很难复制。

我们经常跟客户聊，他说“你把音箱那个东西给我就行了，把空调那个东西装我这上面就行了。”实际上几乎是走不通的，每一个不同垂直品类功能和场景化注定需要单独的解决方案。

第四，能研出来，不一定能产得出来。比如我们见过的某些客户里，生产5万台语音设备，需要人在产线上“喊”5万台，来验证整机语音到底能不能用。

我们认为能研还要能产，这是工业化最标准需要解决的问题。我们有一套工具平台，包含研、制、产、测，这套一揽子方案全部打包在一起，从AI芯片到loT到解决方案再到研测产制平台，交到客户的手里，才能把一个设备从不智能升级为智能。

02.

场景是AI能力与芯片耦合方案的试金石

我们经常在内部说语音是“玄学”，我们举一个扫地机器人的例子，机器的制噪很高，扫地毯、扫地板、扫地砖，看似都是扫地，但是从声音的角度来看、从设备的角度来是看完全不同的，进入到床底下、桌子底下的混响也是不同的，这些不同意味着你有没有可用的跟场景可耦合的解决方案赋能到设备中去。

围绕着场景需要的是AI能力，从基础的研发平台到系统级的SDK，到功能性的SDK，到算法的SDK，必须做耦合，耦合后呈现出来的是语音交互的解决方案、音频的解决方案、降噪的解决方案、视觉的解决方案、教育电子解决方案，包括音视频融合多模态的解决方案。

这些解决方案再继续生长，生长到每一个垂直产品和垂直领域里的垂类方案。聆思一直在做的是解决方案工厂，这个工厂是赋能给行业和我们合作伙伴的。

我们有几个核心的观点：第一，有不等于可用；第二，可用不等于好用；第三，好用不等于易用。

只有易用客户才会买单，否则没有人买单。我们一直认为我们要从有到可用，一直到易用，都做到前沿技术的持续引领，所以我们也落地了很多场景。

03.

ChatGPT智能涌现：
七大智能维度突破，带来六大重要变革

我们一直在讨论，“没有成功的企业，只有时代的企业”。刚才主持人和徐东生副理事长说了，现在家电已经有了很大的变革，大家都在讨论大模型。我上一周到深圳参加深圳湾的创业会，突然发现从大工厂、大企业研发到小工厂都在讨论一个问题：“GPT能帮我干嘛？”我真的觉得是全面GPT的感觉，连续开了三个论坛、两个会，大家都在谈这个事儿，茶余饭后不谈这个事儿我可能就“OUT”了。

大模型时代带来了很多惊艳的东西，确实带来了智能涌现。首先我们认为对话式AI带来了很大的跃升；第二，图像输入的时候多模态的统一语义理解能力持续上升，甚至已经到了可用和易用的状态了。

给端侧、设备和合作伙伴带来什么？我们看到有7个方面重大突破：

第一，海量信息参数化全量记忆；第二，任意任务的对话式理解；第三，复杂逻辑思维链推理；第四，多角色、多风格长文本的生成。

前面跟很多嘉宾聊的时候说到，内部的小朋友说GPT大模型是一个话痨，它每次都回答我那么多，当然我们会对它进行优化，让它有一个更合理、更精准的反馈。

第五，即时交互的修正能力会支持进化。我们经常会跟他说：“你说的不对，你重新想一下，上网上重新搜一下。”它会给你一个新的答案，具备即时交互的修正能力。

第六，程序代码自动生成。我们做过很多测试，在安卓的平台上，我们希望迁移到Linux，把规则告诉它，它可以自己做很多代码生成。第七，输入图像的语义层理解。

大模型能给产业带来什么？第一，是全面升级的人机交互。聆思的愿景是让所有设备能听会说，这是我们成立之初的愿景。让所有设备能听会说，首先需要有精准的、更好的人机交互方式，大模型给这个产业带来重大的变革。

第二，革新内容生成和内容生产方式。大家在各个演示中看到了，也体验到了。还有改变信息分发的各种获取方式、虚拟世界和现实民生的一些结合、用AI做医疗，做很多分子阵列的测算。最后，我们会促进开发者生态的发展，因为这是一个共创的过程。

04.

基于大模型的新一代多模态人机交互

当大模型给这个产业带来重大发展变革和机遇的时候，聆思也在想如何给合作伙伴提供大模型新一代人机交互的解决方案。这是我们给很多合作伙伴提供的大模型新一代的多模态人机交互框架，把多模的识别，或者语音、图像、视觉包含其他，会有输入，我们同时有大模型交互里非常核心的提示功能。

我们自己内部讨论一件事情，大模型用得好不好，先是你问题问得好不好，如果你问得好、越精准，模型的反馈越精准，所以我们叫做“提示工程”。

另外，我们把很多传统的AI能力，比如翻译、多语种、变声，传统的AI能力和内容的信源打包，打包完后有类似虚拟的中枢大脑，基于大模型业务的服务调动和内容分发融合，最后在端侧有输出层，端侧输出层可以看到有语音合成、虚拟形象、图像合成、视频合成，这是聆思基于大模型的端侧给所有端赋能的内容和赋能的方向。

基于大模型多模态人机交互，我们认为有五点可以明确让大家拿来用的。

第一，多轮对话的贯穿能力。很多传统设备，我们经常说容易“把天聊死”，现在大模型的多轮对话的贯穿能力可以进行意图识别，满足客户的需求。

第二，知冷暖的共情闲聊对话能力。我们曾经讨论一个场景，未来老人的陪伴和陪护，谁陪空巢老人聊天，谁提醒他吃饭、吃药，谁去情感化、拟人化的思路或者交互方式去陪伴他，谁去呵护和关怀，这里面是有温度的，而且我们认为意图判断的时候会把情感识别放到里面。

第三，基于文档的新知识快速学习能力。比如一个烤箱的说明书，一个新的设备怎么用，把说明书给它，你可以问它怎么用，比如这个烤箱怎么用，怎么按键。

第四，无所不知的应用能力。从提问人的角色和关系角度理解分析问题。比如，今天提醒我要吃二甲双胍，我今天还不太舒服要吃另外一个药，但是这两个药互斥，机器可以告诉你。

第五，基于海量用户的修正意见的进化能力。可以不断地进化，比如我想打开空调，每次我最舒服的温度是23度，我以后再打开空调就给我调23度，这是我的要求，告诉它每次自动设定，适合我的温度，这种不断修正客户意见的进化能力。

基于大模型可以看到，传统的智能家居里控制的时候是人设定模式，今天已经有了访客模式、回家模式、就餐模式，我们有一个APP，大家在里面设置，有多少设备，有灯、空调、冰箱、照明、应急设备，设立一个模式以后说你帮我启动一个模式，这是传统的，未来不是这样的。

这是我们做的测试，给我一个热带雨林的感觉，这是很模糊的模式，它知道我有什么设备，自己去安排，热带雨林是什么样子，它理解的是什么样子，比如说冰雪世界，我应该穿什么样的衣服，今天股票怎样，明天会下雨吗，我今天心情不好，你跟我聊天，这些东西都是可以呈现的。

有两个核心的点，第一是个性化的提升工程设计，该如何交付提示功能设置。第二是针对提示工程生成最佳的结果，比较宽泛。后面有一个视频，也是我们在AWE现场搭建的一个视频，大家可以在现场看到、体验到、可以玩的。

所以我们认为新一代大模型会改变5件事情：第一，家庭信息充分掌握和利用越来越重要；第二，无所不至的小助理一定会出现；第三，专业家庭智慧管家未来会在我们生活中必然出现；第四，优秀结果的最佳呈现，无论是语音、图像等呈现方式一定会有最佳的表现；第五，不同功能区凸显专项智能，大模型是通用能力，在专项智能上大家才最希望看到的。

下面有一个视频，大家可以看一下（播放视频）。刚才视频里我们应用了几个部分：第一是端侧变化，我们可以看到应用了女生的虚拟形象，每一句话的时候口型和字是对在一起的，包括会有一些动作和肢体的虚拟形象。第二是Smart TTS，这里面是一个常规的女生形象，我们可以基于不同的形象和不同情绪有不同的声音变化。第三是大模型做了很多的理解、认知和推理。

我们在展馆W3馆有针对客户定向邀约体验的一套系统，大家可以去我们展馆，亲自体验这一套设备，我们接了空调、灯、风扇、音箱这几个产品，大家可以去现场模拟体验，问了很多开放性问题，也很有意思。

以上是徐燕松演讲内容的完整整理。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章