“天猫精灵之父”创业打造「鼻尖上的GPT」,扫射豆包、Kimi盲区公众号新闻2024-05-17 05:05Meta苹果看中的新赛道,“天猫精灵之父”已带领国产抢跑。作者 | 三北编辑 | 漠影拥有一款“鼻尖上的GPT”是一种什么体验?近期,杭州李未可科技公司推出了首款AI眼镜Chat,支持用户通过语音与眼镜中的智能助手进行交互,比如答疑解惑、日程安排、语音导航、英语翻译等,都不在话下。同时,这款AI眼镜背后的多模态AI大模型平台WAKE-AI也随之开放。据悉,这是国内首个面向AI眼镜等可穿戴设备的大模型平台,既支持李未可科技内部团队做开发,同时也为广大AI开发者伙伴提供技术共享。当下,市面上已经有豆包、Kimi等多款支持大模型语音交互的平台,但它们大多以匹配PC、手机为主;WAKE-AI则率先切入AI眼镜这一新形态,试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务。李未可科技创立于2021年10月,创立之初便聚焦“AI+AR”眼镜赛道,公司成立仅三个月便拿下字节跳动的融资,其创始人茹忆曾是阿里AI实验室智能终端负责人、天猫精灵硬件&产品总经理,也是这波大模型浪潮中最具代表性的创业者之一。▲李未可科技创始人兼CEO茹忆当下,随着Ai Pin、Rabbit R1等AI新硬件产品在国外崭露头角,掀起大模型智能终端的新风口,国内“天猫精灵之父”带队的新锐团队也交出了答卷,成为智能硬件产业关注的一个焦点。AI智能眼镜是否会成为一种主流的AI新硬件?面向“AI+终端”的多模态AI大模型平台WAKE-AI有什么过人之处?通过对话李未可科技创始人兼CEO茹忆、AI首席架构师庄博宇,本文对此进行了深入探讨。01.在豆包、Kimi的射程盲区打造“鼻尖上的GPT”陪伴助手尽管豆包、Kimi等各种大模型App风靡手机端,但它们却迟迟未攻入智能眼镜等可穿戴设备。背后的一大“拦路虎”是时延问题。庄博宇告诉智东西,用户在眼镜上对机器时延的容忍度比在手机上更低,1.8秒是一个容忍时间,如果超过这个时间点,用户就会感到交互不流畅自然。然而,包括豆包等市面上的多个大模型落地眼镜都需要5秒左右。为此,李未可科技自研了WAKE-AI大模型平台,试图为用户打造一个随叫随到的“鼻尖上的GPT”陪伴助手。据悉,该平台专门面向可穿戴设备等终端优化研发,能在500毫秒内快速精准地识别用户指令,且将大模型实时回答反馈控制在2秒左右,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。从体验来说,这意味着用户将可以在AI智能眼镜上享受到自然流畅的AI交互,比如让眼镜搜索新闻、导航目的地或增加日程,都不会太费功夫。AI智能眼镜可能取代手机的部分功能,让用户真正体验到AI融入生活。“技术的一小步,用户体验的一大步。”茹忆说。从2016年3月阿尔法狗打败李世石到2022年的12月份ChatGPT 发布,中间经历了六年六个月时间,AI算法架构从CNN、BERT改进到Transformer,模型参数扩展带来智能涌现,茹忆对此感到很兴奋,认为这将为语音交互体验带来巨大提升。与在上一波AI浪潮中押准智能音箱风口不同,这一次,茹忆认为,眼镜将成为AI落地的最佳载体之一。这与Meta首席科学家、图灵奖得主杨立昆的观点不谋而合,杨立昆在前不久也曾提到:“通过智能眼镜访问的AI助手是未来的趋势。”面向这一趋势,李未可科技近期推出的AI智能眼镜Chat是其小试牛刀之作。以低至699元的价格让用户低门槛地迈入AI体验大门,Chat可以说非常亲民。这款AI眼镜的外形与日常佩戴的眼镜几乎没有差异,但简约却不简单,一个贴身陪伴助手的雏形已经出现。02.自研WAKE-AI大模型平台三大技术护城河打造交互新体验可以预测,大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具,而是好像有一个真人助理在用户旁边,或者一个虚拟人在用户鼻尖上的眼镜里,帮用户解决各种复杂的问题。WAKE-AI大模型平台推出的意义,则是将大模型运用到AI硬件设备上的诸多畅想落地实际,不仅实现更自然的交互,还带来更人性化的陪伴,更精准的服务。那么从技术角度来看,WAKE-AI大模型平台究竟有什么过人之处?据悉,李未可科技通过三种方式提升WAKE-AI大模型平台的效果:第一,使用定向优化的分发大模型,帮助AI助手能快速地分发用户的指令,打造更自然的交互。第二,基于情感大模型,使用户和设备产生深度信任,让AI助手形成更有温度的陪伴。第三,针对室外场景需要大量的数据,使用多模态的VQA(视觉问答)模型,让用户可以指哪问哪,获得更精准的服务。1、分发大模型+Agent,让交互更自然作为一款C端产品,AI智能眼镜的交互体验被李未可科技放在首位。WAKE-AI大模型平台能提供更丰富的交互功能,同时耗时比同行更低。庄博宇谈道,比如当用户与豆包语音聊天,往往需要2秒才能完成语音交互,时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天,而不能执行网络搜索、导航等更复杂的任务。但是,基于WAKE-AI大模型平台,用户在AI智能眼镜上调用大模型的时延大大降低,一般对话时延控制在1.8秒左右、2秒以内;同时,用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能,复杂的交互反应也能缩短至3-5秒。背后,李未可科技团队使用分发大模型,通过语音输入来快速分发用户意图,为用户提供反馈;同时,大模型支持不同的AI Agent的能力,能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。此外,团队也在降噪技术、收音、ASR(自动语音识别)技术等方面也做了大量优化,从而使得用户能与智能助手更丝滑地进行交互。2、情感大模型+超拟人TTS,让陪伴更人性化茹忆和庄博宇都提到了《她》(Her)这部科幻电影,片中的机器人由于与主人公建立了情感连接,从而能进行更有深度的聊天和陪伴,这是李未可科技希望打造的智能助手的一个理想形态。基于这样的愿景,李未可科技与市面上同行的一大差异化是做情感搭配。为了让AI眼镜产品具备更拟人化的特征,李未可科技团队一是基于情感大模型研发了长记忆系统、情感类的Agent,二是打磨了拟人化的TTS(文本转语音)技术,以此打造用户能够天天使用AI智能眼镜的核心基础。在情感大模型方面,对标国内外的Claude等相关模型,庄博宇及其团队发现了一个行业核心的问题:大模型的记忆力是有上限的,不利于长时间陪伴用户。为此,李未可科技团队通过核心记忆和长期记忆,不断更新用户的画像,从而使得智能助手在对话中能够更充分地理解用户想要什么,更懂用户。而在打造拟人化的语气方面,目前市面上能上线情感表述的文本转语音TTS能力的厂家并不多,因为它有一个延时的考量,AI抽取、理解和表述会耗费大量的时间,所以速度上面需要优化;第二是成本上的优化,比如豆包虽然在App上能够提供情感表达,但它并没有把这个API能力开放出来,智能终端厂商无法获取。但是,李未可科技率先将超拟人TTS上线,把它轻量化到时延和成本都可承受的范围,然后开放出来,供自己的团队和合作伙伴使用。3、多模态+LBS能力,让服务更精准多模态大模型+LBS(基于位置的服务)会产生什么样的化学反应?李未可科技已经找到了验证场景。Citywalk(城市漫步)是当下备受年轻人青睐的室外项目,多模态大模型可以让Citywalk的人做到“指哪儿问哪儿”,比如指着岳王庙里的碑问“碑上写的到底是什么”,一套精准的智能导览服务就诞生了。据悉,李未可科技已经打造了“旅游助手+城市漫游系统”,核心是数据内容,以景区作为核心供给,现在大概有2000多个景区数据。结合这些景区数据,团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务,而多模态大模型的加持则让“指哪儿问哪儿”、自动生成路线、自动生成游记等更多丰富功能涌现,从而为用户提供更精准的服务。庄博宇告诉智东西,大模型使得原本碎片化的场景走向大一统,从而使精准服务的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景区数据,另一方面,Agent可以对数据进行更加自动化地处理,这使得团队能够在精准度和信息数量基础上提供更好的服务。可以看到,通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化,李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的AI眼镜设备,从而交出其大模型应用创业的“答卷”。03.Meta苹果看中的新赛道“天猫精灵之父”带领国产抢跑当下,已经有不少大厂盯上了“AI+AR”眼镜赛道。比如Meta与雷朋合作的AI智能眼镜已经在测试多模态大模型,并在近期宣布将推出首副“AI+AR”眼镜;苹果近期也传出正研究端侧大模型,可能将落地Vision Pro……与此同时,也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停XR探索,相关人员将转向AI设备方向的开发,或许意味着其“AI+XR”眼镜业务踩下了刹车。对此,茹忆认为这是由于产业发展仍处于初级阶段,大家还未形成共识。这就考验创业者对事情的认知,以及如何与自身优势做结合。站在李未可科技的角度来看,“AI+AR”眼镜的发展已经处于一个临界点,即将突破用户体验差,为此团队进行了积极布局。李未可科技打法的一大特点是不强行创造出一种产品形态,而是在已存在的产品上进行AI升级,从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构Statista数据,2023年全球眼镜市场总规模超1400亿美元,2015-2025年全球眼镜市场规模从1183 亿美元提升至1552亿美元。“未来我们的眼镜都会智能化,就像手表智能化一样。”茹忆说,“它的标志是体验成本大大降低,用户买一副AI智能眼镜和买一副传统眼镜价格也差不多,那为什么不买一个AI智能眼镜?现在手表就是这样。”AI智能眼镜市场的发展壮大需要生态共融。目前,李未可科技已经将WAKE-AI大模型平台面向伙伴开放,与伙伴一起来建设AR眼镜+AI能力、在室外等多个场景的生态。04.结语:大模型卷入设备端AI智能眼镜或成室外最佳载体当下,大模型加速落地端侧,我们可以看到AI PC、AI手机、AI智能眼镜以及各色的AI新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势,眼镜或许成为大模型在室外落地的一大最佳载体。现阶段大模型在端侧落地应用仍处于初级阶段。可以预测,未来云边端异构架构将发展得更加庞杂,同时多模态交互变得更加丰富,这对速度、性能和成本的平衡会提出新的要求,也将成为AI硬件赛道玩家需要直面的新挑战。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章