Redian新闻
>
大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤

大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤

公众号新闻

讯飞输入法13周年再启航,定义下一代生成式AI输入法。
作者 |  香草
编辑 |  漠影
大模型时代需要什么样的输入法?
进入21世纪第3个十年,人工智能迎来“智慧涌现”的大模型时代,键盘打字、整句联想、斗图……这些“传统”的功能可能已经无法满足广大用户的个性化需求。
如何在产品形态已经很成熟的情况下,不断解构用户场景、挖掘用户持续发展的需求,是头部玩家的永恒命题。
在13周年之际,讯飞输入法发布“面向下一代输入法的生成式AI”,并带来全新的13.0版本,开启生成式AI输入时代
基于大模型的AI能力,讯飞输入法13.0支持60多款应用覆盖6大表达场景,并率先开启人机交互界面革新,推出全新的卡片式推荐区“活力视界”,在屏幕与按键之间采用双行显示,支持自由组合卡片功能,将传统的文字呈现方式升级为“Feed流”式的交互体验。
据悉,讯飞输入法的“AI创作助手”于今年8月首次推出并开启内测。据讯飞官方数据,经过两个多月的上线验证,基于星火大模型的“AI创作助手”月累计请求量已超过6000万次,用户点赞率超过85%。此次升级,“AI创作助手”再次进化,致力于帮助用户“智慧表达”和“智能连接”
那么,讯飞输入法13.0究竟能够为用户带来什么样的生成式AI新体验?“生成式AI输入法”与传统输入法相比,核心能力有哪些?大模型时代下,输入法未来的发展趋势是什么?
智东西与讯飞输入法总经理程坤、讯飞输入法产品总监赵明路进行了深入交流,并第一时间试用了讯飞输入法13.0,从中寻找这些问题的答案。

01.
60+应用覆盖6大场景
把深、厚、大的能力隐藏在薄页面中


2010年,讯飞推出第一代讯飞输入法,开启了中文输入法的语音输入时代。
而现在,伴随着“生成式AI”浪潮的到来,各个领域都迎来了“智慧涌现”的大模型时代,输入法领域自然也发生着巨变。
下一代输入法应该是什么样的?具备智慧表达、智能连接两大能力,自适应、自进化两大特征的“生成式AI输入法”,是讯飞输入法团队在这个新时代交出的首份答卷。
基于这两大能力和特征,讯飞输入法13.0提供了20余款AI创作助手,覆盖6大场景、60多款应用
讯飞输入法13.0在人机交互上也进行了革新,上线业界首创的“活力视界”交互界面,在屏幕与按键之间采用双行显示,以创新式的卡片设计,实现Feed流式的交互体验。

▲用户可在菜单面板开启“活力视界”界面

与传统的文字候选栏相比,“活力视界”创新组合了Emoji(表情符号)、花样字、斗图等多样化的候选建议,甚至输入之外的扩展服务,内容展示更加多元。

▲“活力视界”为用户提供斗图、Emoji等候选建议

从产品设计的角度来看,赵明路认为,一个好的产品应该用简单的界面为用户提供多维的价值
“活力视界”作为连接传统界面设计和全新AI功能服务之间的线索,通过一个简单的两行视窗,将产品背后丰富的AI能力矩阵呈现在用户面前。
对于用户来说,讯飞输入法从交互方式上看起来,可能并没有太大的变化,用户也不需要花费较大的学习成本去理解其中的层级结构。只要用户能更便捷地使用服务,在使用中能感受到“更懂我”,就是讯飞想要达到的效果。

▲赵明路解读讯飞输入法13.0的产品创新

程坤告诉智东西,生成式AI输入法的意义和价值,可以从两个层面来理解,也就是智慧表达和智慧连接这两大能力。
1、智慧表达:有大脑、有思想、有灵魂的输入法
首先,从用户角度来看,生成式AI技术相当于为输入法加上了“大脑”。
上一代输入法只能做文字输入,而现在通过生成式AI赋能,输入法不仅能帮助用户把灵感更好地表达出来,还能激发更多创意。
智慧表达能力主要分为三个场景,在用户输入的各个时机,即输入前、输入中、输入后,以不同的方式完善用户的表达。
一是在输入前智能生成。基于对上下文内容的理解,结合不同表达需求智能生成内容,主动替用户表达。
例如,当用户处于聊天、发布、评论、评价等不同场景的输入框时,“活力视界”右端的推荐栏会自动根据场景需求,提供不同的功能。
智东西分别选取了朋友圈、微博、淘宝、小红书这四个应用场景体验,讯飞输入法均自动提供了相应风格的文案。

▲讯飞输入法在朋友圈、微博、淘宝生成不同风格的文案

同样的,在文案生成后,用户可以通过下方的指令切换不同的风格。例如讯飞输入法生成下面这段小红书文案后,我希望它能提供一个更简短的版本,点击“语言简练点”即可重新生成更符合需求的文案。

▲使用讯飞输入法生成小红书文案(动图有加速)

二是在输入中智能补全。基于用户已经输入的内容,讯飞输入法13.0能帮助用户补全句子或续写文章。
在补全句子后,用户可以继续在下方选择第二次指令,如引用名言、增加Emoji、改变语气等。

▲扩写句子后,用户可点击下方指令为文字增加Emoji

三是在输入后智能润色。基于用户在聊天、评论、发布等不同场景中输入的内容,结合用户表达习惯或需求,对用户的表达进行应情应景的智能润色。

▲智能润色后,用户点击下方指令可二次生成不同风格文字

2、智能连接:理解用户意图,以用户为中心连接万物
其次,从输入法品类角度来看,生成式AI能够帮助输入法从工具型应用向服务型应用转型,无论是输入法App内还是跨App应用,都能将用户与其输入后想要的服务连接起来。
智能连接能力主要体现在连接输入场景内外多元服务上,在不同的场景主动为用户提供不同的功能选择。
其中比较具有代表性的功能是AI剪贴板。用户无需输入任何内容,只需复制想要回复的消息,“活力视界”窗口就会自动弹出AI剪贴板功能,并提供智能回复等选项。

▲只需复制消息,AI剪贴板就可以提供智能回复

此外,在AI剪贴板中右滑,可以看到拆词、翻译、搜索等更多功能,点击“翻译”即可自动翻译剪贴板中的内容。

▲AI剪贴板自动翻译用户剪贴板内容

AI剪贴板提供的翻译功能,也是讯飞输入法智能连接能力的体现——连接输入场景之外的内容与服务,用户无需切换至翻译应用,即可获得文字翻译功能。

02.
推出首个输入法认知大模型
打造“1+N+X”生态的重要一环


10月24日,讯飞发布星火认知大模型V3.0,与70天前刚刚发布的星火大模型V2.0相比,文本生成、语言理解、多模态等七大能力全面提升,全面对标ChatGPT。
讯飞采取了“1+N(重大行业)+X(细分行业及产品)”的生态体系战略,而讯飞输入法,则是其中的“N”环节里,“智慧输入”这一赛道的应用,是整个生态系统布局的重要一环。
在星火大模型V3.0的基础上,讯飞为输入法量身定制了首个输入法认知大模型涵盖文本生成、多语言语音、多模态生成等生成式AI能力矩阵。
首先,文本生成能力是讯飞输入法的基础与核心能力,也是智慧涌现开始的地方。
多语言语音能力上,讯飞输入法在去年率先发布了语音个性化方言免切换系统,对整个方言语音系统的使用有极大促进。从今年6月到9月,短短三个月内,讯飞输入法闽南话的使用率提升了1177%。
在此基础上,今年,讯飞输入法额外构建了多语言语音大模型,将识别、翻译、语种分类多任务聚合,达到信息共享互通的目的,实现语种免切换识别、语音到目标语种自动翻译以及领域识别效果增强。
目前,讯飞输入法13.0多语种自动识别覆盖了37种语言,端到端语音翻译超过13个,在多语言识别的通用效果上也提升了30%
多模态生成能力上,基于讯飞星火多模态大模型,输入法认知大模型将多模态对齐到统一语义空间中,通过两种方式,即多模态理解和多模态生成两种任务的协同训练,来实现多模态的协同。
目前,讯飞输入法逐渐开始落地应用多模态生成式AI的能力,如AI皮肤、AI头像、AI造字等,为输入法的个性化带来更多可能性。

▲讯飞输入法AI皮肤、AI头像、AI造字界面

除了最基本的生成化特点以外,讯飞认为,新一代输入法认知大模型还应具备个性化、场景化、自进化的特点。
在自进化和场景化方面,研发团队结合对比学习,构建了大量正例和负例用于训练Reward Model(奖励模型),并提出了4种Reward Model训练方法,可以在不需要外接人工干预的情况下,实现大模型的常态化自更新。
上一代的输入法其实已经具备很多功能,包括不同的输入模式、不同的键位、多种外部功能等。如果对每个功能和项目都进行单独建模,整个系统融合起来的难度是很大的。
针对这个问题,讯飞输入法研发团队提出名为ALL-IN-ONE的统一模型架构,利用Prompt(提示词)做任务引导,将不同的任务进行分解耦合训练。除了提高整个系统的稳定性,对可用性、安全性也有很大的提升。

▲科大讯飞AI研究院副院长丁克玉解读统一建模与自进化

在个性化方面,面向C端时,大模型的个性化问题一直是业界难题,因为企业无法为每个用户构建一个专属的大模型。
对此,讯飞输入法研发团队提出了Low-Rank个性化定制方法,通过将模型尺寸降低到认知大模型的十万分甚至百万分之一,来使小规模的个性化模型能够在手机等移动设备上顺利运行。
具体来说,Low-Rank通过使用场景和相关的用户操作记录下来,在端侧训练小模型,既实现了个性化,又保障了用户信息的安全。

03.
13年坚持聚焦用户需求
开启输入法领域的“iPhone时刻”


今年3月,英伟达CEO黄仁勋曾在演讲中说,AI的“iPhone时刻”正在到来。
而讯飞输入法,想要开启输入法领域的“iPhone时刻”。
13年前,讯飞推出第一代讯飞输入法,开创了中文语音输入法的先河。赵明路称,这其实就是一个小小的“iPhone时刻”。
数据显示,与去年同期相比,讯飞输入法日语音渗透率提升18%,日语音调用量提升35%,00后用户占比提升17%,日活跃用户规模提升10%,用户规模保持高速增长,产品核心指标蝉联行业第一。

▲讯飞输入法产品核心指标提升数据

作为一款十几年的“老产品”,尤其是在输入法市场规模增长缓慢的情况下,讯飞输入法能够做到年化10%的活跃用户增幅,离不开团队持续13年对用户需求的深入观察,以及对新兴技术的持续跟进。

▲讯飞输入法内容生态总监卢洁解读用户洞察

回顾讯飞输入法13年的发展历程,程坤告诉智东西,有几个特别的节点对讯飞输入法的发展非常关键。
首先是2010年,讯飞输入法诞生的日子。当时,这款产品的名字还叫“讯飞语音输入法”,是首款中文语音输入法,它开启了上一代输入法的“语音输入时代”。
其次是2012年,讯飞输入法率先将DNN(深度神经网络)应用到语音识别任务中,相对于传统的模型算法使识别效果获得大幅提升,标志着语音输入从“可用”向“好用”发展。
2016年,讯飞与锤子手机合作,首次在万人体育场演示语音输入,使语音输入为更多人所知,用户量也获得爆发式增长,月活突破1亿,达到1.1亿规模
2018年作为一个起点,讯飞输入法开始全面拥抱年轻人,先后上线了有趣的、DIY功能、交流社区以及内容开放平台,开始由提升效率向表达个性的方向发展
而如今在2023年,伴随着新生用户的需求增长和大模型时代新技术的赋能,讯飞输入法探索在产品功能、内容生态多方面应用生成式AI技术,想要开启输入法的生成式AI时代
赵明路告诉智东西,如果要用一句话来形容讯飞输入法13.0与12.0相比最大的革新,那就是——全面拥抱生成式AI
赵明路称,用户的需求、技术的发展,始终是讯飞输入法团队不断创新、不断进行产品迭代的最大驱动力。
星火大模型提供坚实的技术底座,对用户需求的敏锐洞察提供产品创新的动力,在技术和产品的双向驱动下,讯飞输入法筑起“护城河”,成为输入法品类中的佼佼者。
生成式AI输入法不会是终点。在讯飞输入法研发团队看来,它更像是一个分水岭,一个新的发展趋势。
程坤谈道,从长远来看,未来,每个人都会有一个智能助理。输入法作为一个既被高频使用,又能跨场景、跨应用的品类,能够连接不同应用之间的“孤岛”,同时又将大模型理解、推理、生成、多模态等优势能力发挥出来。
无论是交互界面上的重塑,还是AI功能的增加和深入,都有可能成为继语音输入后,下一个融入每个人生活中难以割舍的用户习惯。

04.
结语:输入法开启生成式AI输入新时代


输入法是智能手机、平板、电脑、智慧屏等带屏智能终端所必备的软件产品,渗透到每一位用户的日常生活中。
在大模型时代,正如程坤所说,生成式AI在输入法中的应用落地是一个必然的趋势。不仅是讯飞,市面上其他头部输入法厂商也都在做相关的尝试。
不同于传统的拼音、手写或语音输入,生成式AI输入无论是在内容的玩法、表达的多样性,还是在服务连接能力上,都能提供更多的想象空间。输入法不再是一个冷冰冰的工具,而是更懂用户、为每个用户量身定制的个性化产品。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
红色日记 4.1-20李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型AI未来还将如何发展?对教育又会有什么影响?听“搜狗输入法之父”深度解读ChatGPT时代消息称iPhone16标准版迎来高刷,iPhone 16 Pro屏幕增大到6.3英寸推荐一首歌曲《待你》大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 2生死面前,廉耻算什么?电动车又要撞上“华为时刻”?成不了人,不能像正常人一样的想事儿,easy! 这是什么情况?向量数据库会是 AI 的“iPhone 时刻”吗?| 《架构师》9月刊开放下载打不过,又要耍无赖了:电动车又要撞上“华为时刻”?仿生机器人大咖谈现状:说iPhone时刻有点早,诺基亚时刻刚刚好《编织梦幻的人·马格里特篇之二》TUM、LMU食堂纷纷罢工!泼天的富贵这次轮到Döner店了?iPhone 15 系列开启预售 / 华为推出 18K 金智能手表 / 腾讯混元大模型首批通过备案 | 灵感周报iPhone在中国收入创新高,苹果营收低于预期/微信输入法支持跨设备复制粘贴/康师傅回应涨价【2023年更新】美国iPhone购买攻略 怎么买iPhone最便宜最划算iPhone SE 4将基于iPhone 14打造/微信支付与三大运营商条码支付互通/ChatGPT版微型手机来了| 灵感周报北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型iPhone 15 正式发布!这款iPhone却爆雷 称其辐射爆表 要禁售!如何打造AR界的“遥遥领先”?对话李宏伟,雷鸟X2实测上手便宜 iPhone:Straight Talk iPhone SE 3代仅需 $94 倒赚攻略,可 trade-in $160大模型引爆AI革命 机器会替代人吗?——访通联数据总经理蒋龙“不小心将主任发成主人....” 这输入法别太离谱了!nǚ hóng?nǚ gōng她的美丽银行应用生成式AI,大模型如何选?从“好玩”到“好用”,大模型如何落地生花?GPT-4就是AGI!谷歌斯坦福科学家揭秘大模型如何超智能免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?苹果iPhone 15系列发布在即,罗永浩再次开炮:这不就是iPhone 14换了个序号?对话科大讯飞:不赚钱是 ChatGPT 的问题,不是大模型商业化的问题iPhone的“进化”历程,你的iPhone也在其中How Guangdong Pioneered Chinese Photography小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。