Redian新闻
>
AI大模型加持,生成式搜索来了!

AI大模型加持,生成式搜索来了!

科技
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

最近有两件事,让搜索引擎重回聚光灯下。

百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。

几乎同一时间,OpenAI最新发布聊天机器人ChatGPT,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。

搜索引擎这个经典技术,就要迎来一轮变革了吗?

想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。

进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是高频刚需,逐渐融入人们的日常生活。

当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。

搜索变了

过去一提到搜索,肯定离不开关键词。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。

就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去对关键词做匹配

随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能直接给出回答

如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。

搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。

针对一些问题,会给出对内容深入理解后的答案抽取

有时会给出更直观、更容易跟着操作的视频内容

甚至在理解需求的基础上出现配套的服务跳转

这些变化看起来并不复杂,背后却要有很多技术做支撑。

在这里要重点讲一下百度今年亮相的两项新技术,“知一”“千流”

先看跨模态大模型知一,AI技术在搜索场景落地的代表。

简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限,就更容易理解用户的搜索需求。

从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。

据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。

这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。

如何理解栅格化?

在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。

如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。

百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。

还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。

知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。

这些新技术,在实际业务中是否起到了效果呢?

答案或许可以从数据中找。

反馈驱动创新

9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模逆势增长17%

最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。

百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是“反馈驱动创新”

一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。

另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%,其中的用户点赞、评论、分享也都是用户最直接的反馈。

用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成“双轮驱动”,持续推动搜索进化。

比如虚拟人技术加持下,可以实现交互式对话,单纯的搜索之外又有了聊天、陪伴需求。

正如百度研究院在年初的十大科技趋势中所预测的,AIGC(AI Generated Content,人工智能生成内容)在今年大放异彩。

未来AIGC继续与搜索深度结合,还将带来“搜索即生成”甚至“搜索即创造”。

不会再有“抱歉,没有找到相关的网页,请检查您的输入是否正确”,而是用户点下搜索按钮的一瞬间,本不存在的内容由AI即时创造出来。

百度CEO李彦宏前段时间也说过:

随着技术的突破,AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。

而一切技术的突破和创新,都离不开人才。

为了更好推动技术和算法创新、促进产学研交流、培养人才,百度举办了首届搜索技术创新挑战赛。

大赛提供30万元总奖金池、提供英伟达A100算力资源,更是有机会接触到百度海量搜索业务的脱敏数据。

本届大赛分为两个赛道:

搜索问答,旨在探索开放领域搜索场景。面对网页文档质量参差不齐、长短不一,问题答案分布零散、长度较长等问题,希望参赛者能进一步提升深度智能问答效果,给用户提供更好的搜索体验。

搜索模型推理优化,对于保障亿万用户流畅的搜索体验、控制算力成本开销至关重要。希望参赛者通过各种优化技术,挑战最优的模型推理性能。

大赛期间,百度还提供了丰富的相关课程和学习资料,搜索技术与GPU加速计算专家也将提供全程的技术辅导。

本次大赛对全社会开放,消息一出立即吸引了大量高校学生、企业团队或个人开发者,目前已有1500+队伍报名参加,成为搜索技术领域一次盛会。

大赛地址:
https://sti.baidu.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PIEZO1 2022:约1/3论文发展9+SCI期刊;诺奖加持,研究正扩展至临床各个领域。这13篇论文将点亮你的课题思路!PD-L1/PD-1研究2022丨诺奖加持,论文和基金均火箭速度增长;成果及转化正在其时!大数据分析及19篇论文帮你理清思路​B站UP主硬核自制智能音箱:有ChatGPT加持,才是真・智能净利3年增近百倍!宁王比王加持,这家锂电公司IPO来了闺蜜孩子考帝都名校有它加持,这条新赛道收益太高了热烈祝贺农垦中学校庆五十周年ChatGPT is not all you need,一文综述6大公司9类生成式AI模型马云密友和季琦天使加持,获14轮融资,这家公司前景几何?巴黎的五月风暴《悠悠岁月》(3)NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型吴恩达的2022年终盘点:生成式AI、ViT、大模型谷歌加持,百度出来的AI大神要干掉ChatGPT?版权,生成式AI的“掣肘”这也太洋气了吧!有它加持,你就是聚会走亲访友中最靓的崽!紧急警告!请与它保持至少五米!致命放射性胶囊掉在澳洲这地,地毯式搜查中胡鑫宇失联事件最新进展,“5000人每天拉网式搜寻”骁龙8 Gen2加持,Redmi K60电竞版曝光写我的那些写手们!许祖彦院士:三大特性加持,激光显示将成下一代显示技术主流最新进展!"5000人每天拉网式搜寻"有「特」证的防脱洗发水来喽!专利技术加持,和油秃头说拜拜2022生成模型进展有多快?新论文盘点9类生成模型代表作五项国际大奖加持,波司登如何重塑户外服的舒适性?京东腾讯加持,香港IPO上市,小熊U租做对了什么?能力朱俊彦团队推出首个基于内容的深度生成模型搜索算法!核心产品全面Serverless化、开源300多个AI模型加速软件AI化,阿里云如何抓住技术“定义权”?| Q推荐ChatGPT爆火背后,生成式AI是否只是「昙花一现」?一文看尽SOTA生成式模型:9大类别21个模型全回顾!7 Papers | 英伟达64个A100训练StyleGAN-T;9类生成式AI模型综述3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!今天,微软重新发明搜索引擎:首款ChatGPT搜索来了荣耀笔记本限时最高直降600元,OS Turbo 加持,续航性能双强龙卷风健康快递 2187 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。