大模型逐鹿AI搜索，「天工」跑在了前面

科技

2023-08-29 04:08

机器之心报道

机器之心编辑部

颠覆数字世界的基础，大模型的第一波应用在这里？

最近一段时间，科技领域的新产品都讲究个「大模型加持」，技术竞争进入了白热化，不论谷歌、微软还是 Meta 仿佛瞬间都回到了自己年轻时的样子。

随着技术的快速发展，越来越多的人开始讨论大模型的应用。在落地上，首当其冲的就是谷歌一直有着主导地位的搜索。

在 ChatGPT 发布不久之后，占据先手优势的微软放出的第一波大模型应用产品正是搜索引擎。北京时间 2 月 8 日凌晨，微软发布重大公告，争分夺秒的宣布将大模型技术引入到自家的搜索引擎中。

这一次，数十年处于霸主地位的谷歌搜索，感受到了微软新必应带来的「震感」，也让我们看到了 AI 搜索引擎成为了大模型技术落地应用的战略要地。

近日，国内公司昆仑万维加入了「AI 搜索引擎」的这场逐鹿之战，宣布推出国内第一款融入大语言模型的搜索引擎 —— 天工 AI 搜索，并开启内测申请且上线了 App。

内测链接：tiangong.cn

在这篇文章中，我们就来看下，天工 AI 搜索如何挑战传统搜索？实际用起来效果又如何。

为何始于搜索？

为何早早发布「天工」大语言模型的昆仑万维，将大模型技术在 C 端的第一款产品落在搜索引擎场景？

最终原因，还是在于搜索的重要性与大模型技术带来的革新潜力。

由于技术的快速迭代，很多科技公司提出了「基础模型」，开发者根据自身的需求可以在其之上构建商业应用，不过基于它们实现的大规模工业转型，效果还没有显现。

但在消费级领域，生成式 AI 似乎拥有更加明显的应用前景。从今年 2 月开始，微软、OpenAI、谷歌和百度等先行者的行动看来，不约而同地把大模型的能力引入到自家的搜索引擎当中，受到了人们的欢迎。

大模型时代来了，我们的生活会发生哪些改变？在看到过 ChatGPT 的震撼效果之后，我们都对此进行过或是严肃或是夸张的想象，有一个共识是：它可能会在科技公司的产品上无处不在，越是需要与计算机互动的工作，颠覆就会越强烈。

在与计算机互动的过程中，搜索引擎是基础且「无感」的应用。长期以来，搜索几乎没有出现过明显的形态变化，人们也越来越倾向于选择头部几家服务。

大模型问世后，传统搜索可能会被颠覆，这个格局有机会被打破：通过结合质变之后的 AI 技术，过去以关键词为起点的搜索动作，已变成了发出指令「让人工智能干活」，我们不再需要思考检索的方式，或是在搜索结果中繁琐地筛选可能有用的内容或是入口，AI 会一站式地解决问题。

通过大模型特有的思维链（CoT）能力，新一代搜索系统可以充分理解人们提出的问题和找到的内容，分析你的意图，和你进行持续有效的互动，生成有意义的内容。

简单来说，AI 现在已经有了点「逻辑」，它可以真正作为我们的个人助理，因为满足大量复杂的需求而成为流量入口，也可以作为初步的生产力工具解决工作上的问题。

基于大模型的搜索能力，我们可以期待在不远的未来，对于信息的需求会获得极大满足，让 AI 整合资料能大幅提升知识获取的效率，而 AI 生成则可以用以前无法想象的速度完成任务。

另一方面，一个可以充分理解人类意图的 AI 也能连接各种服务，让行程制定、会议纪要不再需要时间，随着不断使用，它还会变得越来越聪明。

如果存在这样的大模型应用，它难道不就是我们心心念念的，可以帮我们与这个世界打交道的「超级 APP」？

全量 AI 搜索体验，而且更方便

既然已经有产品上线，那么它的具体效果如何？

作为参加内测的首批用户，机器之心第一时间试了试天工 AI 搜索的成色。一番体验下来，我们切实感受到了与传统搜索引擎的不同之处。

这款 APP 名叫「天工 AI 助手」，新用户下载就能体验，如果是老用户，也只需要更新 APP 就能体验。它的用户界面设计很简单：在搜索框中点进去，就可以问自己想要了解的任何问题了。另外，利用「AI 对话」功能，你还可以体验与天工 AI 助手聊天互动、创作文本等常规大模型的能力。

我们知道，传统搜索引擎主要是以关键词为导向的，输入文字后得到与关键词匹配的海量结果，以关联程度为顺序排列（不考虑广告的话）。但这种方式有时未必就能给你真正想要的答案，毕竟即使是论文也存在标题党，而如果搜索一长段话，搜索引擎很少会考虑输入内容的逻辑。

天工 AI 搜索主打的是自然语言搜索，就是用大白话进行提问，不用遣词造句，或是使用信息检索课中提到的「操作符」，想怎么问就怎么问。天工 AI 搜索不仅能轻松分析并 Get 到你的真实意图，还能捕捉到问题中的上下文关系，使搜索结果更精确、更相关。

它也大幅度改变了搜索引擎输出结果的逻辑，简单给出一个问题就可以看到，天工 AI 搜索的界面从上到下分成了三个部分来呈现，分别为参考、回答和追问。

这正是天工 AI 搜索与传统搜索的不同之处：它首先会展示出参考信息源，并且这些信息源是对回答问题最具参考价值；然后基于 AI 大模型能力对参考内容概括总结，去除冗余和关联不大的信息，更高效、准确地生成简明扼要的回答。

作为搜索结果（回答）中引用信息源的参考，是天工 AI 搜索的第一大亮点。这些列出的参考保证了回答是可以追溯和值得信赖的，通过对应的索引让你直接链接到原始信息。参考信息源也很丰富，不仅有新闻网站、知识问答平台，还有机构官网、视频等。

来到最底部，则是天工 AI 搜索的「追问」功能，体现了搜索引擎大模型的一面，它可以让你围绕一个问题展开 20+ 轮次的深度交互。

搜索引擎的特点在于能针对你的需求输出即时准确的信息，而大模型的强项是打破了人机之间的壁垒，可以和你有效进行对话，充分理解上下文内容，并给出准确的回应。

接下来我想了解一下谷歌在 2017 年发表的那篇影响了自然语言处理（NLP）发展方向的大作。天工 AI 搜索给到了这篇论文的题目、架构原理以及产生的影响，简直像是对论文做了一个摘要总结。

我们继续追问，在 NLP 领域里曝光率极高的 Transformer 早已经扩展到了计算机视觉领域。谷歌在视觉 Transformer 领域的工作 Vision Transformer 有哪些厉害的地方呢？天工 AI 搜索让我们了解到 ViT 相较于传统卷积和循环神经网络的优势、更出色的建模能力和更强的可解释性，以及为计算机视觉领域带来的积极影响。

当初写 Transformer 论文的几位作者，现在已经都算是大神了吧，他们都怎么样了？那就接着往下问。

由此可见，天工 AI 搜索的无限追问赋予了你我「打破砂锅问到底」的能力，一件事情的来龙去脉都可以在它那里找到答案。

除了通过追问让你化身「万事通」之外，天工 AI 搜索在大模型的加持下具备强大的信息整合、提炼和串联能力，从而在应对开放式问题时更加游刃有余、答之有物。

这次我来问一个目前大模型领域没有定论的热点话题，开源还是闭源？看看天工 AI 搜索会给我们什么答案。它的回答首先点明不能一概而论，然后详细罗列了开源和闭源的优势，最后建议企业和研究机构根据自身情况选择开源或闭源，可以说非常全面了。

大模型的搜索引擎不仅能接得住追问，而且还能拿捏很多细节。天工 AI 搜索在知识类、创意类搜索方面更是强于传统搜索。

比如给出下面一个编程题目，它会先进行解释，再输出代码实现。当然解法的来源链接也都列好了。

另外你也可以基于这个结果进行追问，一步步了解这个代码的原理。

再来一个创意类的问题，比如我想利用生成式工具 Stable Diffusion 和 Runway 创作一部科幻大片，但不知道怎么做。天工 AI 搜索给出了非常详细的准备步骤，可见要比自己总结快得多。

接着追问，我想写一个以海洋遭到核污染导致人类灭亡为主题的故事，但不知道如何创作剧本。同样交给天工 AI 搜索，回答依然条理清晰、逻辑性强。

实时性是搜索引擎的重要要求，天工 AI 搜索在这方面做出尤为出色，它用整个网络作为资料库保证了输出的实时性。

比如我想了解一下 Meta 上周五发布的代码大模型 Code Llama，以及在它的基础上超越 GPT-4 的大模型。从天工 AI 搜索那里，我们知道这个超越 GPT-4 的大模型是 WizardCoder 34B 以及它的一次生成通过率。

最后，天工 AI 搜索非常友好的一点是每轮次的搜索结果都不会丢失，保存在「我的历史」中，以便你随时回看搜索内容。并且，所有客户端都是统一的。

天工大模型和 AI 增强技术

看起来挺好用的天工 AI 搜索，背后应用了哪些技术？它的最重要依托是昆仑万维此前推出的千亿级大语言模型「天工」。

作为国内首个对标 ChatGPT 的双千亿级大语言模型，「天工」部署在国内领先的 GPU 集群上，整合了千亿级预训练基座模型与千亿 RLHF 模型。因此，模型拥有了强大的自然语言处理和智能交互能力，在丰富的知识储备加持下，可以满足知识问答、文案创作、逻辑推理、数理推算、代码编程等多样化生成式 AI 需求。

昆仑万维表示，利用大模型能力，新一代搜索引擎正在变得更加聪明。另一方面，基于搜索的实时内容，大模型在内容生成时幻觉等现象出现的概率也被降低。在天工 AI 搜索的背后，昆仑万维在多个角度进行着重改进，革新了传统搜索引擎的体验。

具体而言，提升主要体现在五个方面：

意图识别和理解：传统搜索引擎中，用户经常需要多次尝试搜索语句。天工 AI 搜索在检索前会使用大模型对用户问题做 Query 改写，不仅可以深入地挖掘用户真实意图，还能准确捕捉到查询中的上下文关系，带来更加精确和相关的搜索结果。

智能摘要：在开放式问题上，通过「Dense Passage Retrieval」（DPR）技术，利用双编码器模型对问题和潜在相关文档（例如维基页面或论坛文章）进行编码、计算相似度，确保准确检索到高相关性文档及关键段落。

向量语义检索：昆仑万维为搜索引擎构建了一套大规模实时向量检索系统，并在搜索的多个环节发挥作用，包括精准内容定位、增强内容多样性、提升上下文连贯性等。通过召回用户之前查询的搜索结果，提高搜索结果与用户交互的连贯性，打造了一种更自然、流畅的搜索对话体验。

智能追问技术，它为天工 AI 搜索的无限追问提供了支持。昆仑万维表示，该技术的核心是充分理解用户的查询，并在需要更多信息时提出追问。追问的实现不仅离不开「意图识别、信息完备性检测、问题生成、用户反馈接收、动态调整与学习、上下文感知」等步骤，还需要对话、用户查询日志、追问反馈等大量数据持续训练。当然也需要不断迭代和优化，通过准确把握用户多遍需求，使回答始终不偏题。

此外，天工 AI 搜索也实现了跨语言的检索（Cross-LanguageInformation Retrieval，CLIR），即使你提问时使用的是中文，AI 生成内容时寻找的信息也并不仅是中文，但呈现结果时全部都已翻译并整合好了。这种方式不仅大大扩展了搜索的知识边界，也确保用户能够接触到最新、最全面的全球资讯和研究成果。

更重要的一点是，天工 AI 搜索会自动过滤收费网页和无效信息，也没有广告，排在前面的都是有效参考链接。

在这些能力的加持下，AI 搜索既能看懂你的长难句，也能从全球的网络中搜罗信息，整理出逻辑清晰的答案，如果获得了你的反馈还能不断改进。一个能够解决所有问题的万能 AI 已经初具雏形。

或许，超级应用的开始就是这个样子。

点击左下方「阅读原文」，申请加入「天工AI搜索」内测。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章