Redian新闻
>
搜啥啥不行!文心一言和 GPT-4 快救救搜索引擎吧

搜啥啥不行!文心一言和 GPT-4 快救救搜索引擎吧

其他
巧了不是,昨天 OpenAI 刚公布了 GPT-4(现在已经集成到微软新 Bing),今天百度就发布了“文心一言”,不久之后也将集成到百度搜索引擎当中。搜索领域已经很久没有这么热闹了。


图片来源 Giphy


不妨想想看,在拥有了 AI 语言对话功能的百度搜索中问它:“李彦宏为啥能青春永驻呢?”它会怎么回答,会不会给你推荐抗衰医美医院?


过去几周,“脑力劳动者”尝到这一轮AI技术爆发和信息搜索产品相结合的甜头,发现拿来做“个人助理”,做些苦活累活也还不错。


当你有疑问,不想查大量的文献资料,它替你查,并且“消化”完讲“人话”总结给你。在新 Bing 界面中,你现在最多一次可以跟它对话 15 轮。它有“理解”上下文的能力,所以你可以追问一个未被解答清楚的疑问。


跟新 Bing 对话丨图片来源微软 Bing


这是与传统搜索引擎在体验上最大的区别。进一步解释,新 Bing的工作原理是,将用户的问题,转化为“搜索语句”。在传统搜索引擎里进行搜索,找到资料,结合用户位置、时间信息,以及上下文,有针对性地为用户的问题,给出一个回复,同时把参考资料源标出来。


被人诟病的是,它参考的源质量没有保障,有大量 UGC(普通用户生产的内容),和未经权威认证的内容。然后它就拿着这些东西,“胡编乱造”。


但它至少态度好。想想也就算了,毕竟才“刚毕业”。人们一下子就把它和传统的搜索引擎对比起来。对于完全公开的事实,信息查询,它至少帮你节省了查、读材料的时间。


这样下去的话,传统搜索引擎就会被“抛弃”吗?它是怎么慢慢变得越来越难用的?


  搜索引擎是怎么工作的  


人们一直在想办法得到更准确的答案。在万维网还没有出现以前,人们依赖ftp协议共享文件资源。当有一个可搜索的文件名列表(叫Archie)出现——你得一字不差地输进去文件名,返回的是一个能下载该文件的ftp地址。


Archie丨图片来源 Twitter @Newegg


听起来就很费劲,但毕竟刚1990年,人们才开始“搜索”互联网。由此被引出的对网页搜索的需求,让开发者们想到两种解决办法。


其中一种,是通过人力收录和汇编URL(学名是统一资源定位器,可以理解成就是网址),比如曾经被大家所熟悉的Yahoo;另外一种,他们开发一个查找万维网的自动程序,并将匹配用户搜索的查找结果返回。这种自动程序叫做爬虫。


爬虫bot丨图片来源 101 Computing


并不是接收到用户查询指令后,爬虫去海量的万维网中找“答案”,而是爬虫定期去爬新的网页,收集到原始页面数据库里,再进行预处理,最后根据查询关键词,对网页排序后返回。由于数据的储存限制,起先没有能力保存下爬取到的所有数据,只爬URL、标题和简介。后来能爬全文的爬虫出现,才更为接近如今的搜索引擎的概念。


想知道“为什么给这些网页排在第一页?”,得先知道搜索引擎是怎么工作的。


像上文提及,爬虫做完了第一步的收集工作,要对数据做预处理,比如:去重,把营销号内容删除,判断一个后收集来的网页,是不是抄袭的,等等。


然后怎么能快速“匹配”呢?还得把数据分类。搜索引擎在处理页面,和用户搜索时,都是以词为基础的。


页面转换为一个由许多关键词组成的集合,倒过来,每个关键词都对应着一系列文件。当用户搜索某个关键词时,程序在“倒排索引”中找到这个关键词的同时,也知道了包含这个关键词的所有文件,以及关键词在每一个页面上出现的频率、格式、位置等等


但是搜索引擎怎么知道“如何断句”?尤其在中文语境下,比如输入“香蕉牛奶”时,知道不仅指“香蕉和牛奶”,还指“香蕉味的牛奶”。这要通过对海量网页上的文字样本学习,计算出字与字相邻出现的概率,几个字相邻出现越多,越可能构成一个词。


一位卡内基梅隆大学的计算机科学家,将搜索定义为“检索,和有选择的信息传递。”选择给用户展示什么,决定这一点的关键词是“相关性”。


最开始,搜索引擎只是以在数据库中找到匹配信息的先后次序排列搜索结果。后来,利用简单的内容分析,多了更多相关性维度。


我们知道了,用户的提问要被拆解成一串关键词。词频和密度是一个因素,搜索词在页面中出现的次数多,密度越高,说明页面和搜索词越相关。同样还有,如果关键词有特殊格式(在标题、标签、黑体、H标签、锚文字),越靠前出现的关键词,大概率与网页内容关系越大。


  搜索引擎怎么知道,我想搜的“苹果”是“iPhone”?  


但你发现,好像没有一种“相关性”能解决“链接质量“的问题。Google凭借PageRank(超链分析算法)解决了这个问题,并也因此崛起。这种算法通过评估一个网页的入链质量和数量,就好比,不仅科技大佬在研究ChatGPT,你刷快手极速版的奶奶恨不得也来问一句,“这玩意儿怎么念?”


所以基于“越多网页指向A网页,A网页越重要”和“越多高质量的网页指向A网页,A网页越重要”两点,算法给一个网页打分(PR值),PR值越高的网页,越能排序靠前。是被NYT引用,还是被机器人批量生产的网页引用,权重是不同的。


图片来源 Giphy


当然排序程序是一个“复杂算法”,超链分析只是其中一个“因子”。数字营销公司backlinko总结了13个最为影响谷歌搜索排名的因素:


· 内容质量

· 内容独特性

· 完全可抓取的页面

· 在任何设备上运行良好

· 超链数量

· 域名权重,域名权重越高,网站上所有网页的排名就越高

· 锚文本

· 网页加载速度

· 关键词匹配程度

· RankBrain(一种语义理解算法,理解关键词背后所指的概念,而不是局限在字眼本身,这关系到当搜索引擎被提问了一个从未有过的问题,它要如何理解你想问什么。)

· 匹配搜索意图(如果你从第一个搜索结果中点进去,并且很快返回,意味着这条结果没让你满意。)

· 内容新鲜度

· 专业、权威和可信度


这些只是众多影响因子中的部分,将其挨个拆解后还需细究,比如怎么辨别内容质量?可以参考以下几个标准,篇幅越长理应更加全面;客观事实陈列,比“主观抒情”有用;结构化内容更易(人和机器)读。


综合以上,“排名算法”决定了当你搜“苹果价格”,是推荐“红彤彤带把的水果”,还是“苹果公司”;也决定了今天更靠前的结果是iPhone14,而非初代iPhone价格。


  搜索引擎“变坏了”  


2006年,研究者针对12570个“查询”在Ask Jeeves,Google,MSN Search,和Yahoo上第一页搜索结果,发现84.9%的结果是每个搜索引擎独有的,1.1%是所有搜索引擎共有的。只有7%的顶部搜索结果是相似的。


而2011年,研究者搜集40000个查询在Google,Bing上的返回结果。域名的重合度为29%,Google的独有域名更多。不看排名,结果集之间的相似度增加了。“这表明Google和Bing有不同的排名偏好,但索引的源大多相同。”


相似的,一份2016年的研究显示,在Google和Bing上67个“信息查询”(informational query)的排名前10的返回结果有高重合度,排名前5的结果相似度略微更高一些。


这些研究进展并不能完全回答“为什么在百度和搜狗上搜到的第一个结果不同。”但似乎表明了,不同搜索引擎上的搜索结果重叠随着时间增加,排序算法是结果呈现差异的主导原因。


原因在于爬虫和索引是纯粹的技术部分,发展至今,各家技术都已成熟,相差无几。而在排序和展示的阶段,则是资本和商业的考量。这导致你觉察到“怎么排在前面的,不是广告(竞价排名),就是搜索引擎自家的内容?”


竞价排名最早能追溯到一家叫GoTo的公司(后改名叫Overture),它靠拍卖关键词,点击收费赚得盆满钵满。当然后来也得到其他搜索引擎的效仿。


搜索引擎广告丨图片来源 Digital Main Street


“搜不到”这件事也不仅仅因为搜索引擎想赚钱。在互联网发展过程中,诞生了一个“职业”叫搜索引擎优化(SEO)。


既然搜索引擎设计了一套排名算法,理应可以利用“规则”提高网站在搜索引擎内的自然排名。但更多时候是反面教材。低权重,低质量的网页投机取巧试图“骗过”搜索引擎系统排在前面。


既然搜索引擎都把入链当做排名的主要因素之一,想要从其他网站获得“自然链接”并不是那么容易。有人干脆另建多个网站,然后指向想要提升排名的网站即可——大量“垃圾链接”应运而生。


再比如“人为制造”关键词,让搜索引擎去抓取,但用户点进去却发现没有想要的信息。在网页的HTML文件中,写入只能被搜索引擎“看到”,但无法被用户看到的关键词,以此增加关键词密度,网页和搜索请求之间的“相关性”。


提升排名这事儿有多重要?据Backlinko的一篇报告,Google自然搜索(无广告介入)中排名第一的搜索结果点击率有27.6%,前三名占了总点击数的54.4%,只有0.63%的人会点到第二页。


渐渐地,你发现很多网站不提供有效信息却排名靠前,以“废话文学”为例的低质量内容泛滥其中。


如果说竞价(或人工干预)排名,是搜索引擎“选择”的结果,那么搜索范围的收窄让搜索引擎的存在变了味。


  每个人都有了自己的“搜索引擎”  


2008年淘宝禁止百度爬虫。国内外类似例子并不少见。其中关乎谁是那个“流量入口”,以及商业利益的权衡。对于用户来说,就是搜索引擎不好用了。这在移动互联网时代就更明显了。


在数据垄断的分割下,用户被希望直接在各自App之内完成行为闭环。新增的互联网内容被“锁死”在各自的App里。


你想知道哪位KOL刚说了什么?去微博和Twitter。如果是想被剧透《黑暗荣耀》的结局,去豆瓣找,搜索引擎上只能搜到XX号的“鸡汤话”。当你萌生“吃川菜”的想法,大概率是希望找一家平价高,还划算,距离又近的饭店,最好还能知道怎么去那儿,而不是“川菜中的八大菜系,你都知道哪些?”。


图片来源 Giphy


你知道通常在哪里能得到更有“针对性”的答案。这时候,我们往往“并不是想要一个事实,或客观存在的结果”。Bessemer Venture Partners(一家老牌的股权投资机构)合伙人 Talia Goldberg 将这种搜索行为解释为“主观搜索”(Subjective Search)。


严格意义上,小红书等不是“搜索引擎”,但当我们想解决生活中遇到的大多数问题时,他们已经非常好用了。他们涵盖了新闻资讯、评论和生活经验的动态信息,保证了我们想获得“新知”的时效性。更像“加工”了各类公开信息(传统搜索引擎)后的一份实用建议,详尽的操作指南。


小红书搜索丨图片来源小红书


但如果你对“推荐算法”持有怀疑,“主动搜索”依然是打破信息茧房,和警惕技术的有效方式。


互联网上冗余和繁杂的内容,需要耐心查找,这里有一份搜索技巧指南:


· “搜索词site:网站链接”在特定网站中进行搜索

注意:site后面:要用英文字符

举例:人工智能site:www.guokr.com,指搜索果壳网中与人工智能相关的文章


· “搜索词 -排除内容”在搜索结果中排出不想看到的内容

注意:搜索词后面要跟空格,-是英文减号,后面不跟空格

举例:滑盖手机 -诺基亚,指有关滑盖手机的页面,但排除与诺基亚有关的部分


(类似的,“与”可以用“空格”表示,“或”用“or”表示)


前面两个搜索语法还能混用

举例:滑盖手机 -site:www.taobao.com,指有关滑盖手机的页面,但排除掉淘宝


· “《搜索词》”搜索作品,而不是词语


· “intitle:搜索词”只显示标题中含搜索词的结果

注意:“:”是英文字符

举例:intitle:三体动画版,指标题中含三体动画版的内容


· “搜索词 filetype:格式后缀”搜索特定格式的文件

注意:“:”是英文字符

举例:简历模板 filetype:doc,指Word格式的简历模版”


人们的搜索习惯变了。但是目的没变。那就是缩短,提问和答案之间的时间。2012年,Google 打造“知识图谱”项目。意思是,所有事物都能组成一张关系网,当用户搜A,Google就把跟A“相关”的信息片段式呈现在结果页面上。直接片段式呈现目的是,让搜索引擎直接回答用户问题,而用户无须再点进链接看了。


Larry Page和Sergey Brin已经被Google召回,参与到公司业务中(就是曾经写PageRank算法的),Brin甚至亲自下场为Google聊天机器人写代码。


看来人们需要一个全新的信息获取手段,来取代传统搜索引擎,“就像搜索引擎杀死黄页一样”。


参考文献

[1] https://backlinko.com/hub/seo/ranking-factors

[2] https://arxiv.org/abs/2207.07330

[3] https://cloud.tencent.com/developer/article/1080811

[4] http://www.cjzzc.com/article/721.html


作者:温豪、沈知涵

编辑:沈知涵


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今天,微软重新发明搜索引擎:首款ChatGPT搜索来了谷歌版ChatGpt犯下低级错误,市值蒸发超7000亿;李彦宏内部定OKR,百度搜索将直接接入文心一言;知乎股价暴涨丨雷峰早报亚马逊要求5月重返办公室 3万员工签名反对 ChatGPT“视频升级版”下周公布 将与百度“文心一言”对决实在太太太牛逼了!!!文心一言这画图功能!!!冬日贺岁兰韦神出的这道题火了,GPT一个月需要五千刀重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术Redmi宣布联名哈利波特;马云已回国;百度:文心一言和ChatGPT只差一两月百度将推「文心一言」,打响国内「ChatGPT」第一枪BB鸭 | 首个国产新冠药停产;苹果AR头显售价或超2万;特斯拉推出468元车贴;李彦宏称文心一言和ChatGPT只差一两个月绝美挪威荷兰夏日之旅(二)峡湾小镇Eidfjord-斯坦达尔瀑布百度王海峰:文心一言响应速度一个月提高十倍,后台成本大幅降低,缘于飞桨文心联合优化面对人类的挑拨离间 文心一言和 ChatGPT 竟给出惊人答案压着谷歌打!ChatGPT正式上线微软搜索!搜索引擎迎来大变革!文心一言与百度的新搜索时代干啥啥不行,吃瓜第一名,我们为什么这么喜欢八卦?文心一言,一言难尽8点1氪:​抖音否认3月1日全国上线外卖服务;百度类ChatGPT项目定名“文心一言”;任天堂将全体员工基本工资统一上调10%搜索引擎变天了:微软正式宣布推出首款ChatGPT搜索!百度的“ChatGPT”文心一言还有机会吗?干啥啥不行,马屁第一名?Gpt 4一出,谁与争锋百度搜索小范围公测“对话”功能,基于文心一言大语言模型早鸟报|抖音回应上线全国外卖服务;百度类ChatGPT项目定名“文心一言”;美团一季度拟招1万人...百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此百度搜索将整合文心一言,李彦宏剑指下一个互联网流量入口百度这些年到底在干什么?揭秘即将官宣的中国版ChatGPT文心一言背后的故事!GPT-4老板称害怕ChatGPT/ 李彦宏:文心一言符合预期/ 马斯克欠账不还…今日更多新鲜事在此ARC'TERYX 始祖鸟Atom 连帽衣反馈和ChatGPT比,为什么百度即将发布的文心一言,我觉得是个智障?二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开文心一言和MOSS相比,竟然在这些方面完败!筹备2023春节晚会百度官宣类ChatGPT大模型新项目:文心一言​少林寺宣布接入百度版 ChatGPT “文心一言”;​中消协点名智能电视套娃式收费;《羊了个羊》营收破亿……ChatGPT 上车,集度融合文心一言;传宿华离开创业做芯片,快手:严重不实;传马斯克有意 45 亿英镑收购曼联 | 极客早知道GPT一加宣布超长更新维护;百度文心一言将迎战GPT4;京东:百亿补贴效果超预期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。