Redian新闻
>
腾讯大模型技术斩获两项世界冠军,已落地微信搜索

腾讯大模型技术斩获两项世界冠军,已落地微信搜索

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

腾讯人狠话不多,大模型技术刚拿下两项世界冠军!

最近,信息检索领域国际顶级学术会议WSDM(Web Search and Data Mining)宣布了WSDM CUP 2023竞赛成绩。


来自腾讯研究团队在无偏排序学习和互联网搜索预训练模型赛道上的两项任务中获得冠军。

ACM WSDM(Web Search and Data Mining) 会议是信息检索领域顶级会议之一,由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会协调筹办,在互联网搜索、数据挖掘领域享有较高学术声誉。

WSDM Cup正是由WSDM会议举办。本届 WSDM Cup 共计400余支队伍参加,分别来自中国、美国、新加坡、日本、印度等国家的知名高校和公司。

大赛共设置三个赛道:

  • 无偏排序学习和互联网搜索预训练模型赛道(Unbiased Learning to Rank and Pre-training for Web Search);

  • 跨语言连续体的多语言信息检索赛道(Multilingual Information Retrieval Across a Continuum of Languages);

  • 视觉问答挑战赛道(Visual Question Answering Challenge)。

此次,腾讯机器学习搜索团队在第一个赛道的两项子任务中(Pre-training for Web Search和Unbiased Learning to Rank)获得冠军。

目前两项成果代码和论文均已发布到GitHub上。

两项任务冠军

深度学习领域,数据标注的质量对于模型的效果有着较为显著的影响。

但是较高的标注数据成本一直是研究团队的阻碍之一,如何从技术上利用无标注的数据训练模型自然成为了成为学术界和工业界关注的热点。

本次比赛,针对基于搜索的预训练任务(Pre-training for Web Search),腾讯团队通过大模型训练、用户行为特征去噪等方法,在点击日志上进行基于搜索排序的模型预训练,进而使模型有效地应用到下游相关性排序的检索任务。


通过预训练、模型微调、集成学习等多方面的优化,在人工标注的相关性排序任务上取得了较大的领先优势。

而在另一个赛道——无偏排序学习任务(Unbiased Learning to Rank)中,团队通过深入挖掘点击日志信息,充分利用包括文档媒体类型、文档展示高度和点击后的滑屏次数等特征对文档相关性进行无偏估计,提出了一种能够集成多种偏置因素的多特征集成模型,有效地提升了搜索引擎中文档排序的效果。

据了解,夺冠团队的成果均基于腾讯混元AI大模型(下文简称“HunYuan”)和太极机器学习平台实现。

目前,通过联合微信搜索团队,两项技术已经在微信搜一搜的多个场景落地相关技术,并取得了显著的效果提升。

2022年4月,腾讯首次对外披露HunYuan大模型研发进展——

HunYuan集CV、NLP、多模态理解能力于一体,先后在MSR-VTT、MSVD等五大权威数据集榜单中登顶,实现跨模态领域的大满贯。

2022年5月,更是在国际公认的CLUE三个榜单同时登顶,一举打破三项纪录。

现在,HunYuan又迎来全新进展,推出国内首个低成本、可落地的NLP万亿大模型,并再次登顶CLUE。

腾讯太极机器学习平台是集模型训练和在线推理于一身的高性能机器学习平台,具备万亿参数模型的训练和推理能力,为AI大模型预训练推理和应用落地提供了完整的端到端工程能力支撑,一站式解决算法工程师在 AI 应用过程中特征处理、模型训练、模型服务等工程问题。

腾讯长期致力于前沿搜索技术的研究,通过改进搜索算法,提升用户搜索体验,相关技术团队在检索预训练、大模型训练、搜索排序任务目标函数设计等方面的具有丰富的实践经验,研究成果多次在国际竞赛和学术会议中取得领先成绩,并广泛应用于微信搜索、腾讯广告、游戏等多个业务场景。

GitHub链接:
https://github.com/lixsh6/tencent_wsdm_cup2023

论文链接:
https://arxiv.org/pdf/2302.13756.pdf

https://arxiv.org/pdf/2302.13498.pdf

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
利用AI发现3种Senolytics化合物,James Collins团队新成果登Nature子刊,已落地公司推进抗衰老研究这所学校招体育老师,要求"获得过奥运冠军、世界冠军"BV百度风投:深耕人工智能,加速布局大模型技术肚腩甩不掉?饭前吃它,排油减脂瘦了15斤!世界冠军也吃它...拼16年拿下五个世界冠军,她拼尽全力攒钱拍出这部电影,终于上了奥斯卡!腾讯XR业务解散部分团队,员工将获两个月缓冲期|36氪独家智源发布FlagOpen大模型技术开源体系,要做大模型时代的“新Linux”中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布0.37%概率奇迹!他击败韩国选手,拿下这个项目中国首个世界冠军!很多人都看哭了…ChatGPT及大模型技术大会首批嘉宾公布,我们将讨论这些话题机器之心ChatGPT及大模型技术大会全日程公布,本周二速来围观美国医生职业倦怠在大流行期间持续增加他把一颗螺丝钉年卖11亿,最终成了世界冠军|寻访隐形冠军华人之光!多伦多华裔女孩斩获世界冠军:全胜夺冠!历史首人!母亲离世,韧带断裂,练体操18年,我拿过世界冠军,也一次次在低谷徘徊垂类大模型技术落地,ZMO.AI推动营销内容生产力变革“生成式大语言模型技术分享”系列直播即将启幕华裔著名体操教练“下岗”!培养出世界冠军,却虐待队员?!曾效力中国国家队度小满CEO朱光:发展大模型技术 提升金融科技全球竞争力迫切需要的调查与迫切需要的学科恭喜,这个“00后”,世界冠军恭喜哥大硕士学员斩获两大【顶级投行】实习OFFER!【期待】前途无量 16岁中国女孩夏锦舒斩获网球世界冠军厉害了!多伦多17岁华裔女孩夺北美拼字冠军,第一个女冠军微信公开课回顾:微信搜索卷死算了,体育老师招聘要求奥运冠军世界冠军销声匿迹了的阿尔巴尼亚电影腾讯大股东把9600万股腾讯股票移入香港中央结算系统1956年到1957年的国内政治局面的变化谷歌发大模型PaLM 2对抗GPT-4,生成式AI融入谷歌搜索,急切反击背后,搜索摇钱树要倒?这所学校招体育老师要求“奥运冠军、世界冠军”,网友:太卷了!生命所在,灌水有感之二GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)嫁给大26岁「香港财神」,世界冠军伏明霞婚后过得怎么样了?招聘 | 内推-微信搜索-实习生-北京
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。