Redian新闻
>
科研上新 | 语言-音乐对比预训练;查找表实现的神经网络推理;大模型时代重新定义搜索框架

科研上新 | 语言-音乐对比预训练;查找表实现的神经网络推理;大模型时代重新定义搜索框架

科技


(本文阅读时间:7分钟)


编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。


「 本期内容速览 」
01

CLaMP: 面向音乐信息检索的语言-音乐对比预训练

02

LUT-NN: 通过查找表实现的高效神经网络推理

03

Large Search Model: 在大模型时代重定义搜索框架


顶会聚焦


CLaMP: 面向音乐信息检索的语言-音乐对比预训练



论文链接:

https://arxiv.org/abs/2304.11029


项目链接:

https://ai-muzic.github.io/clamp/


符号音乐信息检索是处理基于符号表示(如谱面或 MIDI 文件)的音乐的自动分析和检索领域。由于深度学习能够从大型数据集中提取复杂和抽象的音乐特征,因此在符号音乐信息检索中变得越来越流行。但大多数带标签的符号音乐数据集都规模较小,获取足够的带标签数据可能既昂贵又耗时。而语义搜索和零样本分类技术可以用来检索和标记大量未标记的数据。这些技术将可以让使用者能够通过给定的开放领域查询(例如,“快节奏的欢快音乐”)搜索音乐,或者根据定制标签自动识别音乐特征,且无需训练数据。


若想实现符号音乐的语义搜索和零样本分类,就需要建立音乐和语言之间的联系。为此,微软亚洲研究院的研究员们提出了 CLaMP:对比语言-音乐预训练,通过使用与对比损失一起训练的文本编码器和音乐编码器,来学习自然语言和符号音乐之间的交叉模态表示。为了预训练 CLaMP,这一研究收集了一个包含140万个音乐-文本对的大型数据集。它采用文本丢失作为数据增强技术,并使用小节分块技术来有效表示音乐数据,将序列长度缩短到小于10%。此外,该研究还提出了一个掩码音乐模型的预训练目标,以增强音乐编码器对音乐上下文和结构的理解。


图1:CLaMP 执行跨模态符号音乐信息检索任务的过程,包括语义搜索和零样本分类,而无需特定任务的训练数据


实验表明,CLaMP 整合文本信息,实现了符号音乐的语义搜索和零样本分类,超越了先前模型的能力。与需要微调的目前最先进的模型相比,零样本的 CLaMP 在以乐谱为导向的数据集上展示出了与之相当或更优越的性能。该论文已被 ISMIR 2023 接收,并荣获最佳学生论文奖。


图2:基于 BLIP 生成标题的图像推荐音乐的结果


LUT-NN: 通过查找表实现的高效神经网络推理



论文链接:

https://dl.acm.org/doi/10.1145/3570361.3613285


项目链接:

https://github.com/lutnn


深度神经网络推理面临着张量计算的高硬件开销,以及张量算子开发的高人力成本。为了解决这一问题,微软亚洲研究院的研究员们创新地提出了 LUT-NN 深度神经网络推理系统。如图所示,LUT-NN 可以将网络推理中的线性计算算子转化为查表操作,从而省去了算子计算和实现的成本。


图3: LUT-NN 模型转换示例


为实现查表,研究员们从深度神经网络每层的计算出发。DNN 模型的每一层通常是将输入特征转换为更高级别的特征。即使是不同的输入数据,DNN 模型中每一层的特征也存在着语义上的相似性。LUT-NN 通过学习每个线性计算算子的典型特征(称为中心点 “centroid”),预先计算这些特征的结果来作为查找表(Look-up Tables, LUT)。在推理时,LUT-NN 可以直接从查找表中读取与输入特征最接近中心点的计算结果,作为该算子的近似输出。为了提高 LUT-NN 的准确性,LUT-NN 还采用了可微中心点学习(differentiable centroid learnings)技术。通过模型训练过程中的反向传播,LUT-NN 可以通过调整中心点,最小化 LUT-NN 模型的精度损失。此外,研究员们还优化了 LUT-NN 的推理执行,通过提升并行性、减少内存访问、充分利用已有的硬件加速指令等方式提升了模型的推理性能。


LUT-NN 在包括图像识别、语音识别和自然语言处理等多种领域的任务上进行了评估。与传统方法相比,LUT-NN 在保持相似的模型准确度的同时,显著减少了各项推理成本。其中:浮点运算 FLOPs 最多减少到1/16,模型大小最多减少到1/7,延迟最多减少到1/6.8,内存最多减少到1/6.5,功耗最多减少到41.7%。LUT-NN 首次使用了查找表来简化DNN推理过程,并且通过可微中心点的方式降低了模型训练成本,同时还保持了模型的准确度。这种方法为移动设备上的 DNN 推理提供了一种新的、效率更高的解决方案。该论文已被 MobiCom 2023 大会接受。


arXiv精选


Large Search Model: 在大模型时代重定义搜索框架



论文链接:

https://arxiv.org/pdf/2310.14587.pdf


搜索引擎是十分重要的信息获取工具。当代搜索引擎包含一系列不同的模块,包括查询(query理解、检索、多级排序和问答等。但这些模块往往是独立优化和部署的,缺少端到端的训练来优化整体的搜索体验。


对此,微软亚洲研究院的研究员们提出了一种称为“大型搜索模型”(Large Search Model)的新搜索概念框架,将不同的搜索模块统一成一个用于搜索的大型语言模型。在这个框架下,研究员们将各种搜索模块都转化为自回归任务,利用大型语言模型强大的理解和推理能力,在简化复杂搜索模块的同时提供更好的搜索结果。


图4:Large Search Model 框架示意图


在传统搜索引擎中,检索模块负责根据用户查询从海量文档中返回数千相关文档,再通过多个不同的排序模块逐步从数千文档中筛选出最相关的数个文档,最后基于最相关的文档进行摘要抽取和问答等动作,从而生成搜索引擎结果页面(SERP)。而在新的 Large Search Model 框架中,则是使用一个大型语言模型作为一个统一的搜索模型,将检索返回的数千文档同时作为语言模型的输入,然后直接输出整个SERP,包括排序列表、摘要、问答结果等等。


为了实现此目标,研究员们认为 Large Search Model 应该具有统一建模多种检索任务的能力、通过提示词进行定制的能力、长文本建模能力和多模态处理能力。此外,语言模型的推理效率、幻觉和一致性也是实际中需要考虑的问题。研究员们在 MS-MARCO 数据集上进行了初步的实验。检索结果排序(表1)和结果生成(表2)的实验,都取得了优于基线的结果。


表1:列表排序的初步实验结果


表2:答案摘要生成结果示例


在未来,研究员们希望能在更大规模的真实场景下进行实验,并为搜索引擎的研究提供一种新的思路。








你也许还想看:



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章大模型时代的人机关系:不要温和地走进与AI共生的时代“初心”或“起源”都是假設出來的 |《五燈會元》賞要(七)AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!芬兰被曝利用监狱囚犯训练AI大模型;大疆紧急辟谣:没有计划「退出美国市场」;调查发现多家车企偷偷减配丨雷峰早报北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型大规模神经网络优化:神经网络损失空间“长”什么样?大模型重新定义软件开发,将带来哪些改变?| 《架构师》10月刊开放下载新加坡国立大学发布图文预训练框架 CosMo,助力长文本理解42 十五块免死金牌科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构AI 风潮起,Copilot 正重新定义“人机时代”哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见43 王宅改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架预训练机器阅读理解模型:对齐生成式预训练与判别式下游场景别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻最新综述!预训练大模型用于医疗健康领域的全面调研深势科技发布多模态科学文献大模型Uni-Finder:重新定义智能化文献阅读港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐吹毛求疵,还是沙里淘金?🤡搜索框从不说谎:AI的大模型时代 ≠ 只有大模型的AI时代昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?北京内推 | 百度文心(ERNIE)团队招聘大模型预训练方向实习生kaiming初始化很好,但我准备用新招!权重选择:用大神经网络的权重初始化小神经网络MetaMath:新数学推理语言模型,训练大模型的逆向思维红色日记 阶级斗争 2.21-28预训练通用神经网络CHGNet,实现基于电荷的原子模拟Research|复旦大学李伟广/罗强:合作揭示代谢风险基因SH2B1跨物种调控智力表现的神经机制
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。