Redian新闻
>
Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型

Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型

科技

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。

传送门:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

TOP1

Distilling Vision-Language Models on Millions of Videos

标题:

谷歌研究新突破:Distilling VLM模型自动生成百万视频字幕,视频语言模型性能提升6%!

标签:Google、CV

作者:

Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan

推荐理由:

这篇论文来自谷歌,一个在AI领域具有极高影响力的公司,且论文的主题是关于大规模视频数据上的视觉-语言模型蒸馏,这涉及到当前非常热门的多模态学习领域。此外,论文提供了项目页面,表明可能有具体的实现和更多的细节可以探讨,这对于吸引读者和实际应用都是有益的。

论文简介:

最近在视觉-语言模型方面的进展很大程度上归功于大量的图像-文本数据。我们的目标是复制这种成功到视频-语言模型上,但问题是没有足够的人工整理的视频-文本数据可用。因此,我们采取了使用合成的指导性数据对一个强大的图像-语言基线模型进行微调的方法。由此产生的视频-语言模型随后被用来自动标记数百万视频以生成高质量的字幕。我们展示了这种调整后的视频-语言模型在广泛的视频-语言基准测试上表现良好。例如,它在开放式NExT-QA上超越了之前最好的结果2.8%。此外,我们的模型为以前未见过的视频生成详细描述,这提供了比现有方法更好的文本监督。实验表明,一个在这些自动生成的字幕上对比训练的视频-语言双编码器模型比同样利用视觉-语言模型的最强基线模型好3.8%。我们最好的模型在MSR-VTT零样本文本到视频检索上超过了最先进方法6%。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=08e8a2e2-172c-4009-966b-b0360ab909f0

TOP2

Transformers are Multi-State RNNs

标题:揭秘Transformer的无限可能,Meta研究发现Transformer其实是多状态RNN

标签:Meta、NLP

作者:Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz

推荐理由:

由Meta(Facebook的母公司)发表的论文,研究了Transformer模型与多状态RNN的关系,这是对当前流行的Transformer模型架构的一个新视角,具有很高的创新性和讨论价值。此外,Meta作为一个知名的大公司,其发表的研究自然会吸引更多的关注。

论文简介:

Transformers与之前一代的最先进的自然语言处理(NLP)模型——循环神经网络(RNNs)在概念上被认为是不同的。在这项工作中,我们展示了仅解码器的Transformers实际上可以被概念化为无限多状态RNNs——一种具有无限制隐藏状态大小的RNN变体。我们进一步展示了,通过固定其隐藏状态的大小,预训练的Transformers可以被转换为有限多状态RNNs。我们观察到,一些现有的Transformers缓存压缩技术可以被视为这种转换策略,并且我们引入了一种新的策略,TOVA,与这些策略相比它更为简单。我们在几个长范围任务的实验表明,TOVA在性能上超过了所有其他基线策略,同时几乎与完整的(无限)模型相当,并且在某些情况下仅使用了原始缓存大小。我们的结果表明,Transformer解码器LLMs在实践中常常表现得像RNNs。它们还提出了缓解它们最痛苦的计算瓶颈之一——缓存内存大小的可能性。我们在以下链接公开发布了我们的代码。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=210b194f-c5c4-4a1c-8d81-8ddae744aa4a

TOP3

LEGO:Language Enhanced Multi-modal Grounding Model

标题:

细节识别再突破!复旦大学提出LEGO模型,多模态理解能力大幅提升

标签:Fudan、NLP、CV

作者:Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang

推荐理由:

这篇论文来自复旦大学,研究了多模态学习领域的一个新模型LEGO,这是一个当前AI领域的热点话题。复旦大学是中国的顶尖大学之一,其研究成果往往具有较高的质量和影响力。

论文简介:这篇论文来自复旦大学,研究了多模态学习领域的一个新模型LEGO,这是一个当前AI领域的热点话题。复旦大学是中国的顶尖大学之一,其研究成果往往具有较高的质量和影响力。

论文简介:多模态大型语言模型在不同模态的各种任务中展现了令人印象深刻的性能。然而,现有的多模态模型主要强调捕捉每种模态内的全局信息,而忽视了感知跨模态局部信息的重要性。因此,这些模型缺乏有效理解输入数据细粒度细节的能力,限制了它们在需要更细腻理解的任务中的性能。为了解决这一限制,迫切需要开发能够实现跨多个模态的细粒度理解的模型,从而增强它们在广泛任务中的适用性。在本文中,我们提出了LEGO,一种语言增强的多模态基础模型。与其他多模态模型捕捉全局信息不同,我们提出的模型擅长于要求详细理解输入内局部信息的任务。它展示了在图像中精确识别和定位特定区域或在视频中定位特定时刻的能力。为了实现这一目标,我们设计了一个多样化的数据集构建管道,产生了一个用于模型训练的多模态、多粒度数据集。

论文解读链接:https://www.saibomaliang.com/generate?session_id=8906dbe8-8a7a-40b7-b589-d47bb88a1b5a

TOP4

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion

标题:

清华|用大语言模型预测历史链条,时间知识图谱完成任务SOTA成绩刷新!

标签:

Tsinghua、NLP、ML、KG

作者:Ruilin Luo, Tianle Gu, Haoling Li, Junzhe Li, Zicheng Lin, Jiayi Li, Yujiu Yang

推荐理由:

由清华大学发表的论文,研究了基于大型语言模型(LLMs)的时间知识图谱补全,这是结合了知识图谱和大型语言模型两个热点领域的研究。清华大学是全球知名的研究机构,其论文通常具有较高的学术价值和关注度。

论文简介:

时态知识图谱补全(Temporal Knowledge Graph Completion,TKGC)是一个具有挑战性的任务,它通过利用已建立的时态结构知识来预测未来时间戳下缺失的事件链接。鉴于大型语言模型(LLMs)固有的强大生成能力,本文提出了一种将时态链接预测概念化为在历史事件链背景下的事件生成任务的新方法。我们采用高效的微调方法使LLMs适应特定的图文本信息和在时态时间线中发现的模式。此外,我们引入了基于结构的历史数据增强和逆向知识的整合,以强调LLMs对结构信息的认识,从而增强它们的推理能力。我们在多个广泛使用的数据集上进行了彻底的实验,并发现我们微调后的模型在多个指标上优于现有的基于嵌入的模型,实现了SOTA(最先进)的结果。我们还进行了足够的消融实验,以探索LLMs执行结构化时态知识推理任务时的关键影响因素。

论文解读链接:

https://www.saibomaliang.com/generate?session_id=0a9cc045-f0f2-4361-b2c1-7d3b301a192b

TOP5

DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

标题:DeepSeekMoE架构打破专家知识重叠,性能省下60%计算量!

标签:Tsinghua、NLP

作者:Damai Dai, Chengqi Deng, Chenggang Zhao, R.X. Xu, Huazuo Gao, Deli Chen, Jiashi Li, Wangding Zeng, Xingkai Yu, Y. Wu, Zhenda Xie, Y.K. Li, Panpan Huang, Fuli Luo, Chong Ruan, Zhifang Sui, Wenfeng Liang

推荐理由:这篇论文同样来自清华大学,研究了在混合专家语言模型中实现极致专家特化的方法,这是对当前大型语言模型研究的一个重要补充,具有创新性和实用性。清华大学的品牌效应也会增加这篇论文的吸引力。

论文简介:在大型语言模型的时代,混合专家(Mixture-of-Experts,MoE)架构是在扩展模型参数时管理计算成本的有前景的架构。然而,像GShard这样的传统MoE架构,它激活顶部个中的个专家,面临着确保专家专业化的挑战,即每个专家获得非重叠且集中的知识。为此,我们提出了DeepSeekMoE架构,以实现最终的专家专业化。它涉及两个主要策略:(1)将专家细分为个,并从中激活个,允许更灵活地组合激活的专家;(2)将个专家作为共享专家进行隔离,旨在捕获共同知识并减少路由专家中的冗余。从具有20亿参数的适度规模开始,我们证明了DeepSeekMoE 20亿的性能与GShard 29亿相当,而后者的专家参数和计算量是前者的1.5倍。此外,DeepSeekMoE 20亿几乎接近其具有相同总参数数量的密集对应模型的性能,这为MoE模型设定了上限。随后,我们将DeepSeekMoE扩展到160亿参数,并展示它与LLaMA2 70亿的性能相当,仅使用大约40%的计算量。此外,我们将DeepSeekMoE扩展到1450亿参数的初步努力一致地验证了其相对于GShard架构的显著优势,并展示了其与DeepSeek 670亿的性能相当,仅使用28.5%(甚至可能是18.2%)的计算量。

论文解读链接:https://www.saibomaliang.com/generate?session_id=1ad56d1d-f673-454a-99b3-19db7f77dac2

本文内容由 赛博马良 「AI论文解读达人」 智能体生成,人工整理排版。

传送门:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Yann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理简化版Transformer来了,网友:年度论文今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??今日arXiv最热NLP大模型论文:北京大学警惕ChatGPT等大模型遏制人类的创新能力今日Arxiv最热NLP大模型论文:LLM化身符号逻辑大师,智能体文本游戏新纪元Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。《歌德堡变奏曲1458》今日Arxiv最热NLP大模型论文:AllenAI最新研究:让AI从简单学起,竟然能解决难题?简化版Transformer来了!网友:年度论文Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性idea今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象Meta对Transformer架构下手了:新注意力机制更懂推理今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent我在Performer中发现了Transformer-VQ的踪迹今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集你没有看过的全新版本,Transformer数学原理揭秘今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!中美旧金山高峰会预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见Robot Transformers 是什么 Transformer?Diary of an Affectionate Cat (2)今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!王府活动预热:我最喜欢的地方「GPT-4只是在压缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构《神圣之灵的住处》原文及心得智能的本质就是压缩?马毅团队5年心血提出「白盒」Transformer, 打开LLM黑盒!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。