- 蚂蚁提出自适应训练框架AntDT,有效解决工业级分布式训练快慢机的利器
近⽇,蚂蚁集团语言与机器智能部-知识引擎团队的论文《AntDT: A Self-Adaptive Distributed Training Framework for Leader and Straggler Nodes》中稿 ICDE 2024 (Industrial Track)。ICDE (I
- Zilliz携手智源研究院集成业界大热模型,全面提升RAG质量
Zilliz 持续为 AI 应用开发者赋能! 近期,Zilliz 与智源研究院达成合作,将多种 BGE (BAAI General Embedding)开源模型与开源向量数据库 Milvus 集成。得益于 Milvus 2.4 最新推出的 SparseVector 和多向量支持,开发者获得了多种选择
- 博士申请 | 香港科技大学(广州)谢泽柯老师招收机器学习方向全奖博士/RA/博后
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港科技大学(广州)香港科技大学是亚洲乃至全球领先的研究学府之一,并被认为是世界上发展最快的大学之一,在 2023年,位列 QS 世界大学排名第 40 位和泰晤士高等教育世界年轻
- CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样
随着理论和实际应用的不断发展和完善,扩散模型(Diffusion Models)已经成为当今生成式模型的一大支柱,其强大的生成能力给 AIGC 带来了一系列重大突破。然而,扩散模型逐步去噪的特性导致其生成速度极其缓慢,阻碍了它在实践中的应用。 近年来,已有许多研究利用高阶数值方法极大提高了扩散模型的
- ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限
论文题目:CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios论文地址:https://arxiv.org/abs/2403.19287代码地址:https://github.co
- 免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!
Meta 重磅推出了其迄今最强大的开源 AI 模型——Llama 3,模型以开源形式提供包含 8B 和 70B 两种参数规模,目前在多个行业标准测试中 Llama 3 模型的表现都相当出色。这么卓越的性能,不想马上体验一下吗? 听说 GpuMall 智算云平台,可以免费在线体验 Meta LIama
- 博士申请 | 中山大学网络空间安全学院苗嘉旭教授招收计算机视觉方向博士/实习生
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中山大学中山大学是国务院学位委员会批准的首批29个网络空间安全一级学科博士点培养单位。学校2017年成立“网络安全学院”,2021年进一步升级组建“网络空间安全学院”,布局在深圳
- Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力
近年来,基于嵌入式检索(embedding-based search)或密集检索(dense retrieval)相比传统的稀疏检索(sparse retrieval)或基于词袋(bag of words)的方法,已经展示出了更先进的结果。于此同时,Meta 的研究团队(Mingrui Wu 和 S
- CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点
©作者 | 孙上荃单位 | 中科院信工所研究方向 | 知识蒸馏太长不看的一句话总结:传统知识蒸馏默认学生/教师网络的温度是全局一致的,这种设置迫使学生模仿教师的 logit 的具体值,而非其关系,论文方法提出 logit 标准化,解决了这个问题。论文标题:Logit Standardization
- 总结!大模型微调(Fine-Tuning)的常见方法
随着大模型的飞速发展,在短短一年间就有了大幅度的技术迭代更新,从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等,几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能,并
- 奖金丰厚!KDD Cup 2024 检索增强生成CRAG挑战赛正式启动
简介想象一下,你希望使用一个AI助手来获取你最喜欢的运动队的最新消息,但是你得到的是去年的比赛结果。或者当你询问一个你非常喜欢的小众电影时,却得不到有意义的答案。这些都是大语言模型生成“幻觉”的经典例子,即大型语言模型(LLM)提供过时或不正确的信息。 愿意与我们一同努力,帮助LLM(大型语言模型)
- 五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计
©PaperWeekly 原创 · 作者 | 陈思硕单位 | 北京大学研究方向 | 自然语言处理引言多模态大模型的视觉编码器用哪种预训练 ViT?两阶段训练是否有必要?ViT 的参数应该冻结还是打开?大语言模型应该用 Base 还是 Chat 版本?是否要加入纯语言的安全对齐数据?训几个 epoch
- 文末送书 | 大模型开发的及时雨!《LangChain实战》全新教程来袭
LangChain 作为一个开源的大语言模型应用框架,自诞生之日起就备受瞩目。然而,它的发展之路却走过了不少曲折。一开始,LangChain 遭受了不少质疑和非议。有人认为它只适合入门学习,代码质量和设计缺乏工业级的严谨性,难以应用于生产环境。的确,作为一个新兴项目,LangChain 的早期版本还
- CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型
©作者 | 机器之心编辑部来源 | 机器之心仅靠视觉(像素)模型能走多远?UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题,并展示了大型视觉模型(LVM)在多种 CV 任务上的应用潜力。最近一段时间以来,GPT 和 LLaMA 等大型语言模型 (LLM) 已经风靡全球。 另一个关注度同样很高的问
- 60万奖金!2024全球人工智能技术创新大赛-算法挑战赛,等你来战!
点击文末“阅读原文”登陆大赛官网,提前了解更多赛事详情~
- CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力
©PaperWeekly 原创 · 作者 | 黄中展单位 | 中山大学博士生研究方向 | 生成式神经网络多模态大模型具备创造的潜力吗?能力如何?本文从大模型创造力测评与增强等方面进行了探索,从幽默创新响应的角度,揭示了大模型在创新任务上的潜力和不足。目前该成果被计算机视觉顶级会议 CVPR 2024
- 北京内推 | 京东物流地图数据部门招聘AI算法实习生
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!京东京东集团2007年开始自建物流,并于2017年4月25日宣布成立京东物流集团,2021年5月,京东物流于香港联交所主板上市。京东物流是中国领先的技术驱动的供应链解决方案及物流
- 高效涨点!用Transformer模型发Nature子刊(文末送书)
Transformer模型核心优势在于其独特的自注意力机制,这一机制极大地提升了NLP任务的性能。 最近大热的大模型(GPT、Llama等)不仅用Transformer模型统一了对所有nlp自然语言处理工作,也统一了computer vision等多模态领域。 Transformer模型有缺陷,所以
- AAAI 2024 | 杭电等提出MINDS,基于序列超图和对抗学习增强多尺度扩散预测
©PaperWeekly 原创 · 作者 | 焦鹏飞单位 | 杭州电子科技大学研究方向 | 复杂网络、图机器学习论文作者:焦鹏飞、陈虹茜、鲍青、张旺、吴华明作者单位:杭州电子科技大学、天津大学论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/
- 博士申请 | 美国亚利桑那大学杨幻睿老师招收机器学习方向全奖博士/实习生
合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!亚利桑那大学亚利桑那大学 (University of Arizona,简称UA) 建立于1885年,是亚利桑那州的核心公立大学 (R1 University)。该校被誉为“公立