- 8个图神经网络论文创新点汇总【附161篇论文PDF】
图神经网络GNN是现在各大深度学习顶会的研究热点,与CV和NLP领域交叉,容易有创新点,是发论文的好方向。本文系统整理了8个图神经网络好发论文的方向,及48篇相关论文。此外还有GNN基础入门知识合集,包括ICLR2020-2023图神经论文113篇,以及多名博士、顶刊审稿人主讲的15节图神经网络基础
- 生成式AI的下一站:更有趣还是更有用?
作者:李博杰@知乎https://www.zhihu.com/question/637090810/answer/3386191009编辑:包包算法笔记 (本文是 2024 年 1 月 6 日笔者在知乎首届 AI 先行者沙龙上的演讲实录)非常荣幸能够认识大家,非常荣幸能够来知乎 AI 的先行者沙龙来
- 详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med
作者:凯恩博,香港城市大学计算机科学博士编辑:青稞AILLaVA repo:https://github.com/haotian-liu/LLaVA/LLaVA 1.0:Visual Instruction TuningLLaVA 1.5:Improved Baselines with Visual
- (待会删)全网独一份!GPT+AI大模型资源,请低调使用!
“大模型狂热”从未停止国内巨头战队华为、百度、阿里在AIGC的厮杀中从通用大模型渗透到各垂类应用市场就连中国创投资本也独宠AIGC企业百度、科大讯飞市值分别增加27亿和45亿美元这导致AI人才缺口大、价格贵不少企业开出百万年薪挖掘大模型人才!!作为程序员,如何抢占先机,享受AI技术带来的红利?!📢知
- FuseLLM:大语言模型的知识融合!
深度学习自然语言处理 原创作者:wkk论文:KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS地址:https://arxiv.org/pdf/2401.10491.pdfgit: https://github.com/fanqiwan/FuseLLM小伙伴们好久没见
- 写在跨年之前:聊聊LLM Agents的现状,问题与未来
作者:hadiii@知乎链接:https://zhuanlan.zhihu.com/p/679177488跨年之前,想总结一下去年上半年以来关于LLM Agents的学习经历,同时记录一下我在其中过程的一些想法。明年应该会去到一个新的平台学习和干活,所以今年得好好总结一下之前的学习和想法。本文会系统
- 图解大模型推理优化之KV Cache
来自:YeungNLP此前,我们更多专注于大模型训练方面的技术分享和介绍,然而在完成模型训练之后,上线推理也是一项非常重要的工作。后续,我们将陆续撰写更多关于大模型推理优化的技术文章,包括但不限于KV Cache、PageAttention、FlashAttention、MQA、GQA等。在本文中,
- 我做了6节提示学习实战论文课(附20G训练资料)
作为最先进的AI学习方法,提示学习和指示学习(instruction learning)代表了目前NLP方向的新趋势,能够让AI系统对齐人类的意图,大大提高大语言模型的学习能力。由于所涉及的检索和推断方法多种多样,提示学习的实施十分复杂,特别是训练一个属于自己NLP任务的Pre-training L
- 大模型推理核心技术:Continuous Batching详解
作者:方佳瑞,腾讯 · Principal Software Engineer,清华大学计算机科学与技术博士个人主页:https://fangjiarui.github.io整理:青稞AIContinuous Batching现已成为大型模型推理框架的关键技术,也是框架性能优化的主战场。通过将多个在
- ICLR2024得分888居然被拒?Area Chair的Meta review完全事实性错误?
知乎:虚无链接:https://www.zhihu.com/question/639592374/answer/3365302419ICLR24得分888居然被拒?Area Chair的Meta review完全事实性错误?TL;DR: AC把我们方法的超参数N=1理解为了攻击次数为1,于是认为我们
- LangChain:打造自己的LLM应用
一、LangChain是什么LangChain是一个框架,用于开发由LLM驱动的应用程序。可以简单认为是LLM领域的Spring,以及开源版的ChatGPT插件系统。核心的2个功能为:1)可以将 LLM 模型与外部数据源进行连接。2)允许与 LLM 模型与环境进行交互,通过Agent使用工具。二、L
- 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
来自:小红书技术REDtech大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。在 AAAI 2024 上,小红书搜
- 聊聊:什么是多模态?有什么价值以及难题
作者:Peter,北京邮电大学 · 计算机编辑:青稞AI一个月带你手撕LLM理论与实践,并获得面试or学术指导!什么是多模态?如果把LLM比做关在笼子里的AI,那么它和世界交互的方式就是通过“递文字纸条”。文字是人类对世界的表示,存在着信息提炼、损失、冗余、甚至错误(曾经的地心说)。而多模态就像是让
- 图解大模型计算加速系列:Flash Attention V1,从硬件到计算逻辑
来自:大猿搬砖简记一个月带你手撕LLM理论与实践,并获得面试or学术指导!大家好哇,好久没有更新了,今天想来讲讲Flash Attention(V1)。不知道你有没有和我一样的感受,第一次读Flash Attention的论文时,感觉头懵懵的:它不仅涉及了硬件和cuda的知识,还涉及到很多计算逻辑上
- 做大模型AI应用一定要了解的成本计算公式
产品二姐读完需要11分钟速读仅需 4 分钟1 引言先给大家先算个账:假设我要 GPT4 Turbo 帮我总结一篇 5000 字的文章,生成的总结是 500 个汉字,总共需要多少钱?这是一道数学题。已知条件是:一个汉字约等于 2 个 tokenOpenAI GPT 4 Turbo 的价格是:输入$
- 一个月带你手撕LLM理论与实践,并获得面试or学术指导!
大家好,我是zenRRan,是本号的小号主。从该公众号的名字就能看出,运营已经好多年了,这些年当中直接或间接帮助很多同学从NLP入门到进阶,理论到实践,学校到企业,本科到硕士甚至博士。每天习惯性的上午9点准时去刷arxiv最新论文,虽然它常常迟到,但几乎从未缺席。之前还都是自己解读论文,后来由于时间
- 100+目标检测必备论文,建议收藏!
目标检测是CV领域最广的一个算法。本文整理了三大顶会CVPR、ECCV、ICCV中85篇目标检测论文与代码;系统梳理YOLOv1-YOLOv8论文及代码;12大必备YOLO项目;以及20条常用小样本目标检测方法汇总。合集下载地址在下文二维码。85篇顶会论文与代码目标检测顶会热门研究可分为3D目标检测
- HaluEval 2.0:大语言模型事实性幻象的实验性分析
© 作者|李军毅 陈杰机构|中国人民大学研究方向|自然语言处理来自 | RUC AI Box尽管大语言模型能力不断提升,但一个持续存在的挑战是它们具有产生幻象的倾向。本文构建了幻象评测基准HaluEval 2.0,并基于该评测框架从预训练/有监督微调/提示设计/推理四个方面探索幻象来源。另外,还通过
- 小模型怎么扩大参数?SOLAR: “自我嫁接”就行!
作者:张俊林,新浪微博新技术研发负责人编辑:青稞AISOLAR 这种“模型嫁接”很有意思! 最近的Huggingface LLM榜单都快被SOLAR这种“嫁接模型”刷烂了,Top 10模型都是10.7B,很明显是SOLAR的魔改版。SOLAR是模型嫁接的代表,主要利用Mistral 7B来进行自我嫁
- 田渊栋:2023年终总结|狂飙的大模型
作者:田渊栋,Meta FAIR研究院研究员/高级经理,CMU机器人系博士整理:青稞AI2023年研究的主要重心转移到了大语言模型(LLM)上面,包括理解LLM的运行机制,及用这些理解去改进LLM的推理效率和质量,也继续做了一些LLM的应用(如小说生成)。另外“应用AI来加速优化”这个研究方向,我们