Redian新闻
>
修改LLaMA2-13B一个参数,语言能力全丧失,复旦等发现大模型新秘密

修改LLaMA2-13B一个参数,语言能力全丧失,复旦等发现大模型新秘密

公众号新闻

从年初到现在,以 ChatGPT、LLaMA 等为代表的大语言模型(LLM)展现出了类似人类水平的语言能力,这些大模型可以高效的执行复杂任务,而这些任务往往需要抽象知识和推理才能完成。

然而,学术界仍然对 LLM 拥有智能的内部机制缺乏系统的认知,对于 LLM 是否真正可以被视为「会思考的机器」存在争议。

为了深入理解 LLM 智能涌现的内在机制,来自复旦大学、多伦多大学的研究者以脑功能定位(brain localization)为原型进行类比研究。从而发现了 LLM 中与语言能力相对应的核心区域,约占模型总参数的 1%。该核心区域表现出显着的维度依赖性,即使特定维度上的单个参数的扰动也可能导致语言能力的丧失。

此外,该研究观察到语言能力的提高并不一定伴随着模型知识水平的提升,这可能意味着存在与语言区域分离的领域知识区域。

为了更好的帮助大家了解这项研究,机器之心最新一期线上分享邀请到了该研究的作者之一张奇教授,为大家解读他们近期的工作。


分享主题:大语言模型中语言与知识

嘉宾简介:张奇,复旦大学计算科学技术学院教授、博士生导师。兼任中国中文信息学会理事、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter 组织委员会委员等。在 ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。发表论文 150 余篇,获得美国授权专利 4 项,著有《自然语言处理导论》、《大规模语言模型:从理论到实践》。

分享摘要:本次分享围绕从参数角度对大语言模型进行分析的工作介绍该研究近期相关研究。近期的研究表明大语言模型中存在一个明显的语言能力(Linguistic Competence)核心区,该区域占据了模型参数的约 1%。修改这一核心语言区的参数会严重破坏模型的语言能力。此外,研究还发现大语言模型存在严重的维度依赖(Dimension Dependence)问题。针对 LLaMA2-13B 模型,仅修改 130 亿参数中的一个,就会导致模型的语言能力完全丧失。这些发现为揭示大语言模型能力和知识如何构成提供了新思路,并能够在一定程度解释大语言模型的预训练和指令微调中很多与此前小模型训练非常不同的现象。

相关链接:https://arxiv.org/pdf/2310.14928


直播间:关注机器之心机动组视频号,立即预约直播。


交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。



机器之心 · 机动组


机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者关注

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练推理飙升2倍!普林斯顿北大校友祭出多头「美杜莎」,33B模型与13B一样快首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT教师节和苍老师们看过来国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B第五章第三节 共产国际和中国共产党高达2万亿参数,远超GPT-4!亚马逊全新Olympus大模型曝光,即将对外公布正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完开源大模型FLM-101B:训练成本最低的超100B参数大模型参数量13B模型全方位碾压GPT-4?这背后有什么猫腻中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维NeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中评论能力强于GPT-4,上交开源13B评估大模型Auto-JAI Agent 如何实现?6张4090 魔改Llama2:一句指令拆分任务、调用函数昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源20B跨级挑战70B性能!国产开源大模型打造大模型新标杆西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述第五章第一节 从甲午战争到五四运动清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单6004 血壮山河之随枣会战 “和平运动 ”4OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型第五章第二节 列宁主义是什么最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报手机大模型爆发:vivo 发布自研蓝心大模型,参数追赶 GPT-3小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。