从年初到现在,以 ChatGPT、LLaMA 等为代表的大语言模型(LLM)展现出了类似人类水平的语言能力,这些大模型可以高效的执行复杂任务,而这些任务往往需要抽象知识和推理才能完成。然而,学术界仍然对 LLM 拥有智能的内部机制缺乏系统的认知,对于 LLM 是否真正可以被视为「会思考的机器」存在争议。为了深入理解 LLM 智能涌现的内在机制,来自复旦大学、多伦多大学的研究者以脑功能定位(brain localization)为原型进行类比研究。从而发现了 LLM 中与语言能力相对应的核心区域,约占模型总参数的 1%。该核心区域表现出显着的维度依赖性,即使特定维度上的单个参数的扰动也可能导致语言能力的丧失。此外,该研究观察到语言能力的提高并不一定伴随着模型知识水平的提升,这可能意味着存在与语言区域分离的领域知识区域。为了更好的帮助大家了解这项研究,机器之心最新一期线上分享邀请到了该研究的作者之一张奇教授,为大家解读他们近期的工作。嘉宾简介:张奇,复旦大学计算科学技术学院教授、博士生导师。兼任中国中文信息学会理事、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter 组织委员会委员等。在 ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。发表论文 150 余篇,获得美国授权专利 4 项,著有《自然语言处理导论》、《大规模语言模型:从理论到实践》。分享摘要:本次分享围绕从参数角度对大语言模型进行分析的工作介绍该研究近期相关研究。近期的研究表明大语言模型中存在一个明显的语言能力(Linguistic Competence)核心区,该区域占据了模型参数的约 1%。修改这一核心语言区的参数会严重破坏模型的语言能力。此外,研究还发现大语言模型存在严重的维度依赖(Dimension Dependence)问题。针对 LLaMA2-13B 模型,仅修改 130 亿参数中的一个,就会导致模型的语言能力完全丧失。这些发现为揭示大语言模型能力和知识如何构成提供了新思路,并能够在一定程度解释大语言模型的预训练和指令微调中很多与此前小模型训练非常不同的现象。相关链接:https://arxiv.org/pdf/2310.14928
直播间:关注机器之心机动组视频号,立即预约直播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者关注。