Redian新闻
>
李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!

李开复旗下340亿参数开源大模型被指“套壳LLaMA”,最新回应来了!

公众号新闻


整理 | 凌敏、核子可乐
有网友在 Twitter 上评价道:“这就是中国大模型的现状?”
李开复的 Yi-34B 
被指是对 LLaMA 的重构

近日,国外开发者 ehartford 在开源大模型 Yi-34B 的 Hugging Face 主页上评论称,除了对两个张量做重命名之外,Yi 团队完全使用了 LLaMA 架构(input_layernorm, post_attention_layernorm) https://github.com/turboderp/exllamav2/commit/6d24e1ad40d89f64b1bd3ae36e639c74c9f730b2 由于 LLaMA 架构涉及大量投资和工具,因此保留全部张量的原名称显然更好。开源社区肯定会重新发布 Yi 模型并调整张量名称,制作出符合 LLaMA 架构的新版本。我们希望贵团队能在模型被广泛部署之前也能官方采取这项调整,确保成果最终得到妥善使用。


ehartford 补充道,他只是提醒 Yi 团队调整张量名称来匹配相关资源,直接套用 LLaMA 架构没有任何问题,训练才是重点。

网友 brucethemoose 认为,不仅如此,Yi-34B 还是对 LLaMA 代码的重构,而且似乎没有做任何改动。这显然就是在原始 Apache 2.0 llama 文件的基础上稍做调整,却没有提及 LLaMA:https://www.diffchecker.com/bJTqkvmQ/

brucethemoose 提到:

这些调整并没有 PR 到 Transformer 当中,只是作为外部代码被添加了进来,这样可能引发安全风险、或者与框架发生冲突。HuggingFace 排行榜甚至不打算对其 200K 版本做基准测试,因为该模型根本没有自定义代码政策。他们宣称这是套 32K 模型,但实际配置为 4K 模型,没有 RoPE 拉伸配置,也没有解释应该如何拉伸。目前,关于其如何调校数据的信息完全为零。他们并未提供重现基准测试结果的说明,包括高到可疑的 MMLU 得分。

任何对 AI 稍有了解的朋友都会意识到其中的问题。这是纯粹在吹牛?吹完了就跑?违反许可证要求?在基准测试里作弊?都有可能,但却没人在乎。反正他们可以继续发论文,或者是骗走死而一大笔风险投资。至少在这个圈子里,Yi 还算是高于平均水平,毕竟它总归是套基础模型、而且性能似乎的确不错。

有不少网友与 brucethemoose 观点相同,认为 Yi-34B 纯粹就是 LLaMA 的复制粘贴,再对部分张量重新命名,“太丢人了”。网友 JosephusCheung 表示,如果 Yi 团队用的就是 Meta LLaMA 原架构、代码库还有相关资源,那就必须得遵守 LLaMA 所规定的许可协议。换句话说,如果直接按照 LLaMA 的形式发布 Yi 模型,那么 Yi 许可中的很多条款也就无法成立。我认为这种行为非常粗鲁,Yi 团队明显对许可证制度缺乏应有的尊重。有些事情开源社区可以做,但商业实体绝对不行。

网友 turboderp 认为,提交当中涉及一些重构,但也有一项用来对 RMSNorm 模块的键进行重命名的变更:如果模型的 config 文件识别到模型为“YiForCausalLM”,则“input_layernorm”为“In1”且“post_attention_layernorm”为“In2”。“据我所知,除此之外 Yi-34B 的架构与 LLaMA 没有任何区别。其实 OpenLLaMA 也是类似的情况。虽然 Yi-34B 的词库有两倍大,但它仍然是个 SentencePiece 模型而且能够正常运行。所以我们很难说 Yi-34B 算不算新成果。其架构在 modeling_yi.py 中布局,而且除了张量名称的调整之外,看起来跟 LLaMA 一模一样。当然,可能还有其他被我忽略掉的差异。”

值得一提的是,前几日,阿里前技术副总裁、大模型行业创业者贾扬清曾在朋友圈中提到,有个“大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。然后,海外有工程师直接指了这一点出来... 还有人在 HF 上面放了个把名字改回去的 checkpoint,说好了,现在你们可以直接用 LLaMA 的代码来 load 这个 checkpoint 了”。


贾扬清虽然没有指明具体的大模型名字,但有观点怀疑其指的很可能就是零一万物旗下的 Yi-34B。

零一万物回应争议:
基于 GPT 研发,将进行代码更新

对于本次争议,零一万物回应称:GPT 是一个业内公认的成熟架构,LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

零一万物团队开源总监 richardllin 回应 ehartford 称:

非常感谢您在讨论中指出了这一点,也感谢您以良好的耐心等待我们做出回复。

您对张量名称的看法是正确的,我们会按照您的建议将其从 Yi 重命名为 LLaMA。我们也一直强调以准确、透明的方式完成工作。您在前面的帖子中提到,“开源社区肯定会重新发布 Yi 模型并调整张量名称,制作出符合 LLaMA 架构的新版本。”这让我们不禁好奇:您是希望提交一条包含这些变更的 PR 吗?或者说,如果您希望由我们处理更新,我们也可以按要求操作并在本 repo 中发布新版本——这样可能更省时间。

这个命名问题是我们的疏忽。在大量训练实验中,我们对代码进行了多次重命名以满足实验要求。但在发布正式版本之前,我们显然没能将它们全部正确调整回来。我们对此深感抱歉,对于由此造成的混乱也感到遗憾。

 我们正在努力加强工作流程,力争未来不出现类似的失误。您的反馈给了我们很大帮助,接下来我们将再次核查所有代码,确保其余部分准确无误。也希望您还有整个社区持续关注我们的工作进展。

 再次感谢您的提醒,期待您的更多支持和宝贵建议。

340 亿参数开源大模型 Yi-34B

据悉,开源大模型 Yi-34B 来自李开复旗下 AI 大模型创业公司“零一万物”,该模型发布于 2023 年 11 月 6 日。今年 7 月,李开复博士正式官宣并上线了其筹组的“AI 2.0”新公司:零一万物。此前李开复曾表示,AI 大语言模型是中国不能错过的历史机遇,零一万物就是在今年 3 月下旬,由他亲自带队孵化的新品牌。

Yi-34B 是一个双语(英语和中文)基础模型,经过 340 亿个参数训练,明显小于 Falcon-180B 和 Meta LlaMa2-70B 等其他开放模型。零一万物团队对其进行了一系列打榜测试,具体成绩包括:

  • Hugging Face 英文测试榜单,以 70.72 分数位列全球第一;

  • 以小博大,作为国产大模型碾压 Llama-2 70B 和 Falcon-180B 等一众大模型(参数量仅为后两者的 1/2、1/5);

  • C-Eval 中文能力排行榜位居第一,超越了全球所有开源模型;

  • MMLU、BBH 等八大综合能力表现全部胜出,Yi-34B 在通用能力、知识推理、阅读理解等多项指标评比中“击败全球玩家”;

  • ......

对于模型尺寸的选择,零一万物团队认为,34B 是一个黄金尺寸。虽然 6B 也能在某些领域,比如客服上可用,但模型毕竟越大越好,但随之而来的就是推理成本和后续训练的系列资源问题。

“34B 不会小到没有涌现或者涌现不够,完全达到了涌现的门槛。同时它又没有太大,还是允许高效率地单卡推理,而且不一定需要 H 和 A 级别的卡,只要内存足够,4090 或 3090 都是可以使用的。”李开复解释道,“既满足了精度的要求,训练推理成本友好,达到涌现的门槛,是属于非常多的商业应用都可以做的。”

另外,李开复提到,通用模型决定了行业模型的天花板。虽然行业大模型有相当大的价值,但是底座如果不好,也无法完成超过底座的事情,所以选底座就要选表现最好的底座。李开复自信地表示,“今天我们在中英文上就是最好的底座,没有之一,也希望更多人选择 Yi-34B。”

参考链接:

https://huggingface.co/01-ai/Yi-34B/discussions/11

https://news.ycombinator.com/item?id=38258015

https://www.infoq.cn/news/cVfuQaHVJ0SDPtP2jb7m

活动推荐
大模型风行一年多,大模型公司们都有哪些故事?软件产品中的 AIGC 能力又如何?本期《中国卓越技术访谈录 2023 年第三季 & 架构师特刊》深入采访了 LeptonAI、智谱 AI、Dify.AI 和京东云言犀团队,分享他们的创业思路和经验。我们还与来自网易、百度、广推科技等企业的技术专家,深入探讨关于 AIGC 编程、算法及应用等话题。

现在识别图中二维码或点击“阅读原文”即可下载电子书,查看更多、更详细的精彩内容!


今日荐文

囤H100的都成了大冤种!英伟达发布最新AI芯片H200:性能提升2倍,成本下降50%


GitHub年度报告曝光:生成式AI项目暴涨2倍,个人贡献者激增148%,从趋势看机遇何在?


年薪超80万美元Meta高管自述:焦虑、迷茫,即使拿到全美Top 1%的收入依然选择离职创业


零一万物李开复:要做 ToC 的超级应用,成为 AI 2.0 时代的微信、抖音


爱立信被曝裁掉整个广州研发团队:赔偿N+3加年终奖;英伟达将为中国定制三款芯片;马斯克旗下首款聊天机器人将开源 | AI一周资讯


“我不懂的、总有人懂”,软件开发行业已经开始扭曲变形


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李开复官宣「全球最强」开源大模型:一次处理40万汉字、中英均霸榜西贡姑娘(上)国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑OpenAI开启“GPT Store”时刻;李开复官宣「全球最强」开源大模型;阿里百度华为三星等最新消息低调发育 8 个月后,李开复和他的大模型团队首次亮相中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维最强开源大模型刚刚易主!李开复率队问鼎全球多项榜单,40万文本处理破纪录正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完阿里巴巴智能信息事业群发布夸克大模型;李开复AI公司回应“抄袭”;贾乃亮双11总销售额超13.6亿……李开复说话算数:零一万物大模型首次发布,AI 2.0 正在路上GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作聊聊美国汽车工会(UAW)罢工李开复4个多月后“放大招”:对标OpenAI、谷歌,发布“全球最强”开源大模型英伟达英特尔推改良版芯片重回中国市场?产业链人士称属实;阿里巴巴CEO吴泳铭:即将开源国内最大的720亿参数大模型丨AIGC日报浪潮信息发布“源 2.0”,千亿参数大模型开源可商用李开复4个多月后“放大招”:对标 OpenAI、谷歌,发布“全球最强”开源大模型OpenAI探索将ChatGPT引入课堂;李开复回应大模型架构争议|AIGC周观察第二十五期全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT无耻!!!阿里前副总裁贾扬清揭发--李开复公司的开源大模型,套壳Meta的LLaMA却故意不说。。。通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码李开复发布零一万物首款340亿参数大模型Yi;摩尔线程设立AISG和MCSG战略部门丨AIGC日报国产720亿参数开源免费模型来了!对标Llama2 70B,一手实测在此笑谈邂逅(44)熊总是一位性情中人直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型步韵遍野君《一身秋》打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训心平气和聊聊李开复的零一大模型套壳LLaMA这件事清华系大模型新秀获20亿投资;AI教父加入初创公司;套壳ChatGPT不是长久之计;百图生科拿下10亿美元大模型订单重构 LLaMA、更改张量名,李开复公司回应来了!网友:这就是中国大模型研发现状?【回国记录】一次特别的遇见· 花妖
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。