Redian新闻
>
微软来大招:手机部署堪比GPT3.5高性能大模型!

微软来大招:手机部署堪比GPT3.5高性能大模型!

科技

夕小瑶科技说 原创
作者 | 任同学

上周 LLaMa3 算是把关注度拉爆了,这才过了几天,微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-3.5 的性能了。

▲图1. Twitter:@haouarin

一些直观的数据供参考:

  1. Phi-3-mini3.3T token 上进行训练,整体性能与 Mixtral 8x7BGPT-3.5 相当,超越 Llama-3-instruct8b,而Llama-315T token上训练,这意味着 Phi-3 数据利用率提高了约4倍;
  2. 将 Phi-3-mini 模型拓展到 7B (Phi-3-small)14B (Phi-3-medium) 大小,在 4.8T token 上进行训练,两者都比 phi-3-mini 能力更强,例如,MMLU 基准上分别为 75% 和 78%,MT 基准上为 8.7 和 8.9。

面对这样的结果,网友们纷纷表示不敢置信:

Meta 发布 Llama3 不到一周,难以置信微软这么快就发布了 Phi-3,而且看起来很棒!

与此同时,Phi-3-mini 的默认上下文是 4k,但是也引入了一个长上下文版本,拓展到了 128k,称之为 phi-3-mini-128k。

而上周非常吸睛的 Llama3系列的上下文长度仅为8k,尽管有活跃的社区可以为其实现各种变种,但是难免让人觉得其8k的上下文不够亮眼...不对,Meta或许就是知道大家魔改的热情空前,所以特意留了一点工作量出来:)

这里附上Phi-3系列在20多个基准上的评测结果:

不过,网友们似乎还是不太认可这样的结果:

甚至直言对结果保持怀疑:

Phi-2在 HumanEval 中得到59分?? Llama-3-8b-instruct 也远不止38!

让我恼火的是,当人们发布基准测试结果时,他们经常忽略任何比他们自己的模型表现更好的模型。他们骗不了任何人! 这让人非常反感。我想看看它与更好的模型相比如何,而不仅仅是较弱的模型。

难怪网友们对基准测试的结果越来越不感冒了,毕竟不管各家怎么吹嘘自己的模型,GPT 3.5还是当之无愧的性价比之选,GPT-4更是遥遥领先的标杆。

因此在更全面、足够有说服力的基准测试出来之前,网友们也只能多亲身测试模型的性能惹。

而现在!在huggingface上也可以体验到 Phi-3-mini-4k-instruct 模型啦,赶紧去试试吧,友情提示,使用英文,并且不开启网络搜索的情况下模型还是很不错的!

https://huggingface.co/chat/

当然,网友们对Phi-3系列所用的数据也很感兴趣:

尽管训练数据很少,但Microsoft声称该模型的性能比其前身Phi-2(去年12月发布)要好得多,并且相比参数量更多、训练token数是其5倍的Llama3模型,Phi-3的基准测试的性能具有相当竞争力的,这也能侧面说明数据集的质量确实很高。

不过,对于网友们来说,确实已经见惯了厂商们使用GPT4来处理数据的操作,对于没有公开数据处理流程的厂商来说,这大概率倒是不冤枉hhh:

很高兴看到微软仍然在抄袭OpenAl:他们甚至没有写一个完整的句子来解释他们的数据来源,但是他们引用了他们之前关于GPT-4代码审查的论文。

小型、轻量化的模型是未来吗?

Phi系列模型作为大模型小型化的经典工作,这次更是特别强调其“可以在手机部署”的特性,研究人员称,Phi-3-mini 在 4 bit量化下仅占用约 1.8GB 内存

研究人员已经在 iPhone 14 上测试部署了 phi-3-mini 量化模型,并使用 A16 Bionic 芯片在设备上本地运行并完全离线,实现每秒超过 12 token的效率!

研究人员甚至还询问了Phi-3为什么(他们)可以在手机上构建性能堪比 ChatGPT 的大语言模型,啊喂你这也太自卖自夸了吧😲

不过既然是小模型,本身能够存储的知识上限肯定还是要低于更大参数模型的理论值的,笔者也尝试问了几个问题,发现在使用中文prompt ➕ web 搜索的时候,模型是最差的,给了笔者一点小小震撼!

但是本着不当小黑子的原则,笔者又尝试了几种提问方法,发现使用英文 prompt➕web搜索的时候,模型的表现要比刚才稍好一些:

可惜一段较长的文本输出之后,又出现了模型重复的问题:

最后!笔者发现,正确的使用方法应该是使用英文prompt➕关闭web搜索!!

在这种情况下,模型的输出质量确实都非常高,也比较稳定,这可能也是目前小模型的局限性,要获取高质量的多语言数据并让模型尽可能地存储知识是有比较大挑战的。

当然缓解办法也有,比如通过联网来获得增强,但是这也要求模型具有更好的信息处理能力,从目前的初步体验看,Phi-3在这方面的效果可能不如直接激活模型内的知识来的好~要是开源社区也能像对待llama3一样投入亿些热情,Phi-3的中文能力还是很值得期待的hhh。

尽管微软已经在Phi系列上推出了三个版本了,但是微软表示这不意味着他们放弃了做大尺寸的LLM。像Phi-3这样的模型并不是为了取代大型模型,而是为了实现GPT-4或Gemini等模型无法实现的目标,比如在设备上本地运行:

如果你有一个非常非常高风险的应用程序,比如在医疗保健场景中,那么我绝对认为你应该使用前沿模型——最好的、最有能力的、最可靠的。对于其他用途,其他因素更为重要,包括速度和成本。这就是你需要Phi-3的地方。

参考资料

 [1]https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
 [2]https://arxiv.org/abs/2404.14219
 [3]https://tech.co/news/how-to-get-microsoft-phi-3-mini-ai

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5OpenAI CEO 谈 GPT-5/小米:手机今年要突破 6000 到 1 万元价格段/蔚来新手机进入制造阶段参战万亿MoE模型!上海大模型独角兽出手,腾讯阿里米哈游参投微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了微软秒删堪比 GPT-4 的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试心结 (小说)微软秒删堪比GPT-4的开源大模型!研发总部还被爆在北京?官方:我们只是忘了测试今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力iPhone就能跑!微软推出轻量级模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未来在手机端?发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试国家高性能医疗器械创新中心:高性能医疗器械2023年度发展报告华为重夺中国大陆智能手机市场第一/Altman 称 GPT-5 性能远超 GPT-4/OPPO 回应暂停 XR 探索一事超越Llama-2!微软新作Phi-3:手机上能跑的语言模型神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观小模型时代来了?微软最小参数AI模型发布,性能逼近 GPT-3.5最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报熵泱——第二十五章今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意《尘封档案》拾遗之046:贺兰山下的枪声苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事华为重夺中国大陆智能手机市场第一/支付宝推出 AI 办事小助手/Altman 称 GPT-5 性能远超 GPT-4三字经,句句错|聊聊“人之初性本善”这句话AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型​前谷歌大佬离职创业,不到一年造出GPT3.5和Gemini Pro,惨痛忠告:GPU简直菜鸡,就像是买彩票!OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报浙美時候在岜沙苗寨的故事EmbodiedGPT一作穆尧:具身智能大模型与通用机器人系统 | GenAICon 2024大量国家组建无人机部队,但人类最强反无人机装备只有中国能造
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。