Redian新闻
>
微软大模型Phi3安装和介绍,普通电脑不联网也能提问!

微软大模型Phi3安装和介绍,普通电脑不联网也能提问!

科技

你好,我是郭震

1 前沿

最近,微软发布Phi-3模型,最小尺寸的phi-3-mini3.8B参数量)在更大、更干净的数据集(包含3.3T个tokens)上进行训练,在各大公开的学术基准和内部测试中,实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。

模型小,phi-3-mini的尺寸也足够小,可以部署在手机上离线使用,这样让每个人在本地部署大模型成为可能。

功能不错。此前发布Phi-2时,微软已经证实了「基于LLM的web数据过滤」和「LLM合成数据」的结合,使得2.7B参数量的Phi-2可以匹敌25倍参数量大模型的性能。

这篇论文的链接:https://arxiv.org/pdf/2404.14219.pdf

2 phi-3介绍

phi-3一共三个版本,最小尺寸版本为phi-3-mini,基础模型的参数量为3.8B,采用Transformer解码器架构,默认上下文长度为4K,加长版(phi-3-mini-128K)通过LongRope技术将上下文扩展至128K.

模型参数设置上,隐藏层维度为3072、具有32个头、总共32层,使用bfloat16训练了3.3T个tokens

2.1 上下文长度

有些老铁可能不知道什么是上下文长度,我解释下。上下文窗口指的是模型一次可以处理的最大文本长度。这个长度通常用“tokens”(标记)来表示,每个标记可以是一个单词、子词或单个字符,具体取决于编码方式。

4K 上下文窗口:表示模型可以一次处理最多4096 个标记。对应的实际字符数取决于具体文本内容和标记化方式。

上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范围。窗口越大,模型就能处理越长的上下文,对理解长文本内容非常重要。

长文本处理:较大的窗口允许模型处理更长的文本片段,从而提高在长文本任务中的表现,如长篇对话、文档生成和分析等。

2.2 LongRope介绍

LongRope 是一种技术,可以扩展 transformer 模型的上下文窗口,从而处理更长的输入文本。传统的 transformer 模型使用固定的相对位置编码,通常无法扩展到超过模型设计时的上下文窗口大小。LongRope 技术试图解决这一问题,通过扩展位置编码的范围,使 transformer 模型可以处理超长的文本输入。

2.3 LongRope关键技术

LongRope 技术的关键特性是扩展位置编码:LongRope 技术通过增加位置编码的范围,将其适应于比传统位置编码更长的文本。可以允许模型处理多达数十万 token 的上下文。

兼容性:LongRope 技术可以与 transformer 架构兼容,无需对模型架构进行重大修改。适用于多种 transformer 模型,易于集成。

保持模型性能:即使扩展了上下文窗口,LongRope 也努力保持模型的性能和效率,确保处理长文本时的准确性和速度。

3 训练方法

模型的训练遵循「Textbooks Are All You Need」的工作序列,利用高质量的训练数据来提升小型语言模型的性能,同时突破了标准的规模法则(scaling-laws):phi-3-mini仅用3.8B的总参数量,就能达到GPT-3.5或Mixtral等高性能模型的水平(Mixtral的总参数量为45B)。

模型的训练数据来源多样,涵盖经过精挑细选的开放互联网数据和由大型语言模型生成的合成数据。

预训练由两个独立且连续的阶段组成:

第一阶段:主要使用互联网资源,旨在培养模型的通用知识和语言理解能力;

第二阶段:使用更严格筛选的互联网数据(第一阶段数据的精选子集)和部分合成数据,旨在提升模型的逻辑推理和专业技能。

4 后处理

后处理 在phi-3-mini的训练后处理中,主要包括两个阶段:

  1. 有监督微调(SFT)

SFT使用了经过精心策划的、跨多个不同领域的高质量数据,包括数学、编程、逻辑推理、对话、模型特性和安全性等,在训练初期只使用英语的样本。

  1. 直接偏好优化(DPO)

DPO的数据则包括了聊天格式的数据、逻辑推理任务,以及负责任的人工智能(RAI)相关的工作。

5 使用体验


使用 ollama 运行下面一行命令:ollama run phi3



一共文件2.3G,安装完成后,就可以在命令窗口直接提问,我的win电脑是40N卡,回复速度非常快。无需联网,直接在本地不限次,不限流量的访问和使用:


如果觉得这个命令窗口交互不友好,还可以配备一个前端界面,详细的教程在我的公众号后台,发送消息,lobe,免费领取前端配置教程。

在我自己电脑部署后,我在前端页面访问phi-3-mini,回复速度很快,质量也很高,比如问它,鸡兔同笼问题:

叫它写一首关于母亲的散文诗:

整理体验不错,会有些瑕疵,但不影响,免费一直使用,GPT4一个月可是20美元。

我们为开源大模型点赞。


1 公众号发消息: llm,免费获取《大模型从理论到实践》.PDF

公众号发消息: gpt,免费获取《GPT使用指南》.PDF


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法7058 血壮山河之枣宜会战 宜昌溃战 14今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu「松下」水龙头“清道夫”,不通电,易安装,出水畅,厨卫用着放心!AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用太赞了!我无意间发现的一本AI大模型PDF,免费下载!今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战iPhone就能跑!微软推出轻量级模型Phi-3,性能堪比GPT-3.5 Turbo,AI的未来在手机端?今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意曝苹果与百度洽谈,iPhone或使用文心大模型/ 小米SU7第二批交付中心候选公布/微软推出首款 AI PC200+ 大模型产品全景盘点!探索大模型带来的创新机遇【立即获取报告】破解大模型安全难题,360推出大模型安全能力框架《阴阳鱼》连载第41章:时间如刀,空间如砧板,而你我都不过是鱼肉美股基本面 - 2024_03_08 * 晨报 * Keystone输油管道短暂停运,油价走高。日本经济有望避免衰退,助力日央9、长篇家庭伦理小说《嫁接 下》第二章 无可奈何(5)360安全大模型3.0来了!垂直大模型,他们这么训AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了梦境城猎人8款新品详细设定介绍,最大套创意有点绝AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿AI Agent,普通人也能抓住的AI技术的第一波红利北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯一大波北京AI重磅成果发布!5年投资超1000亿,最高重奖1亿元,北大清华百度蚂蚁微软大佬齐聚AI盛会CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作GPT被攻破!不再拒绝你的提问!全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事开源大模型火了!(附99个大模型微调模型/数据/工具)!《“由韩愈到王阳明”,经学史杂说》 其四Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象【22点更新】官图细节介绍,26款各系列夏季新品登场
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。