微软大模型Phi3安装和介绍，普通电脑不联网也能提问！

2024-05-07 00:05

你好，我是郭震

1 前沿

最近，微软发布Phi-3模型，最小尺寸的phi-3-mini（3.8B参数量）在更大、更干净的数据集（包含3.3T个tokens）上进行训练，在各大公开的学术基准和内部测试中，实现了与Mixtral 8x7B和GPT-3.5等大尺寸模型的性能。

模型小，phi-3-mini的尺寸也足够小，可以部署在手机上离线使用，这样让每个人在本地部署大模型成为可能。

功能不错。此前发布Phi-2时，微软已经证实了「基于LLM的web数据过滤」和「LLM合成数据」的结合，使得2.7B参数量的Phi-2可以匹敌25倍参数量大模型的性能。

这篇论文的链接：https://arxiv.org/pdf/2404.14219.pdf

2 phi-3介绍

phi-3一共三个版本，最小尺寸版本为phi-3-mini，基础模型的参数量为3.8B，采用Transformer解码器架构，默认上下文长度为4K，加长版（phi-3-mini-128K）通过LongRope技术将上下文扩展至128K.

模型参数设置上，隐藏层维度为3072、具有32个头、总共32层，使用bfloat16训练了3.3T个tokens

2.1 上下文长度

有些老铁可能不知道什么是上下文长度，我解释下。上下文窗口指的是模型一次可以处理的最大文本长度。这个长度通常用“tokens”（标记）来表示，每个标记可以是一个单词、子词或单个字符，具体取决于编码方式。

4K 上下文窗口：表示模型可以一次处理最多4096 个标记。对应的实际字符数取决于具体文本内容和标记化方式。

上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范围。窗口越大，模型就能处理越长的上下文，对理解长文本内容非常重要。

长文本处理：较大的窗口允许模型处理更长的文本片段，从而提高在长文本任务中的表现，如长篇对话、文档生成和分析等。

2.2 LongRope介绍

LongRope 是一种技术，可以扩展 transformer 模型的上下文窗口，从而处理更长的输入文本。传统的 transformer 模型使用固定的相对位置编码，通常无法扩展到超过模型设计时的上下文窗口大小。LongRope 技术试图解决这一问题，通过扩展位置编码的范围，使 transformer 模型可以处理超长的文本输入。

2.3 LongRope关键技术

LongRope 技术的关键特性是扩展位置编码：LongRope 技术通过增加位置编码的范围，将其适应于比传统位置编码更长的文本。可以允许模型处理多达数十万 token 的上下文。

兼容性：LongRope 技术可以与 transformer 架构兼容，无需对模型架构进行重大修改。适用于多种 transformer 模型，易于集成。

保持模型性能：即使扩展了上下文窗口，LongRope 也努力保持模型的性能和效率，确保处理长文本时的准确性和速度。

3 训练方法

模型的训练遵循「Textbooks Are All You Need」的工作序列，利用高质量的训练数据来提升小型语言模型的性能，同时突破了标准的规模法则（scaling-laws）：phi-3-mini仅用3.8B的总参数量，就能达到GPT-3.5或Mixtral等高性能模型的水平（Mixtral的总参数量为45B）。

模型的训练数据来源多样，涵盖经过精挑细选的开放互联网数据和由大型语言模型生成的合成数据。

预训练由两个独立且连续的阶段组成：

第一阶段：主要使用互联网资源，旨在培养模型的通用知识和语言理解能力；

第二阶段：使用更严格筛选的互联网数据（第一阶段数据的精选子集）和部分合成数据，旨在提升模型的逻辑推理和专业技能。