百川13B-Chat-4bits 量化版本能使吗?实测:3090 能跑,效果差别不大!
机器之心 SOTA!模型社区专栏
本专栏由机器之心SOTA!模型社区出品,每周日于机器之心公众号持续更新。
7B、13B 的 Baichuan2 量化后效果差多少?有,但不多!
大模型量化是一个活跃的研究领域,如何有效地部署这些模型到资源受限的设备上,如移动设备和嵌入式系统,已经成为了一个重要的研究课题。
模型量化技术通过减少模型权重和激活的数值精度来减少模型的大小和计算需求,是其中的一种常见策略。例如,原始模型可能使用32位浮点数来表示权重,而量化后的模型可能只使用8位整数或更低的精度。
尽管量化可以带来许多好处,但它也带来了一些挑战。最主要的挑战是精度损失。减少数值精度可能会导致模型的预测性能下降。因此,如何在保持模型性能的同时进行量化是一个关键问题。
9⽉6⽇,百川智能宣布正式开源 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其量化版本 int4 和 int8,并且均为免费可商⽤。作为中文大模型的重要代表之一,Baichuan2 官方开源量化版怎么能不测一下?
本期我们就来实测对比一下7B、13B的 Baichuan2-Chat 模型量化版本和原始版本,看看百川智能官方的量化方案对 Baichuan2 有何具体影响如何?
Baichuan2 项目的技术方案了解一下
开测之前,我们从百川智能官方发布的技术报告中划出了一些重点,简要了解一下Baichuan2 项目「以小博大」的思路和具体技术方案。
王小川表示:「Baichuan7B 70 亿参数模型在英文基准上已经能够与 LLaMA2 的 130 亿参数模型能力持平。因此,我们可以做到以小博大,小模型相当于大模型的能力,而在同体量上的模型可以得到更高的性能,全面超越了 LLaMA2 的性能」。
2.1 数据
Baichuan2-7B-Base 和 Baichuan2-13B-Base 基于 2.6 万亿高质量多语言数据进行训练。其技术报告称,数据采集的目标是追求数据的全面可扩展性和代表性。从各种来源收集数据,包括一般的互联网网页、书籍、研究论文、代码库等,以建立一个广泛的世界知识体系,如下图:
图 1 Baichuan2 中数据来源
在数据处理方面,技术报告称Baichuan 2 重点关注数据频率和质量。
数据频率取决于聚类和重复数据删除。百川智能建立了一个大规模重复数据删除和聚类系统,同时支持类 LSH 特征和密集嵌入特征。该系统可在数小时内对万亿规模的数据进行聚类和复制。不同数据处理阶段的训练数据大小如下图:
图 2 Baichuan2 中训练数据大小情况
2.2 模型架构
Baichuan2 的模型架构基于 Transformer。Tokenizer 需要平衡两个关键因素:一个是高效推理所需的高压缩率,另一个是适当大小的词汇量,以确保对每个词嵌入进行充分的训练。百川智能考虑到了这两个方面,将词汇量从 "Baichuan 1"的 64,000 个扩大到 125,696 个,目的是在计算效率和模型性能之间取得平衡。
2.3 Tokenizer
使用字节对编码(BPE)对数据进行标记化。具体来说,没有对输入文本进行任何 normalization,也没有像 Baichuan1 那样添加 dummy prefix。将数字分割成单个数字,以便更好地对数字数据进行编码。为了处理包含额外空格的代码数据,在 tokenizer 中添加了只包含空格的标记符。字符覆盖率设置为 0.9999,罕见字符将回退到 UTF-8 字节。将最大 token 长度设置为 32,以考虑到中文长词组的情况。Baichuan 2 token 符号生成器的训练数据来自 Baichuan 2 预训练语料库,其中包含更多的代码示例和学术论文样本,以提高覆盖率。
表 1 Baichuan 2 Tokenizer 的词汇量和文本压缩率与其他模型的比较。数字越小越好
在 Baichuan 1 的基础上,Baichuan 2-7B 采用了 Rotary Positional Embedding(RoPE),Baichuan 2-13B 采用了 ALiBi 技术。ALiBi 是一种较新的位置编码技术,已显示出较好的外推性能。不过,大多数开源模型都使用 RoPE 进行位置嵌入,而优化的注意力实现目前更适合 RoPE,因为它是基于乘法的,绕过了将 attention_mask 传递给注意力操作的需要。尽管如此,在初步实验中,位置嵌入的选择并没有对模型性能产生显著影响。为了进一步研究基于 bias 和 multiplication 的注意力,在 Baichuan 2-7B 中应用了 RoPE,在 Baichuan 2-13B 中应用了 ALiBi,这与 Baichuan 1 是一致的。
2.4 Activations and Normalizations
Baichuan2 使用 SwiGLU 激活函数,它是 GLU 的开关激活变体,结果有所改善。不过,SwiGLU 有一个 "双线性 "层,包含三个参数矩阵,不同于 vanilla Transformer 的前馈层,后者只有两个矩阵,因此百川智能将隐藏大小从 4 倍减少到 8/3 隐藏大小,并四舍五入到 128 的倍数。对于 Baichuan 2 的注意力层,Baichuan 2 采用了 xFormers2 实现的内存高效注意力。通过利用 xFormers 带有 biasing 功能的优化注意力,Baichuan 2 可以有效地结合 ALiBi 基于偏置的位置编码,同时减少内存开销。这为 Baichuan 2 的大规模训练提供了性能和效率上的优势。百川智能对 Transformer 模块的输入进行了层归一化处理,这样可以更好地适应 warm-up schedule。此外,使用 RMSNorm 实现,它只计算输入特征的方差,以提高效率。
2.5 优化
Baichuan 2 使用 AdamW 优化器进行训练。β1 和 β2 分别设置为 0.9 和 0.95。使用 0.1 的权重衰减和 0.5 的梯度法。通过 2,000 个线性缩放步骤对模型进行 warm-up,达到最大学习率,然后应用余弦衰减达到最小学习率。参数详情和学习率见表 2。
表 2 Baichuan 2 模型细节
整个模型使用 BFloat16 混合精度进行训练。为了稳定训练并提高模型性能,对输出嵌入(也称为 "Head")进行了归一化处理。
在训练过程中,百川智能发现 LLM 的对数值可能会变得非常大。而 softmax 函数与对数值的绝对值无关,因为它只取决于对数值的相对值。大的对数在推理过程中会产生问题,因为重复惩罚的常见实现方法会直接将标量应用于对数。以这种方式收缩非常大的对数会显著改变 softmax 后的概率,从而使模型对重复惩罚超参数的选择变得敏感。Baichuan2 中增加了 max-z 损失,使对数正常化:
其中 z 为最大对数值。这有助于稳定训练,并使推理对超参数更加稳健。
2.6 Scaling Laws
当深度学习和大型语言模型的训练成本越来越高时,Neural scaling laws(即误差随训练集大小、模型大小或两者的幂函数而减小)能够确保性能。在训练包含数十亿个参数的大型语言模型之前,百川智能首先训练一些小型模型,并为训练大型模型拟合缩放定律。
使用一致超参数和来自 Baichuan 2 的相同数据集,启动了从 10M 到 3B 的一系列模型,规模从最终模型的 1/1000 到 1/10 不等,每个模型都经过了多达 1 万亿次的训练。根据不同模型的最终损失,我们可以得到从训练翻转到目标损失的映射。
其中,L_∞ 是不可还原损耗,第一项是可还原损耗,用幂律缩放项表示。C 是训练次数,L_C 是模型在训练次数中的最终损耗。
2.7 对齐
Baichuan 2 引入了对齐程序,从而得到两种聊天模式:Baichuan 2-7B-chat 和 Baichuan 2-13B-chat。Baichuan 2 的对齐过程包括两个主要部分:监督微调(SFT)和人类反馈强化学习(RLHF)。
图 3 Baichuan 2 的 RLHF 过程
Baichuan2-7B-Chat、13B-Chat 量化版对比实测
3.1 实测环境
本期实测主要对比 10B 量级的量化前后对齐的 Baichuan2 的性能,看一下量化后对 Baichuan2 的效果究竟有何影响。
本期实测的模型版本包括 Baichuan2-7B-chat、Baichuan2-13B-chat、Baichuan2-7B-chat-4bits、Baichuan2-13B-chat-4bits。此外,我们还在中文写作任务上附加测试了 Baichuan53B 作为对比参照 。
为保证实测版本均为官方放出的可用于二次开发的纯净版,我们使用贝式计算提供的模型部署算力容器自行部署了Baichuan2的四个官方模型版本以进行实测,Baichuan53b 的实测则在官方测试网站(https://www.baichuan-ai.com/)完成。
模型版本 | 实测环境 | 自部署实测环境配置 |
Baichuan2-7B-chat | SOTA!模型社区实测分析师自部署实测环境: https://sota.jiqizhixin.com/xt-terminal/f776a1b3-4864-4510-b30c-f155d5919d10 昇思大模型平台: https://xihe.mindspore.cn/modelzoo/baichuan2_7b_chat | 贝氏计算(openbayes)模型部署算力容器 8核CPU 30GB 内存 Serving-RTX-3090 |
Baichuan2-13B-chat | SOTA!模型社区实测分析师自部署实测环境: https://sota.jiqizhixin.com/xt-terminal/b41b0162-f749-4399-a2db-ba9955c340c7 魔搭创空间: https://modelscope.cn/studios/baichuan-inc/Baichuan-13B-Chatdemo/summary/ | 贝氏计算(openbayes)模型部署算力容器 8核CPU 30GB 内存 Serving-RTX-3090 |
Baichuan2-7B-chat-4bits | SOTA!模型社区实测分析师自部署实测环境: https://sota.jiqizhixin.com/xt-terminal/1ee37f51-250c-4fee-93bc-a24b4f7981da | 贝氏计算(openbayes)模型部署算力容器 8核CPU 30GB 内存 Serving-RTX-3090 |
Baichuan2-13B-chat-4bits | SOTA!模型社区实测分析师自部署实测环境: https://sota.jiqizhixin.com/xt-terminal/f776a1b3-4864-4510-b30c-f155d5919d10 | 贝氏计算(openbayes)模型部署算力容器 8核CPU 30GB 内存 Serving-RTX-3090 |
3.2 实测分析
本期实测任务主要是 baichuan2 最擅长的数学、医疗、法律等领域的问题,由五组实测任务组成。
由于10B 量级的模型参数规模完成任务的能力相对有限,一点小小的优势都体现得非常明显,我们在之前的实测过程中发现直接看实测的输出就可以非常直观的看到不同模型的区别。
因此,我们决定既不参照标准学术测试集也不进行打分,而是直接将实测所用的问题设计为全部来源于日常生活,而是将实测的效果直接展示给大家,以便老伙计们形成自己对不同模型的表现判断。
从五组的实测结果来看,我们有以下推断:
Baichuan2 量化前后版本的效果差别不大,有些情况下甚至是量化后的版本效果更好!
Baichuan2 10B 量级的模型在完成数学、医学、翻译、法律甚至是中文写作任务时,效果比之前的Baichuan1 模型要好很多。
Baichuan2 做数学题的能力比 Baichuan1 有所提高,但是我们给出的小高阶段的数学题(不是简单的计算题),他还是都答不对。感觉他的数学技能还有提高的空间。
对于中文写作能力来说,Baichuan2 已经很不错了,但和一代的 Baichuan53B 来说,其逻辑性、准确性仍有提高的空间。造成这一差距是否单纯是参数量的原因,从目前公开的技术细节来看,我们还无法确定。
需要说明的是,以上结论仅是本期实测组的主观推断,希望可以通过抛转引玉找到更多正在进行开源模型魔改实践的老伙计一起进行技术交流和讨论。感兴趣加入的老伙计可以通过以下海报提供的方式加入SOTA!模型社区魔改小组~
4.1 数学任务实测分析
在百川 2 发布会上,baichuan2 系列的数学能力是当做重点强调的。本期实测中的两道数学题,我们在之前的实测中对 baichuan1 系列也测过。从本次实测结果来看,Baichuan2 的 7B 和 13B 模型表现明显优于 Baichuan1,但是,最终并没有能够计算得到正确的答案。不过,Baichuan2 都在认真的计算着,而不是直接摆烂,这也算是一种进步。
从量化前后的效果进行对比,我们并没有发现太多区别。因为量化前后计算的最终结果都是错误的,所以各自分别“一本正经”的计算过程,也没办法说“优劣”,只能说,看起来都很好,都很努力,但是都不能正确完成数学题。
A、B 两地相距 540 千米。甲、乙两车往返行驶于 A、B 两地之间,都是到达一地之后立即返回,乙车较甲车快。设两辆车同时从 A 地出发后第一次和第二次相遇都在图中 P 地。那么辆车第三次相遇为止,乙车共走了多少千米?
模型 | 答案 |
Baichuan2-7B-chat | 我们可以通过计算甲车和乙车在两次相遇过程中各自所走的路程来求解这个问题。首先,我们设甲车的速度为x千米/小时,乙车的速度为y千米/小时。由于乙车较甲车快,所以y > x。在第一次相遇时,甲车和乙车分别到达P地和第二次相遇的地点。设第一次相遇时甲车走了a千米,乙车走了b千米。根据题意,我们有以下方程:a + b = 540 (1) 当甲车回到A地并与乙车第二次相遇时,甲车走了2a千米,乙车走了2b千米。此时,甲车和乙车分别到达P地和第二次相遇的地点。所以有:2a + 2b = 540 (2) 将(1)式中的b用2b表示,代入(2)式得:2a + 2(2b) = 540 2a + 4b = 540 现在我们来分析第二次相遇时的情况。设甲车第三次与乙车相遇时走了c千米,那么甲车总共走了3a千米。根据题意,甲车和乙车分别到达P地和第三次相遇的地点。所以有:3a + c = 540 同时,甲车和乙车第二次相遇时,甲车走了a千米,乙车走了b千米。此时,甲车和乙车分别到达P地和第三次相遇的地点。所以有:a + b = c 由以上方程组可以解得:c = a + b 将c替换到3a + c = 540中,得:3a + (a + b) = 540 3a + a + b = 540 4a + b = 540 现在我们知道了甲车三次行走的距离之和是540千米,而每次行走的距离都是乙车速度的两倍。所以,乙车共走了:540 / 4 * 2 = 360千米 |
Baichuan2-7B-chat-4bits | 我们可以通过计算甲车和乙车在每次相遇时所走的距离来求解这个问题。 首先,我们已知甲车和乙车分别从A地和B地出发,在P地第一次相遇。此时,甲车走了$a=\frac{1}{2} \times 540$千米,乙车走了$b=540-a$千米。当它们再次相遇时,甲车已经回到了A地,所以这时甲车走了$2a=540$千米,乙车走了$2b-540$千米。由于乙车比甲车快,所以在这次相遇中,乙车走过的距离大于甲车走过的距离。因此,$2b-540>540$,即$b>672$。 当它们第三次相遇时,甲车已经回到了B地,所以这时甲车走了$3a=540 \times 3$千米,乙车走了$3b-540 \times 3$千米。由于乙车比甲车快,所以在这次相遇中,乙车走过的距离大于甲车走过的距离。因此,$3b-540 \times 3 > 540 \times 3$,即$b>360$。 综合以上分析,我们可以得出结论:乙车第三次相遇时走过的距离大于360千米且小于672千米。 |
Baichuan2-13B-chat | 由于甲乙两车每次相遇后都会改变相对位置,所以我们可以将问题分解为以下几个步骤来求解: 甲乙两车第一次相遇在P地,此时他们各自走过的路程和等于AB之间的距离,即540千米。 甲乙两车第一次相遇后,他们会分别继续行驶到A地和B地,然后再返回到P地。在这个过程中,乙车比甲车多走了一个从P到B再到P的距离。假设这个距离为x千米。 甲乙两车第二次相遇后,他们会分别继续行驶到A地和B地,然后再返回到P地。在这个过程中,乙车又比甲车多走了一个从P到A再到P的距离,即x千米。 以此类推,甲乙两车第三次相遇后,乙车又比甲车多走了一个从P到B再到P的距离,即x千米。 综上所述,从第一次相遇开始到第三次相遇为止,乙车共走了540 + 2x千米。然而,题目没有给出足够的信息来确定x的具体值,所以我们无法得出一个确切的答案。 |
Baichuan2-13B-chat-4bits | 180 |
若 50 人报名足球俱乐部,60 人报名乒乓球俱乐部,70 人报名足球或乒乓球俱乐部。若已知某人报足球俱乐部,则其报乒乓球俱乐部的概率是多少?
模型 | 答案 |
Baichuan2-7B-chat | 我们可以使用组合来解决这个问题。首先,我们需要计算每种情况下的人数: 1. 只报名足球俱乐部的人:50人 2. 只报名乒乓球俱乐部的人:60人 3. 报名足球和乒乓球俱乐部的人:70人 现在我们知道总共有180人(50+60+70)。要找到只报名足球俱乐部的人的概率,我们需要将报名足球俱乐部的人数除以总人数: 概率 = (报名足球俱乐部的人数) / (总人数) = 50/180 ≈ 0.278 所以,某人报足球俱乐部的情况下,其报乒乓球俱乐部的概率约为0.278,或者说是27.8%。 |
Baichuan2-7B-chat-4bits | 我们可以使用条件概率来解决这个问题。假设A表示报足球俱乐部的人数,B表示报乒乓球俱乐部的人数,C表示同时报足球和乒乓球俱乐部的人数。 根据题目描述,我们有以下信息: 1. A = 50人 2. B = 60人 3. C = 70人 我们需要计算的是P(B|A),即已知某人报足球俱乐部,则其报乒乓球俱乐部的概率。这可以表示为: P(B|A) = P(AB) / P(A) 由于C = A + B - AB,我们可以将上述公式进一步简化为: P(B|A) = (A + B - AB) / P(A) 现在我们需要求解P(A)。由于总共有180人报名(50 + 60 + 70 = 180),所以: P(A) = 180 接下来我们求解P(AB)。由于C = A + B,所以: P(AB) = AB + C - A - B = AB - AB = 0 将这些值代入之前的公式中,我们得到: P(B|A) = (A + B - AB) / P(A) = (A + B - AB) / 180 由于已知某人报足球俱乐部,那么A = 50;已知某人报乒乓球俱乐部,那么B = 60。将这些值代入公式中,我们得到: P(B|A) = (50 + 60 - 0) / 180 = 110 / 180 = 1/2 所以,已知某人报足球俱乐部,则其报乒乓球俱乐部的概率是1/2,或者说是50%。 |
Baichuan2-13B-chat | 我们可以使用韦恩图来解决这个问题。首先,我们需要找到所有可能的组合,即报名足球和乒乓球俱乐部的人数。 报名足球俱乐部的人数:50人 报名乒乓球俱乐部的人数:60人 同时报名足球和乒乓球俱乐部的人数:70人 现在我们需要计算一个人报了足球俱乐部后,再报乒乓球俱乐部的概率。这可以通过以下方式计算: 总共有多少人报了足球俱乐部(50人); 从这些人中找出报了乒乓球俱乐部的人的数量(60人); 用报了乒乓球俱乐部的人数除以报了足球俱乐部的人数(60/50=1.2)。 所以,如果一个人报了足球俱乐部,那么他报乒乓球俱乐部的概率是1.2,或者说是120%。这意味着在这个特定的情况下,报了足球俱乐部的人更有可能也报了乒乓球俱乐部。然而,请注意这个概率是基于这个问题的特定数据计算的,可能在其他情况下有所不同。 |
Baichuan2-13B-chat-4bits | 我们可以使用条件概率来解决这个问题。首先,我们需要计算在已知某人报名足球俱乐部的情况下,他同时报名乒乓球俱乐部的概率。 设事件A为“某人在足球俱乐部报名”,事件B为“某人在乒乓球俱乐部报名”。我们要求的是P(B|A),即在已知某人报名足球俱乐部的情况下,他同时报名乒乓球俱乐部的概率。 根据题意,总共有50人报名足球俱乐部,60人报名乒乓球俱乐部,70人报名足球或乒乓球俱乐部。所以,P(A) = 50/70 = 5/7, P(B) = 60/70 = 6/7。 现在我们已经知道了P(A)和P(B),接下来求P(B|A)。根据条件概率公式: P(B|A) = P(A∩B) / P(A) 由于我们已经知道某人报名了足球俱乐部,那么他们一定在70人的集合中。所以,P(A∩B) = P(A) = 5/7。将这个值代入公式,我们得到: P(B|A) = (5/7) / (5/7) = 1 因此,在已知某人报名足球俱乐部的情况下,他同时报名乒乓球俱乐部的概率是1,即他一定会报名乒乓球俱乐部。 |
4.2 医学任务实测分析
这道医学相关的题目我们是以客观题形式给出的,所以 Baichuan2 系列模型给出的答案格式都是完全正确的,这一点已经胜过我们实测过的大多数 10B 量级模型,因为在之前测试时很多 10B 量级的模型都不能按照客观题的格式给答案,而是自顾自的中文续写。在实测的四个模型中,前三个都给出了正确答案 D。Baichuan2-7B-chat-4bits 这个量化后的版本也回答正确。但很意外的是,Baichuan2-13B-chat-4bits 的量化后版本答错了。
中枢神经系统对维持人体内环境的稳态具有重要作用。下列关于人体中枢的叙述,错误的是()
A 大脑皮层是调节机体活动的最高级中枢
B 中枢神经系统的脑和脊髓中含有大量神经元
C 位于几岁的低级中枢通常受脑中相应的高级中枢调控
D 人体脊髓完整而脑部受到损伤时,不能完成膝跳反射
模型 | 答案 |
Baichuan2-7B-chat | D |
Baichuan2-7B-chat-4bits | D |
Baichuan2-13B-chat | D |
Baichuan2-13B-chat-4bits | A |
4.3 翻译任务实测分析
Baichuan2 在中译英任务中的完成情况也不错,总体来说,所有的模型都能够正确的翻译。分析师个人感觉,在一般的翻译任务中,baichuan2 翻译后的结果只需要人工稍加修色即可使用。此外,量化前后的版本效果差别并不大。
英译中的题目四个模型也都回答正确。从翻译的精准、用词的优美角度来看,量化后的版本效果并不受到任何影响,相反,一些语句的翻译反而更胜一筹。例如,“ I'd rather remember it as it was at its bes”,Baichuan2-7B-chat 将他翻译成“我宁愿把它当做最好的样子来记住”,而量化版本则翻译成“我宁愿记住它最好的样子”,显然,量化后的模型翻译的语句更符合中文语言的特点。
此外,13B 系列也并不比 7B 好很多,“What is broken is broken”翻译做“破镜难圆”,显然 7B-chat-4bits 赢了。
“唐诗是中国人的千古绝唱。”在翻译这一句时,7B-chat 将其翻译为“Tang poetry is the eternal masterpiece of the Chinese people。”而量化后的版本将其翻译为“Tang poetry is a legacy that will last forever in Chinese culture. ”。这样看,量化后的版本会稍差一些,base 版本的“masterpiece”显然使用的更为出色。
英译中
Please translate this sentence into Chinese: I was never one to patiently pick up broken fragments and glue them together and tell myself that the mended whole was as good as new. What is broken is broken and I'd rather remember it as it was at its best than mend it and see the broken places...
模型 | 答案 |
Baichuan2-7B-chat | 我从不耐心地去捡起破碎的碎片,把它们粘在一起,然后告诉自己修补后的整体和以前一样好。破了的就是破了,我宁愿把它当作最好的样子来记住,而不是修补它,在我活着的时候看到那些破碎的地方。 |
Baichuan2-7B-chat-4bits | 我从不耐心地捡起破碎的碎片并粘合在一起,然后告诉自己修补后的整体与全新无异。破镜难圆——我宁愿记住它最好的样子,而不是修补它,并在余生中看到那些破碎的地方。 |
Baichuan2-13B-chat | 我从不愿意耐心地捡起破碎的碎片,把它们粘在一起,然后告诉自己修复后的整体和新的没什么两样。破碎的就是破碎的——我宁愿记住它在最好时的样子,而不是修复它,并在余生里看到那些破碎的地方。 |
Baichuan2-13B-chat-4bits | 我从未有耐心去捡起破碎的碎片,把它们粘在一起,然后告诉自己修补后的完整与全新无异。破碎就是破碎——我宁愿记住它曾经的美好,而不是修补后,只要活着就永远看到那些破碎的地方。 |
中译英。请将下面这段文字翻译成英文:中国是诗的国度。尤其到了唐代,中国古典诗歌进入了全盛时期(heyday)。唐代三百年间,涌现出大批优秀诗人和杰出的诗歌作品。唐代诗歌数量极大,题材广泛,意象(image)和风格多样化,出现了大量思想性和艺术性完美结合的作品,真正是一个诗歌的黄金时代。唐诗是中国人的千古绝唱。唐代的伟大诗人不胜枚举,其中以李白、杜甫、王维的诗歌所蕴含的中国文化的意味和情趣,最具代表性。
模型 | 答案 |
Baichuan2-7B-chat | China is the land of poetry. In particular, during the Tang Dynasty, Chinese classical poetry entered its heyday. Over the course of three hundred years in the Tang Dynasty, a large number of outstanding poets and outstanding poetic works were born. The number of Tang poems is immense, with a wide range of topics, diverse images, and styles, resulting in a large number of works that are perfectly integrated with both thought and art. It truly is a golden age of poetry. Tang poetry is the eternal masterpiece of the Chinese people. The great poets of the Tang Dynasty cannot be counted, among which Li Bai, Du Fu, and Wang Wei's poetry, which embodies the meaning and charm of Chinese culture, is the most representative. |
Baichuan2-7B-chat-4bits | China is the country of poetry. In particular, during the Tang Dynasty, Chinese classical poetry entered its heyday. Over the three hundred years of the Tang Dynasty, numerous outstanding poets and remarkable poetic works were born. The number of poems in the Tang Dynasty was immense, with a wide range of themes, diverse images, and styles. Many works with perfect integration of thought and art were created, truly representing a golden age of poetry. Tang poetry is a legacy that will last forever in Chinese culture. The great poets of the Tang Dynasty are countless, and the poetry of Li Bai, Du Fu, and Wang Wei, which embodies the significance and charm of Chinese culture, is the most representative. |
Baichuan2-13B-chat | China is the homeland of poetry. Especially during the Tang Dynasty, classical Chinese poetry entered its heyday. Over the course of three centuries in the Tang Dynasty, a large number of outstanding poets and remarkable poems emerged. The quantity, scope, imagery, and styles of Tang poetry were diverse, resulting in a large number of works with perfect integration of thought and art, truly marking a golden age of poetry. Tang poetry is a timeless masterpiece of the Chinese people. The great Tang poets are too numerous to count, among whom Li Bai, Du Fu, and Wang Wei's poems embody the essence and charm of Chinese culture, representing it most prominently. |
Baichuan2-13B-chat-4bits | China is a land of poetry, especially during the Tang Dynasty when classical Chinese poetry reached its heyday. Over the course of three centuries, numerous talented poets and outstanding works emerged. The quantity, variety, imagery, and styles of Tang poetry were vast, resulting in many pieces that perfectly combined thought-provoking ideas with artistic excellence, truly marking a golden age for poetry. Tang poetry is a timeless masterpiece of the Chinese people. There are countless great poets from the Tang Dynasty, but Li Bai, Du Fu, and Wang Wei stand out for their profound cultural significance and emotional appeal in their poems. |
4.4 法律任务实测分析
对于法律问题,Baichuan2 系列都很谨慎,都首先表达自己只是个语言模型,所提供的信息仅供参考,这在模型完成其他类型的任务中是不存在的。相比较起来,Baichuan2-13b 系列的答案要比 7B 看起来更专业一些,它引用法条,表达了一些观点。而 7B 模型显得有些“业余”,用的是“一些人、另一些人”或者“赞成的观点、反对的观点”这样的表述方式。
刘某欠赵某债务,杨某提议拘禁刘某要其还,赵某速将刘某拘禁。刘某声称你们拘禁了我怎么还钱,就是你们把我放出来我也不会还的。于是杨某提议把刘某的大拇指砍掉,赵某同意,造成刘某重伤。问:有观点赵某、刘某仅成立故意伤害罪一罪,你认为赞问和反对的理由分别是什么?
模型 | 答案 |
Baichuan2-7B-chat | 作为一个大语言模型,我不能表达个人观点,但我可以为您提供一些关于这个问题的信息。 在这个案例中,赵某和刘某的行为可能涉及多个罪名,包括非法拘禁、故意伤害等。非法拘禁是指非法限制他人人身自由的行为,而故意伤害是指故意对他人身体造成伤害的行为。 有人认为,赵某、刘某仅成立故意伤害罪一罪,因为他们最初的目的可能是为了索要债务,而不是故意伤害刘某。然而,在实施过程中,他们实施了导致刘某重伤的行为,这已经超出了原始目的的范围。因此,这个观点认为他们只构成一个罪名,即故意伤害罪。 另一方面,有人认为赵某、刘某成立故意伤害罪和非法拘禁罪两个罪名。因为他们在拘禁刘某的过程中,还实施了砍掉刘某大拇指的行为,这是故意对刘某身体造成伤害的行为。同时,他们还对刘某进行了非法限制人身自由的行为。所以,这个观点认为他们应承担两个罪名的刑事责任。 总之,这个问题没有绝对的答案,因为具体罪名取决于法律适用和证据认定。建议您咨询专业律师以获取更准确的法律意见。 |
Baichuan2-7B-chat-4bits | 作为一个大语言模型,我不能对法律问题提供具体的建议或解答,因为这需要专业的法律知识。但是,我可以为您提供一些关于犯罪构成和罪行的基本信息。 在这个案例中,赵某和杨某的行为可能涉及多个罪名,包括非法拘禁、故意伤害甚至绑架等。然而,这些罪名之间可能存在重叠,因此他们可能只成立一个罪名。这取决于具体的事实和证据,以及司法机构如何解释这些行为。 赞成的观点可能会认为,赵某和杨某的行为构成故意伤害罪,因为他们的目的是迫使刘某偿还债务,而不是剥夺他的生命或自由。他们可能没有明确的意图伤害刘某,但他们的行为导致了严重的身体伤害。 反对的观点可能会认为,赵某和杨某的行为构成非法拘禁罪,因为他们限制刘某的自由,迫使他还债。虽然他们的行为导致了严重的身体伤害,但这可能是为了实现他们的主要目的,即迫使刘某偿还债务。 总之,这个案例涉及到多个罪名,具体成立哪个罪名取决于事实和证据。这需要专业律师的判断和分析。 |
Baichuan2-13B-chat | 作为一个大语言模型,我没有个人观点,但我可以为您提供一些关于这个问题的不同观点及其理由。 赞成观点:赵某、刘某仅成立故意伤害罪一罪。 理由1:从犯罪构成上看,赵某、刘某的行为符合故意伤害罪的构成要件。他们故意对刘某实施伤害行为,导致刘某重伤的结果。因此,他们的行为既满足了主观方面的要求,也满足了客观方面的要求。 理由2:从犯罪目的上看,虽然杨某提议拘禁刘某并要求他还钱,但这并不是赵某、刘某犯罪的直接目的。他们的目的是对刘某实施伤害行为,而不是为了达到其他目的。因此,他们的行为应该被视为一个独立的犯罪行为,而不是与其他罪行有关联。 反对观点:赵某、刘某成立非法拘禁罪和故意伤害罪两罪。 理由1:从犯罪构成上看,赵某、刘某的行为同时满足了非法拘禁罪和故意伤害罪的构成要件。首先,他们对刘某实施了拘禁行为,这满足了非法拘禁罪的构成要件。其次,他们对刘某实施了伤害行为,这满足了故意伤害罪的构成要件。因此,他们的行为应该被视为两个独立的犯罪行为,而不是一个犯罪行为。 理由2:从犯罪目的上看,虽然赵某、刘某的主要目的是对刘某实施伤害行为,但他们实施的拘禁行为也是为了实现这一目的。因此,他们的行为应该被视为一个相关的犯罪行为,而不仅仅是独立的犯罪行为。 |
Baichuan2-13B-chat-4bits | 作为一个大语言模型,我没有个人观点,但是我可以提供一些相关的信息供您参考。 根据《中华人民共和国刑法》第二百三十四条规定,故意伤害他人身体的,处三年以下有期徒刑、拘役或者管制。犯前款罪,致人重伤的,处三年以上十年以下有期徒刑;致人死亡或者以特别残忍手段致人重伤造成严重残疾的,处十年以上有期徒刑、无期徒刑或者死刑。 在本案中,赵某和杨某共同犯罪,分别实施不同的行为,因此可能构成不同罪名。如果赵某和杨某都实施了故意伤害的行为,那么他们可能会分别被指控为故意伤害罪的共犯。然而,如果赵某和杨某分别实施了不同的犯罪行为,例如非法拘禁和故意伤害,那么他们可能会被分别起诉并判处不同的刑罚。 总之,对于此类案件,需要根据具体的证据和法律条款进行分析,才能得出确切的结论。 |
4.5 中文写作任务实测分析
下面两个中文写作类问题,我们最初是一代 Baichuan53B 设计的。我们在闭源的 一代Baichuan53B 测试后,发现它写出的文章条理清晰、文字流畅、语言精准,效果非常地好。比如,它在写区三好竞选稿时,能够从学习、运动、劳动等不同的方面进行阐述,严格遵循了“三好生”应该具备的三好特质。在介绍自己的优点同时,还不忘表达后续继续努力的决心和对老师教导的感谢,可谓是相当高质量的一篇中文小作文。
Baichuan2 发布后,我们就萌生了 Baichuan2 的 10B 量级与一代Baichuan53B 对比的念头,于是我们在这两个任务中也测试了 Baichuan2 的 7Bchat 和 13Bchat 及其量化版本。
从任务完成情况来看,10B量级的Baichuan2 模型具备了非常不错的中文写作能力,都能够完整的完成一篇文章。但是细度起来,其质量跟 Baichuan53B 仍有差距。以我们下面第二个问题中的三好生竞选稿为例,10B量级的Baichuan2 模型就做不到从“三”个角度阐述个人的优势,同时表决心+表感谢。10B量级的Baichuan2 完成的中文文章仍需要人工进行润色,而 Baichuan53B 写完的文章,已经媲美人的写作能力。
少不读水浒,老不读三国。你对这句话怎么看?
模型 | 答案 |
Baichuan2-7B-chat | 作为一个大语言模型,我没有年龄和经历,所以无法对这句话产生共鸣。但是,从文学角度来看,这句话可能是指不同的年龄段的人应该选择适合自己的文学作品来阅读。年轻人可能更适合阅读《水浒传》这样的英雄传奇小说,因为它可以激发他们的激情和想象力;而老年人则可能更适合阅读《三国演义》这样具有深刻历史背景和政治智慧的作品,因为它可以帮助他们更好地理解历史和现实。当然,这只是一个简单的解释,实际情况可能会有所不同。 |
Baichuan2-7B-chat-4bits | 作为一个大语言模型,我没有年龄和经历,所以无法对这句话产生共鸣。但是,从一般人的角度来看,这句话意味着不同的年龄段应该选择不同类型的书籍来阅读。年轻人可以阅读《水浒传》这样的英雄传奇小说,因为它能激发他们的想象力和创造力;而老年人则更适合阅读《三国演义》这样具有丰富历史背景和深刻哲理的作品,因为它能帮助他们更好地理解历史和人生。当然,这只是一个建议,每个人可以根据自己的兴趣和需求来选择适合自己的书籍。 |
Baichuan2-13B-chat | 这句话的意思是年轻人在成长阶段不应该阅读《水浒传》这样的书籍,因为其中的暴力和粗俗内容可能对年轻人的成长产生负面影响;而在老年人阶段,也不应该阅读《三国演义》这样的书籍,因为其中的权谋和战争内容可能让老年人感到焦虑和不安。 然而,我认为这种观点过于绝对。每一本书都有其独特的价值和意义,无论是年轻人还是老年人,都应该根据自己的兴趣和理解能力来选择阅读的书目。而且,书中的内容和价值观也需要根据具体的社会历史背景来理解,不能简单地将其归为好或坏。 总的来说,这句话更多的是一种传统观念的体现,而非现代人的阅读观。 |
Baichuan2-13B-chat-4bits | 作为一个大语言模型,我没有年龄和阅历的限制,因此我无法理解“少不读水浒,老不读三国”这句话的含义。但是,从字面上来看,这句话的意思是年轻时不应该阅读《水浒传》这样的书籍,因为它们可能会激发年轻人的暴力倾向和不稳定的情绪;而年长者不应该阅读《三国演义》这样的书籍,因为它们可能会导致老年人陷入不必要的纷争和矛盾。然而,这种观点并不完全正确,因为每个人的性格、经历和教育背景都不同,他们对于书籍的理解和接受程度也会有所不同。因此,我们应该根据自己的兴趣和能力来选择阅读书籍,而不是受到年龄或经历的限制。 |
Baichuan53b | "少不读水浒,老不读三国"是一句中国传统的谚语,主要意思是指年轻人不适合阅读《水浒传》,而老年人不适合阅读《三国演义》。这句话的主要原因在于这两部小说分别代表了两种不同的价值观和人生观。 《水浒传》描绘的是一群草莽英雄的故事,书中的人物形象大多粗犷豪放,行为举止也较为激烈。年轻人在价值观尚未完全成熟的情况下,容易受到这些人物的影响,从而产生冲动、暴力等不良倾向。 而《三国演义》则是一部充满权谋斗争和战争的小说,书中的人物关系复杂,充满了阴谋诡计。老年人在人生的阅历已经相当丰富的情况下,再阅读这样的作品,容易陷入过于沉重的权谋算计之中,影响身心健康。 总的来说,这句谚语主要是从道德教育和人格塑造的角度出发,提醒人们在特定的人生阶段应该选择适当的阅读材料,避免受到不良影响。然而,这种说法并非绝对,因为每个人的个体差异很大,对于同一种文化产品,不同的人可能会有不同的反应和理解。因此,我们不能一概而论地认为某个人群一定不能阅读某种书,关键还是要根据个人的实际情况和需求来做出选择。 |
帮我写一段小学六年级竞选区三好的演讲稿。
模型 | 答案 |
Baichuan2-7B-chat | 尊敬的评委,亲爱的同学们: 大家好!今天,我站在这里,非常荣幸地向大家宣布我将竞选我们学校的区三好生。我是来自六年级一班的XXX。 首先,请允许我介绍一下自己。我是一个热爱学习、乐观向上、乐于助人的学生。在学习上,我始终保持着良好的学习习惯,对待每一门课程都全力以赴。我不仅注重知识的积累,还注重实践能力的培养。在课堂上,我积极发言,认真听讲;在课后,我会主动复习巩固所学知识,遇到不懂的问题会虚心向老师和同学请教。通过不懈的努力,我在各科成绩中都取得了优异的成绩,多次获得学校奖学金。 除了学习,我还非常重视品德的培养。我诚实守信,尊老爱幼,关心集体,乐于助人。在班级里,我担任了学习委员的职务,我认真负责,积极协助老师完成各项工作,帮助同学解决学习上的困难。在课余时间,我会参加各种课外活动,如书法比赛、演讲比赛等,这些活动不仅丰富了我的课余生活,也锻炼了我的组织能力和团队协作精神。 我相信,一个优秀的学生不仅仅是学习成绩优异,更重要的是具备良好的品德和综合素质。因此,我积极参加各种社会实践活动,如志愿者服务、环保活动等,通过这些活动,我学会了关爱他人,关注社会,为社会贡献自己的力量。 如果我有幸当选区三好生,我将更加努力学习,不断提高自己的综合素质,为班级、为学校争光。同时,我也会继续努力做好自己的本职工作,为同学服务,为班级建设贡献自己的力量。 最后,我要感谢老师和同学们对我的信任和支持。请相信,我会继续努力,不辜负大家的期望。谢谢大家! |
Baichuan2-7B-chat-4bits | 尊敬的评委,亲爱的同学们: 大家好!今天,我站在这里,非常荣幸地向大家发表我的竞选演讲。我是来自六年级(班级)的(姓名),今天我站在这里,是为了竞选我们学校的区三好学生。 首先,请允许我回顾一下过去的一年。在过去的一年里,我在学习上取得了优异的成绩,成绩一直保持在班级的前列。我不仅努力学习,还积极参与课外活动,不断提高自己的综合素质。在课堂上,我认真听讲,积极发言,与同学互动,努力提高自己的理解能力和表达能力。在课外,我还参加了各种兴趣班,如绘画、舞蹈和音乐等,这些兴趣让我学会了坚持和毅力,也让我更加全面地发展自己。 作为一名优秀学生,我深知责任重大。我热爱集体,关心他人,乐于助人。在班级里,我担任了班干部,积极参与班级管理,帮助老师处理一些日常事务。我关心每一个同学,帮助他们解决学习和生活上的困难,与同学们共同进步。此外,我还积极参加各类社会公益活动,如志愿者服务、环保活动等,这些活动让我学会了关爱他人,也让我更加成熟和稳重。 在未来的学习和生活中,我会继续努力,不断提高自己。我相信,只有付出努力,才能收获成功。我会以更高的标准要求自己,争取在各个方面取得更好的成绩。同时,我也会继续关注集体,关心他人,为班级和学校的发展贡献自己的力量。 最后,我要感谢老师和同学们对我的支持和信任。我会珍惜这次机会,努力提升自己,不辜负大家的期望。请大家相信我,我会用实际行动证明,我是一名优秀的区三好学生。 谢谢大家! |
Baichuan2-13B-chat | 尊敬的评委老师,亲爱的同学们: 大家好!我是来自六(1)班的XXX,我很荣幸站在这里,参加这次竞选区三好的演讲。 首先,我要感谢老师和同学们的信任和支持,给我这个机会来表达我对“三好”的理解和追求。我想,每个人都渴望成为“三好”学生,但我认为,真正的“三好”不仅仅是学习成绩好,更重要的是思想品德好和行为习惯好。 在思想上,我要热爱祖国,热爱人民,热爱社会主义,认真学习社会主义核心价值观,努力提高自己的思想道德素质。在行动上,我要遵守法律法规,尊重师长,团结同学,助人为乐,积极参加社会实践活动,提高自己的社会适应能力。 在学习上,我会努力学习科学文化知识,不断提高自己的学习能力和创新能力,努力提高自己的学习成绩。在生活中,我会养成良好的生活习惯,按时作息,合理饮食,积极参加体育锻炼,提高自己的身体健康。 我知道,成为“三好”学生并不容易,需要付出艰辛的努力。但我相信,只要有坚定的信念,不懈的努力,我一定可以实现我的目标,成为一名优秀的“三好”学生。 最后,我想说,无论我是否能当选,我都会以此为契机,更加努力地学习,更加严格要求自己,为实现我的梦想而努力。 谢谢大家! |
Baichuan2-13B-chat-4bits | 尊敬的评委老师,亲爱的同学们: 大家好!我是来自六年级的(你的名字),今天我很荣幸站在这里,参加我们学校举行的“区三好”竞选活动。在此,我向大家表达我最真挚的谢意和敬意。 首先,我要感谢我的老师和同学们,是他们的关爱和帮助让我茁壮成长。在六年的学习生活中,我始终严格要求自己,努力提高自己的综合素质。我热爱学习,善于思考,积极参加各类课外活动,不断丰富自己的知识面。 其次,我热爱班集体,关心同学。在班级中,我担任了(职务),为班级做出了自己的贡献。我积极参与学校的各项活动,如(活动名称)等,为班级赢得了荣誉。同时,我还乐于助人,当同学遇到困难时,我会毫不犹豫地伸出援手,帮助他们度过难关。 此外,我还是一个热爱运动的人。我积极参加学校组织的各种体育活动,如(运动名称)等,锻炼了自己的身体素质,也培养了团队合作精神。我相信,一个身体健康、精神饱满的人,才能更好地投入到学习和生活中去。 如果我有幸成为区三好学生,我将更加努力地学习,不断提高自己,为同学们树立良好的榜样。同时,我也会一如既往地关心集体,帮助同学,为班级的发展贡献自己的力量。 最后,我想说,无论这次竞选结果如何,我都会珍惜这段宝贵的经历,从中汲取力量,继续努力,为实现自己的梦想而奋斗。谢谢大家! |
Baichuan53b | 尊敬的老师,亲爱的同学们: 大家好!我是来自XX班的小学生张伟,今天我很荣幸站在这里,向大家宣布我要竞选我们区的“三好学生”。 首先,我想说的是,我热爱学习。在学校里,我总是认真听讲,积极发言,课后按时完成作业。我还喜欢阅读各种书籍,无论是文学、历史还是科学,我都充满好奇心。我相信,只有不断地学习,才能让我们的人生更加丰富多彩。 其次,我热爱运动。我喜欢打篮球、踢足球,还参加了学校的游泳队。我认为,运动不仅能让我们身体健康,还能培养我们的团队精神和竞争意识。我也希望能够把这种热爱运动的精神带到学习中,让我的生活更加充实。 再次,我热爱劳动。在家里,我会帮助妈妈做家务,还会照顾弟弟妹妹。在学校,我也会积极参加各种劳动活动,比如大扫除、植树节等。我觉得,劳动是每个人应该承担的责任,也是我们成长的过程。 我知道,要成为一名“三好学生”并不容易,但我有信心,我有这个能力。因为我热爱学习,热爱运动,热爱劳动,我有决心,也有毅力去做好每一件事情。如果我有幸当选,我一定会珍惜这个荣誉,更加努力地学习,更加积极地参与各项活动,为大家做出榜样。 最后,我想感谢我的老师们,是你们的辛勤教导让我茁壮成长;还要感谢我的同学和朋友们,是你们给了我无私的支持和帮助。谢谢大家! 请大家给我一次机会,投我一票吧!谢谢大家! |
第 1 期:10B量级开源中文对话模型,数学题下谁领风骚?
第 2 期:10B量级开源中文对话LLM,谁最「懂」人话?
第 3 期:BELLE-7B-1M 逻辑推理超预期?10B量级开源中文对话LLM,谁最「懂」逻辑推理?
第 4 期:BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?
第 5 期:Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调
微信扫码关注该文公众号作者