又一国产大模型来了,超对称联合复旦大学发布 120 亿参数语言模型 BBT-2, 已开源
来源 | 超对称技术
策划 | 刘燕
2022年5月,超对称技术公司发布大语言模型Big Bang Transformer【乾元】的第一版BBT-1,10亿参数预训练语言模型,在中文金融语料上训练而成。
近期,超对称公司再推出BBT-2,120亿参数的通用大语言模型,并在BBT-2的基础上训出代码,金融,文生图等专业模型。
Big Bang Transformer【乾元】12B大模型的开发基于英伟达的DGX算力,超对称公司主导大模型的预训练,并联合复旦大学知识工场实验室完成指令微调和评测工作。
超对称技术公司将发布基于BBT-2的系列模型(模型Index见于https://bbt.ssymmetry.com)
BBT-2-12B-Text:120亿参数的中文基础模型
BBT-2.5-13B-Text: 130亿参数的中文+英文双语基础模型
BBT-2-12B-TC-001-SFT 经过指令微调的代码模型,可以进行对话
BBT-2-12B-TF-001 在120亿模型上训练的金融模型,用于解决金融领域任务
BBT-2-12B-Fig:文生图模型
BBT-2-12B-Science 科学论文模型
另外,通过与UCloud在开源方面的合作,超对称还将3个大模型开源到官网、Github和UCloud,后续用户可直接在UCloud官方平台通过GPU云主机的行业镜像或算力平台直接开箱使用这些模型:
BBT-1-0.2B:2亿参数金融模型,包括三个不同预训练方式进行训练的模型, 训了600亿Tokens:
(1)BBT-1-0.2B-001:2亿参数,金融模型,T5 Decoder+Encoder架构
(2)BBT-1-0.2B-002: 2亿参数,金融模型,T5+GPT
(3)BBT-1-0.2B-003: 2亿参数,金融模型,T5+UL2
BBT-1-1B:10亿参数金融模型,T5 Encoder+Decoder架构,使用金融中文语料库1000亿tokens进行预训练,包含社交媒体,财经新闻,券商研报,公司公告财报等数据
BBT-2-12B-Text:120亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成2000亿token预训练,模型性能还有较大提升空间,开发者可在通用模型上继续训练或进行下游任务微调
BBT-2.5-13B-Text: 130亿参数基础模型,GPT Decoder-Only 架构,未经指令微调,完成2000亿中文+英文tokens预训
开源下载链接
模型:
官网:https://bbt.ssymmetry.com/model.html
Github:https://github.com/ssymmetry
语料库,开源了接近1000亿tokens的预训练语料,包括通用语料和金融语料,详见:https://bbt.ssymmetry.com/data.html
评测数据集,开源了8个中文金融大模型的评测数据集,详见:
https://bbt.ssymmetry.com/evaluation.html
论文链接:
https://arxiv.org/abs/2302.09432
1.BBT-2-12B-Text 通用模型
BigBang Transformer[乾元]是基于GPT Decoder-only架构的大规模预训练模型。继2022年开源BBT-1-0.2B模型之后,我们正式开源最新系列的BBT模型:BBT-1-1B,BBT-2-12B-Text,BBT-2.5-13B-Text。预训练语料库覆盖14个高质量数据源,覆盖书籍、百科、论文、小说、新闻、政策文件、中文博客、社交媒体等多个数据源种类。BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。我们暂时不开放基础模型的问答对话接口。
模型开源后所有开发者可以:
可以直接调用大模型进行对话
在我们训练的基础上使用自由语料库继续训练
对大模型进行微调训练以满足各种下游任务
2.BBT-2-12B-Text+Code 代码模型
开发者可以在超对称公司官网https://www.ssymmetry.com测试BBT模型的代码问答(仅应用于代码生成场景,无法回答与代码无关的问题)。
BBT-TC,是超对称技术公司近期发布的 BBT-2 大模型系列中的代码模型,在 百亿基座模型BBT-2-12B-Text接续训练代码数据集,通过有监督指令微调(Supervised Fine-Tuning)解锁模型的推理能力。该模型在专业评测中分数超过其他中国公司开发的同类模型,仅次于GPT-3.5。
详情可见文章《超对称技术公司的代码大模型CodeBBT在专业评测中位居前列,仅次于GPT-3.5》
3.BBT-2-12B-TF-001金融模型
超对称公司于2021年便开始针对金融投资领域的应用,着手设计和训练了一个大规模参数预训练语言模型Big Bang Transformer乾元(BBT),目前发布了Base 版本2.2亿参数和Large 版本10亿参数以及最新的BBT2,120亿参数通用模型。BBT模型的目标是为金融投资建立统一的人工智能算法框架,基于transformer构建能融合训练金融投资涉及的不同模态数据的架构。在统一架构的基础上训练大规模参数预训练模型,随着模型参数和训练数据集继续增大,超对称团队有希望开发出在金融领域接近人类智能水平的模型。作为金融领域的基石模型,BBT模型为所有金融投资,经济分析,商业咨询等场景的深度学习下游任务提供微调服务。金融投资领域有大量从业机构和人员,大厂有财力雇佣算法工程师,小团队却用不起基本的文本抽取算法。BBT模型作为金融领域的算法基础设施,让所有从业者配备同级别的武器,让全行业站在同一起跑线去竞争更优的投资策略,从而推动金融和经济市场更高效的信息和要素流动。
(1)BBT-2-12B-TF-001 金融模型有以下优势:
早于BloombergGPT一年发布的中文金融大模型
已获大量知名客户付费:包括中国的百亿量化基金和华尔街知名基金
最全金融数据集
为了更好地推进中文金融自然语言处理的发展,我们搜集和爬取了几乎所有公开可以获得的中文金融语料数据:
过去20年所有主流媒体平台发布的财经政治经济新闻
所有上市公司公告和财报
上千万份研究院和咨询机构的研究报告
百万本金融经济政治等社会科学类书籍
金融社交媒体平台用户发帖
(2)BBT-TF在公告摘要任务场景超越ChatGPT:我们使用ChatGPT和BBT-TF对同一份公告,相同输入,生成摘要并对比效果,发现BBT-TF更满足实际运用场景:
BBT-TF摘要撰写更为简洁,精准从长篇文本中抓取关键信息(上为ChatGPT,下为BBT-TF)
BBT-TF还可进行四舍五入的计算
在金融行业对数字高精度要求下,BBT-TF可对单位进行准确的换算
BBT-TF还可解读表格信息,并作出相应文字摘要
ChatGPT无法结合金融实际场景,会忽略一定关键信息
我们开发了11种已落地应用的下游任务,面向专业金融开发者API,已获得中国及海外金融机构付费
基于BBT-TF情绪计算下游任务形成成熟的因子数据集:
例:对社交媒体情绪因子进行单因子分层回测
t | IC | |
mean | 1.820765 | 0.04229 |
std | 0.35027 | 0.038295 |
category | alpha | 同向 |
returns(250days) | volatility | sharp(4%rf) | drawdown | win |
37.08% | 0.252574 | 1.309694 | -8.82% | 46.85% |
19.24% | 0.257211 | 0.592605 | -8.52% | 46.58% |
3.33% | 0.262807 | -0.025426 | -8.90% | 46.52% |
1.95% | 0.269364 | -0.076288 | -9.41% | 47.23% |
评测数据集
超对称团队针对金融行业的预训练模型发布了一套目前中文领域金融大模型最专业的评测数据集BBT-CFLEB,包含八个标准语言任务,用以衡量不同的模型的多维能力,建立了一个跨模态联合训练文本和时序数据的基于Transformer的架构,以及促进金融大模型研发。现开源于Github,同时可在BBT模型网站上查看研发细节,评测数据,不同模型排名甚至可以下载开源模型根据自己需求训练下游任务并上传展示,欢迎不同团队打榜。
4.BBT-2-12B-Image文生图模型
基于BBT-2大语言模型,超对称开发文生图AIGC模型BBT-Image,联合专业图库公司上海慧岳科技开发了面向纺织行业,印刷,广告,游戏等行业客户的应用平台ai.shenbi.pro. 经过专业评测,BBT-Image在纺织行上的应用效果比Stable Diffusion和其他国内大模型明显更优。
BBT-Image能够生成非常逼真的图像,并且具有可控的样式和风格。在纺织行业中,BBT-Image可以通过对不同纺织材料的图像进行学习,生成具有纹理(可无缝拼接)、色彩(色彩亮度不会受训练样本明暗影响,为标准化设计用样式)和设计元素(可随意组合元素)的纺织品图案,提高纺织品设计的效率和创新性。该技术还可用于家装等等需要图案设计的行业。
5.BBT-2-12B-Science 科学论文模型
大模型将成为发掘新科学规律的有力工具
快速精准的知识检索。这项能力和大模型在其他领域的对话能力相近。
针对所研究领域的前沿问题提供新的ideas. 这种新ideas产生于大模型在该领域的海量数据检索和重新组合,发现前人未发现的可能性。
利用多学科知识训练出的能力提供跨学科的建议和洞见。这项能力潜力最大。
马斯克认为AGI的终极测试是模型能发现新的物理定律。GPT-4在医生资格考试、律师资格考试、AP考试、GRE上获得不错的分数,但目前还没有证明其能有效地发现或辅助人类知识库尚未存在的知识。对于中国的大模型研发团队,直接瞄准大语言模型用于科学发现是超越GPT-4的一个可能路径。在科学研究上,研究人员可以使用语言模型来自动提取和分析论文中的主题、实验方法、结果和结论,从而发现新的科学发现和研究方向。BBT-Science大模型是基于BBT大模型在几千万篇科研论文上训练构建的辅助科学发现的大模型,应用于物理、化学、生物、数学等不同学科的科研知识问题,可以提供三方面的能力:
为了对科学大模型进行评测,超对称技术公司与复旦、上海交大、浙大、南航、中山大学、北师大等多所大学合作,正在号召全球一线的科研人员共同构建一个最大的科研问题评测数据集ResearchQA。该数据集覆盖数学、物理、化学、生物、地理地质、计算机、电子工程等主流科研领域。科学大模型将成为全球科研能力的底层引擎,带来科研生产力的加速。该数据集直接采集科研领域里前沿的研究课题作为问题,重点考察大模型回答的创新性。有兴趣提供自己科研课题的问题和答案共同构建评测数据集的科研人员可以联系邮箱 :[email protected]
计算机 | 材料 | 机械 | 环境 | 数学 | 化学 | 生物 | 物理 |
电子与通信工程 | 材料科学与工程 | 机械设计制造及其自动化 | 生态学 | 数学史 | 无机化学 | 生物科学 | 经典力学 |
应用电子技知术 | 材料物理 | 材料成型及控制工程 | 环境化学 | 数理逻辑与数学基础 | 分析化学 | 生物技术 | 热力学 |
电子科学与技术 | 材料化学 | 工业设计专业 | 环境生物 | 数论 | 有机化学 | 生物信息学 | 统计力学 |
计算机科学与技术 | 冶金工程 | 过程装备与控制工程 | 环境毒理学 | 动力系统 | 物理化学 | 生态学 | 电磁学 |
微电子技术 | 高分子材料与工程 | 车辆工程 | 环境物理学 | 泛函分析 | 高分子化学 | 整合科学 | 相对论 |
计算机辅助设计与制造 | 复合材料与工程 | 机械电子工程 | 环境地学 | 几何学 | 生物化学 | 神经科学 | 量子力学 |
在数学、物理、化学、生物、地质、地理等各个学科的前沿,科研人员与各种各样的未解之谜奋战,不断拓宽人类的知识疆界。让压缩学习数亿论文和书籍的大模型来参与对这些问题的讨论和解决,将是人类对自然界征程的其中最精彩的一幕。如以下宇宙学领域的前沿问题:
6.为模型涌现现象构建数学框架
超对称技术公司研发团队应用统计力学的相变理论和重整化群机制在为大模型的涌现现象建立数学框架。Google Brain的研究人员比较了不同大模型在各种下游任务的表现,发现大模型训练到10^22次方Flops左右的时候模型的准确率会从接近零突然跃升,目前统计了137种不同任务观察到这样的现象。对于小模型不具备而大模型具备的能力,我们定义为涌现能力。OpenAI团队在2020年的一项工作(标度律 Scaling Law)研究了大模型Loss值和模型参数大小,数据量和算力之间都存在幂次律关系。
在由物理规律控制的复杂系统中,我们发现幂次律存在于二阶相变(连续相变)的临界态中,带来临界态的标度不变性(Scale Free)现象。一般观察到幂次律意味着存在连续相变现象,比如超流体和铁磁相变都有这样的现象。而在2003年以来的生物神经元实验中,科研人员发现大脑神经元的放电也存在幂次律和连续相变,意味着大脑类似沙子堆积到一定高度自动崩塌一样运作于临界态上。重整化群是一套有效的数据工具用于描述凝聚态物理的相变和临界性。人工神经网络是对生物神经元工作机制的一种高度抽象,由于在基于人工神经网络的大模型上发现了幂次律,我们推测大模型在训练过程中也发生了连续相变,存在某种临界性。
重整化群是一种分析凝聚态物理相变和临界性的有效数学手段,成功解释了铁磁相变和超导现象,理论预测值和实验数据高度接近。科研人员已经用重整化群解释了生物神经元的临界性。因此,超对称公司研发团队正在应用重整化群为大模型的涌现行为构建数学框架,从而将微观的单个神经元和宏观的1750亿参数的大模型用数学函数关联起来。通过有效的数学框架研究涌现的底层机制,超对称公司的目标是未来实现让大模型进行可控地涌现。
你也「在看」吗? 👇
微信扫码关注该文公众号作者