Redian新闻
>
度小满“轩辕70B”金融大模型开源!登顶两大权威测评榜单,所有用户均可下载

度小满“轩辕70B”金融大模型开源!登顶两大权威测评榜单,所有用户均可下载

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

最新开源的金融行业大模型,来了!

度小满近日推出全新的金融行业大模型——“轩辕70B”,标志着金融大模型发展迈向了全新的高度。

“轩辕70B”拥有强大的通用能力,在各项开源模型评测中位居前列:

在中文任务评测C-Eval和CMMLU榜单中名列开源首位。

此外,“轩辕70B”的强项在于其专业的金融能力,受益于海量金融专业语料库的训练,无论是注册会计师考试(CPA)、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域十大类权威考试,都能提供专业的支持和解答。

总结来看,“轩辕70B”拥有以下特点:

  • 首个拥有70B参数量级,并且上下文长度能达到8k以上的开源大模型。

  • 在预训练阶段融入了大量的专业金融语料,以实现在维持中英文通用能力的同时,显著提升金融专业性能。

  • 模型训练采取了一系列的加速优化策略。在100台8卡A800(80G)的GPU集群中,“轩辕70B”在8192的上下文长度下能够达到340tokens/s/gpu的速度,TFLOPS达190,训练效率达到领先水平。

值得一提的是,这款模型目前已在开源社区进行了全面开放,包括模型权重和训练语料,为整个金融行业提供了一个全新的、更高效的中文基座模型,后续用户也可以根据自己的需求进行自定义的指令微调。

评测表现

下面我们来看一下“轩辕70B”的表现。

(一)卓越的通用能力,多个测评榜单领先

  • C-Eval 是一个全面的中文基础模型评估基准。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别

  • CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。

度小满数据智能应用部总经理、技术委员会执行主席杨青表示:

度小满将继续忠实于开源的理念,致力于为金融机构和研究团队提供高性能、易用的金融大模型。我们仍将不断优化轩辕70B的效果,并逐步推出‘轩辕70B-Chat’模型和‘轩辕70B-16k’的版本,以满足不同金融场景的需求。

人工进行主观测试,“轩辕70B”在各类问题都有良好的表现。

a. 数学计算

b. 代码

c. 安全性

(二)领先的金融实力

度小满专注于解决大模型在金融领域应用的核心难题。传统的通用大模型在金融场景中的局限性主要体现在对专业术语、业务逻辑和公式计算等的缺乏深入理解,从而使其在多数金融问题上表现不佳。这一挑战进一步凸显了构建针对金融行业的专用大模型的迫切性。

在金融应用场景中,模型的效用往往取决于其对于金融专业知识的深度掌握。金融行业涉及多个子领域,包括但不限于理财、信贷、保险、和投资。

为了全方位评估模型在这一特定环境中的性能,“轩辕70B”特地制定了一套中文金融领域知识评估数据集。

这一数据集涵盖了10个金融大类以及36个金融小类,包括7173个单项选择题,全面覆盖了从注册会计师(CPA)考试到银行、证券、保险、基金、期货从业资格,再到理财规划师、经济师等多个权威金融认证。

结果显示,“轩辕70B”在金融专业知识方面表现卓越,全面超越了各大开闭源模型,这一结果不仅验证了模型在金融各子领域的深度理解和应用能力,也标志着它能为金融行业提供一体化、系统性的专业支持。该评测数据集也已经对外开放,以供社区自行评测。

为更生动地展示“轩辕70B”的金融实力,以下举例几个应用实例:

a.金融知识类

该模型在回答金融知识类问题,如“金融监管治理的四大要素”时,不仅答案准确,还深入解析了每个要素的具体含义和重要性。

b.金融计算类

金融行业有大量的计算场景。在处理金融计算类问题时,该模型不仅提供了准确答案,还一步步展示了其逻辑推理过程,证明了其在复杂金融推理任务中的强大能力。

“轩辕70B”不仅开源了模型本身,还额外提供了一个60GB的高质量金融专用语料库,并已对外开放下载。

Github链接
https://github.com/Duxiaoman-DI/XuanYuan

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《博德之门3》在线人数再创新高!《守望先锋2》登顶差评榜!视觉小说节凌晨结束!度小满CTO许冬亮:金融行业是大模型落地应用的高潜场景,但有三大挑战需解决土耳其索菲亚大教堂全球首个可商用生物医药大模型BioMedGPT-10B开源数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品20B跨级挑战70B性能!国产开源大模型打造大模型新标杆北京内推 | 度小满科技数据智能应用部招聘AIGC/CV方向研究型实习生国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70B最强开源大模型刚刚易主!李开复率队问鼎全球多项榜单,40万文本处理破纪录直奔价值创造,蚂蚁发布金融大模型及应用阿里云通义千问开源;腾讯混元大模型开始应用内测;马斯克或从OpenAI买入域名Ai.com丨AIGC大事日报5123 血壮山河之武汉会战 富金山战役 11NTU华科等最新研究:全自动化「提示越狱」,能打败大模型的只有大模型!登安全顶会NDSS原创《思考陆扬的“晚唐清流文化”》​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了王石辟谣在日本换心脏;蚂蚁发布金融大模型产品;华为Mate60 Pro+、Mate X5开始预定丨大公司动态度小满杨青:业界在探索大模型应用时存在一定误区苹果将在法国发布更新解决辐射问题,腾讯成为亚运会转播商,天猫精灵拟更名并接入大模型,2K成为差评榜一,这就是今天的其他大新闻!一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题都回来了,《三国杀》重新登顶差评榜!《合成大欧派》网页游戏上线!工作重要,还是妻子重要Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了金融校招 | 度小满2024校招火热进行中,独角兽公司,一线城市工作机会,适合留学生开源大模型FLM-101B:训练成本最低的超100B参数大模型贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax金融大模型蓄势待发2023“雷军年度演讲”在今晚7点举行;讯飞星火位列国产主流大模型测评榜首位|绿研院日报腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报36氪首发|OpenCSG完成数千万元天使轮融资,打造大模型开源社区与垂直行业模型波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布首富的傲娇和价值观
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。