Redian新闻
>
GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

公众号新闻

机器之心专栏

作者:钟格非 (港中文深圳本科生)

港中文(深圳)“凤凰 “多语言大模型,中文效果逼近文心一言,多种语言开源 SOTA;英文版”Chimera” 逼近 ChatGPT(GPT4 评测认为其有 96% GPT 3.5 Turbo 效果),数据模型训练将全开源。


背景介绍

ChatGPT 和 GPT-4 的问世,被比尔・盖茨誉为自 1980 年以来最大的科技革命。近日,相关技术和科研以 "天" 为单位快速迭代,每天都有新的类似 ChatGPT 的模型发布。其中包括 Alpaca、Vicuna、Dolly、Belle、Baize、 Guanaco 和 LuoTuo 等。

近期备受关注的是来自香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大语言模型,其中文效果接近百度文心一言,GPT-4 评测达到了 97% 文心一言的水平,在人工评测中五成不输文心一言。  


此外,维护 Phoenix 和 Chimera 大模型的 github 仓库取名为 “LLM 动物园”,其中还包括其他相关即将发布的模型,如医疗领域的华佗 GPT 模型(huatuogpt.cn)、法律 GPT 模型、多模态大模型和检索增强的大模型等。具体请见其 Github 主页的技术报告。


项目地址:https://github.com/FreedomIntelligence/LLMZoo

名字的哲学:凤凰和奇美拉

阻碍大模型发展最大的瓶颈是没有足够的候选名称可用于命名语言模型,LLAMA、Guanaco、Vicuna 和 Alpaca 已经被使用了,而且骆驼家族中已经没有更多的成员了。王本友教授团队将多语言的大模型命名为 “凤凰”。在中国文化中,“凤凰” 通常被视为鸟类之王的象征。正如成语所说,“百鸟朝凤”,表明它能够与说不同的语言的鸟类沟通,称凤凰为能够理解和说出数百种(鸟类)语言的模型。更重要的是,“凤凰” 是 “香港中文大学(深圳)”(CUHKSZ)的图腾,开发团队来自这个高校。

专门针对拉丁语的 “凤凰” 版本被称为 “奇美拉”。奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚的不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化的传说生物。将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI 的 AI 霸权。

凤凰的技术特点

 Phoenix 模型有两点不同之处:

(1)微调技艺:指令式微调与对话式微调的完美结合

Phoenix 模型在后训练阶段精妙地融合了基于指令的微调(Instruction-based tuning)与基于对话的微调(Conversation-based tuning),实现了两者优势的有机互补。这一结合使 Phoenix 模型在处理各类问题时具有更高的灵活性和应变能力。以 Alpaca 为代表的基于指令微调方法能够使得语言模型严格遵循人类指令,有效满足用户的信息需求;以 Vicuna 为代表的基于对话的微调方法则能够提升模型与用户自然交流的能力,提升用户的对话交互体验。凤凰模型将两者结合,不仅提高了模型的实用性,更增强了其在各种应用场景的竞争力。

(2)驾驭多语言:四十余种语言的全球化视野

Phoenix 模型坚持拥抱全球化视野,在预训练(Pre-training)与后训练(Post-training)阶段均广泛运用多种语言的训练数据。这使得 Phoenix 模型在多语言场景下表现出色,能够满足全球使用者的需求。在预训练阶段, Phoenix 模型采用 BLOOM 作为基座模型,相较于仅使用拉丁语系数据训练的 LLaMA 模型, BLOOM 模型在包括拉丁语系和非拉丁语系的多种语言训练数据上训练而成,因此将其作为基座的凤凰模型对于非拉丁语系用户更加友好。在后训练阶段,凤凰模型的指令数据集和对话数据集都涵盖了超过 40 种语言的训练数据,进一步拓展了其多语言的支持能力。因此,凤凰模型不仅在英汉语言上表现卓越,还在已评测的十余种语言中,相较于其他开源模型具备显著优势。

实验结果

中文


团队成员采用与 Vicuna 一致的评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中的性能表现进行了自动评估。图中展示了 Phoenix 在中文语境下与流行的中文模型的对比结果。Phoenix 超其他流行的中文开源模型(包括 BELLE -7B 和 Chinese-Alpaca-13B 等)。这表明,尽管 Phoenix 是一个多语言的模型,但在所有开源的中文模型中,它实现了 SOTA 级别的性能。与其他开源的模型相似,Phoenix 面对 ChatGPT 和文心一言等闭源大规模语言模型时略显逊色(ChatGLM-6B 未开放数据和训练细节,只开源了权重,暂归为半闭源模型家族),但在效果上已能媲美百度开发的文心一言,人工评估中近三成例子比文心一言的输出更好。

多语言

除了中文,Phoenix 在多种语言上表现优异,包括但不限于西班牙语、法语、葡萄牙语、阿拉伯语、日语和韩语,涵盖了拉丁语系和非拉丁语系的多种语言。这是因为 Phoenix 在预训练阶段的基座模型、后训练阶段的指令式微调和对话式微调三个方面都采用了多语言的训练数据,使得其成为真正意义上的第一个多语言开源类 ChatGPT 大模型,为非拉丁语系的人群带来福音。特别地,Phoenix 模型的基座采用 BLOOM 模型,对商用更加友好,对普及 ChatGPT 至世界各个角落,特别是 OpenAI 限制的国家具有显著意义。想象一下,像灯泡和疫苗等现代科技产品都普及到了几乎所有发展中国家,划时代的 ChatGPT 同样应惠及全球所有人口,这正是 "democratize ChatGPT" 浪潮的应有之意。

英文

英文方面,在使用 GPT-4 进行评测时,Phoenix-7B 模型的表现超过了 Vicuna-7B 和 ChatGLM-6B,但略逊于 Vicuna-13B。造成这种差距的原因可能有多方面,一方面是模型大小仅为 Vicuna-13B 的一半;另一方面,作者认为 Phoenix 是在多语言环境下训练的,因此额外支付了 “多语言税”(multi-lingual tax),导致其主语言(英语)的表现不如专门针对拉丁语言(英文属于拉丁语言)的 Vicuna-13B。

为了抵消多语言税的影响,作者将多语言的基座模型(BLOOM)替换为仅包含拉丁语言的 LLaMA 模型,以测试其在拉丁语系,特别是英语上的表现。这个拉丁语言版的 Phoenix,被称为 “Chimera”(奇美拉)。再次使用 GPT-4 进行测试,Chimera 的表现达到了 96.6% 的 ChatGPT 水平,略超过 Vicuna-13B 和 BARD 等模型。


人工评测

虽然上述的自动评测方法源自 Vicuna 的评测方式,即用 GPT-4 作为评估模型进行评测,但是使用的评测数据无论是类型还是数量都是偏少的。出于对评估可靠性的进一步考虑,香港中文大学(深圳)的团队采用人工评测的方式来评估中文大模型。人工评测的结果与 GPT-4 在中文大模型评测的结果高度一致。人工评估效果顺序为:ChatGPT、ChatGLM-6B、文心一言、凤凰、BELLE 和 Chinese-LLaMA-Alpaca -- 这与 GPT 4 的评测一样。这也是首次将 GPT-4 的结果与人工评估结果进行比较的研究。


综上所述,Phoenix 和 Chimera 等开源大语言模型在中文和多种语言环境下都展现出了优异的表现,无论是在中文开源模型中还是在拉丁语系中。这些模型的发展将有助于推动 ChatGPT 技术在全球范围内的普及,让更多人受益于这一划时代的科技成果。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅!Meta开源DINOv2视觉大模型!无需微调,效果惊人!阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl辟谷十四天,记录一下。这个情人节过得比较辛苦智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线AI 免费设计 LOGO 效果惊艳,雷军 200 万花早了博士申请 | 香港中文大学(深圳)纪冬旭老师招收全奖博士/硕士/博后/RA韦神出的这道题火了,GPT开源版ChatGPT来了?多数任务效果超越GPT3,已开源!7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型二年级选课,忽闻一夜 GPT 来,千课 万课 AI 开网易伏羲中文预训练大模型“玉言”问鼎中文语言评测分类冠军:参数达 110 亿,浪潮提供 AI 算力支持Gpt 4一出,谁与争锋当老物件重新设计…效果惊艳!ChatGPT核心方法可用于AI绘画,效果飞升47%,通讯作者:已跳槽OpenAI2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载ChatGPT惹怒主流媒体!华尔街日报、CNN授权费都没付!马斯克:ChatGPT好得吓人;用户吐槽:它有时会一本正经的胡说八道开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT​GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了AI免费设计LOGO效果惊艳,雷军200万花早了识别「ChatGPT造假」,效果超越OpenAI:北大、华为的AI生成检测器来了《炸北溪》电影中所有人物介绍大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源我那些没有天赋的短板!SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了吗?一文总结超分辨率分析必备经典模型(三)这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3GPT【游记】第三个夏威夷(1):异境大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools7 Papers | GPT-4等大模型自己制作工具;识别ChatGPT造假博士申请 | 香港中文大学(深圳)韩俊老师招收深度学习全奖博士/博后/RA叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能LLaMA模型惨遭泄漏,Meta版ChatGPT被迫「开源」!GitHub斩获8k星,评测大量出炉IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4博士申请 | 香港中文大学(深圳)林天麟老师招收人工智能全奖博士/RA/实习生美工失业预告?Photoshop推出P图专用AI,效果惊人到可怕!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。