Redian新闻
>
首个开源联邦大模型FATE-LLM,突破数据与算力壁垒

首个开源联邦大模型FATE-LLM,突破数据与算力壁垒

公众号新闻


01

FATE v1.11版本发布,集成首个开源联邦大模型FATE-LLM

随着ChatGPT对话机器人的横空出世,人工智能大模型在学术界、工业界以及投资界掀起了讨论热潮,一时之间,各路大模型的相继出现让人目不暇接。今日,联邦学习隐私计算开源平台FATE (Federated AI Technology Enabler)正式上线发布新版本FATE v1.11,推出了联邦大模型FATE-LLM功能模块。

基于此技术方案,多个企业可以通过FATE内置的预训练模型如GPT-2进行横向联邦,利用各自隐私数据进行联邦大模型微调。过程中使用了安全聚合(Secure Aggregation)机制对各家模型数据进行保护。相对单一企业有限训练样本,通过联邦大模型技术综合多家的训练样本,可以显著提升模型效果和稳健性。经过实践测试,FATE-LLM可以支持至少30家参与方同时进行横向联邦。

用户可访问以下网址获取发布版:
项目地https://github.com/FederatedAI/FATE/releases/tag/v1.11.0

02

为什么要做联邦大模型 

FATE开源社区技术指导委员会主席杨强教授表示:“FATE-LLM的开源,是为了解决当前大模型应用的两个瓶颈问题。首先,是构建和使用大模型时的数据隐私保护问题。多个数据源联合训练一个大模型时极有可能会暴露每个数据源的用户隐私和影响信息安全,再一次凸显了隐私保护的必要性和紧迫性。

其次,利用联邦学习来解决可用数据数量不足的问题,也为业界提供了一个前瞻性的解决方案。正如来自阿伯丁大学、麻省理工大学、图宾根大学的Pablo Villalobos等6位计算机科学家在论文《我们会用完数据吗?机器学习中数据集缩放的局限性分析》中预测,ChatGPT等大语言模型训练所需的高质量语言数据将在2026年之前耗尽1目前大多数高质量数据来源于公域数据,也就是说当公域数据消耗殆尽时,如何在保护数据隐私的前提下,合规合法地利用手机等终端设备上的私域数据,将是解决大模型训练数据不足问题的关键。
这次发布的FATE-LLM,是利用联邦学习技术来解决以上问题的初步成果,也是FATE社区合作伙伴和我们的共识。未来,我们还将研究在基于大模型的应用中,如ChatGPT,在与亿万用户的互动聊天中如何保护提问者的隐私安全问题。”



03

FATEv1.11功能介绍

1. 亮点概述
1)FATEv1.11集成了业界主流的大模型,为用户提供多种选择,其中包含GPT-2、BERT、RoBERTa等常用大语言模型。这些模型已经被广泛应用于自然语言处理、推荐系统等领域,并在不同的任务中获得了良好的效果。此外,FATE v1.11还提供主流parameter-efficient方法集成,用户可以直接在提供的模型类型上配置Houlsby Adapter、LoRA、IA3等业界Adapter主要方法进行微调,从而进一步提高联邦大模型通讯效率。相关数据请见下方数据一览。
2)model_zoo中的PELLM Model类提供了强大的语言模型,可以用于各种自然语言处理任务。用户能快速地配置联邦大模型,从而简化工作流程,提高模型的效率和准确性。这种模型的应用场景非常广泛,包括文本分类、情感分析等。由于FATE已经在大模型联邦化方面做了大量的工作,用户可以在这些联邦大模型的基础上进行微调,以适应自己的业务场景。
2. 功能一览



1) LLM支持:

  • 大模型:LLM支持多种大型自然语言处理模型,包括BERT,ALBERT,RoBERTa,GPT-2,BART,DeBERTa,DistillBERT等。这些模型被广泛应用于自然语言理解和生成任务,可以满足不同应用场景下的需求。

  • Adapter:LLM还支持多种适配器方案,包括Bottleneck Adapters(包括Houlsby、Pfeiffer和Parallel方案)、Invertible Adapters、LoRA、IA3和Compacter等。这些方案可以帮助用户在保持模型精度的同时,大幅度减少模型参数量,提高联邦训练效率。

2)Homo Trainer类改进:LLM的Homo Trainer类得到了进一步的改进,用户现在可以指定添加CUDA设备进行训练,并且可以通过多GPU设备使用Data Parallel来加速训练。

3)Tokenizer Dataset功能升级:LLM的Tokenizer Dataset功能也得到了升级,现在更好地适配了HuggingFace Tokenizer的使用,可以更加高效地处理自然语言文本数据。



3. 数据一览
1)目前支持的模型及其参数量:
目前版本支持各类经典语言模型,参数量从几十M到1.5B不等。以下给出这些的模型参数量(由于各个模型都有多个版本,仅给出常用版本的参数量):
2)目前支持的Adapter方法及其训练参数占比:
以标准的GPT2模型为例,目前使用adapter进行联邦学习,各个adapter参与联邦的参数量占语言模型的比例如下:

3) 训练时间对比

  • 场景:横向联邦场景

  • 任务类型:文本情感分类任务

  • 参与方:两个参与建模方,一个聚合服务方

  • 数据:IMDB数据集,数据量大小=25000,batch_size=64, padding_length=200

  • 环境:各个建模方使用V100 32GB x 2,局域网环境


以下是使用各个adapter的训练时间,与使用完整模型finetune的训练时间的对比(每个epoch训练时间,单位为秒)。可见,adapter + 语言模型的联邦形式,可以极大地节省训练时间。

04

开源开放,大模型发展的必经之路

FATE v.1.11为联邦大模型初步版本,未来FATE开源社区还将针对联邦大模型的算法、效率、安全等方面进行持续优化并持续推出后续版本,路线图如下:


未来,联邦大模型将有机会充分利用分散在各个组织的算力和数据,融合联邦学习和AIGC相关技术,实现异构数据分布式安全训练。我们相信这将为自然语言处理,语音识别,机器视觉等AI领域带来全新的技术范式。联邦大模型未来将有机会重塑金融、零售、工业等多个行业数字化形态。比如金融领域中智能客服、内容风控、金融资讯情感分析,文本意图识别,营销场景智能创意生成和优化等场景将会得到显著的效果提升。

取之于开源,用之于开源。FATE开源社区欢迎更多的用户和开发者加入。在获得项目发展成果的同时,以参加项目等方式回馈社区。形成良性循环,推动社区生态健康发展!

参考资料:

1. Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. 
https://arxiv.org/abs/2211.04325

您可以通过以下方式联系FATE开源社区:

官网:

https://fedai.org/ 

Github:

https://github.com/FederatedAI/FATE

公众号:

FATE开源社区

开源社区用户组:

[email protected]

开源社区维护者:

[email protected]

开发专委会:

[email protected]

运营专委会:

[email protected]

安全专委会:

[email protected]


欢迎加入FATE联邦学习官方交流群,添加FATE小助手微信号(FATEZS001)即可。


END

【github直达】:阅读原文或复制链接https://github.com/FederatedAI/FATE即可,点击star,方便下次使用。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能特朗普因处理机密文件不当被联邦大陪审团起诉,刑期最高可达100年巴黎市长将重修Châtelet 广场以方便行人以 LLM 为核心 LLM@Core:程序员的大语言模型技术指南Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图梦红薯智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线2023年第三届人工智能、大数据与算法国际学术会议Belmont公私校大对比:Belmont Hill vs Belmont High太清闲了,学人做卡通玩大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩李嫣不再隐瞒,说出王菲李亚鹏分手真相!怪不得谢霆锋不肯娶王菲军旅故事原创系列(41)因公牺牲的小猪【城事】巴黎市长将重修Châtelet 广场以方便行人从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比H800国内首发!腾讯云推出大模型算力集群,集群算力提升3倍谷歌没开源的PaLM,网友给开源了!千亿参数微缩版:最大只有10亿,8k上下文美国入境档案--闵嗣鹤1947年纽约迎向浪潮之巅,GOTC 2023 数据与数据库技术专题论坛即将召开中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型Stable Diffusion公司重磅开源大语言模型StableLM,又爆火了!国内首个开放公测的大模型产品上线,接入通义千问理解与摘要能力 | 新闻斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一特检官对特朗普调查持续 梅多斯向联邦大陪审团作证Stability AI发布语言模型StableLM,能力不及ChatGPT,但胜在开源每一个人的大模型:开源BELLE项目集训练、数据、模型、评估、APP一体首个开源中文金融大模型来了!解释授信额度、计算收益率、决策参考样样通,来自度小满|附下载一次旅行花了50万美元!美国联邦大法官突陷腐败丑闻,长期接受共和党捐赠人的资助…(附视频&解说稿)全球首个开源“福利姬”诞生:自愿共享私密数据,方便网友制作 AI 擦边图
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。