蚂蚁「隐语」开源,迈过隐私计算的「界河鸿沟」
编辑 | 林觉民
这是蚂蚁在隐私计算领域迈出的崭新一步。7月4日下午,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架“隐语”。自2016年起,蚂蚁就开始推进隐私计算技术及其规模化应用,而“隐语”几乎涵盖了当前所有主流隐私计算路线,可满足各场景不同需求。
过去两年,国内大批隐私计算厂家涌入隐私计算领域,而以蚂蚁集团等为代表的“大厂”科技公司因为较早入局,逐渐成为隐私计算市场的主力。此前曾有机构预测,隐私计算是一个百亿级的市场,但根据最新IDC调研发现,从收入形态而言,市场收入主要来源于产品售卖或平台建设方面,大量技术服务商的营收规模仍然处于亿级以下水平。
原本百亿市场规模的隐私计算市场,为何营收过亿的服务商寥寥无几,即便是较早入局的隐私计算厂家也没能取得优势。隐私计算虽然能在不知“富翁”财产的情况下计算出谁更有钱,但应用场景落地难的问题,也成为该领域进一步发展的“界河鸿沟”。
究竟是技术开发使用门槛高、抑或是数据要素行业原本就存在互信难、确权难、监管难、定价难等问题,我们无从辩驳。但有一点可以明确,该技术如果只掌握在少数寡头手里,我们还是实现不了真正的数据流通,而唯有“开源”是降低门槛的一个有效手段。
“隐语”框架负责人、蚂蚁集团隐私智能计算部总经理王磊也告诉雷峰网:“不开源的框架是得不到用户信任的,这也是隐语开源的原因之一。”
1
隐语开源“恰逢其时”
数字经济时代,数据成为新的生产要素,数据只有流通和共享才能发挥更大的价值,那么如何让数据发挥价值的同时又能保护数据的安全和隐私?隐私计算技术(又称:隐私保护计算)就像一个“引弹”,让整个业界开始沸腾。
准确来说,隐私计算不是一种技术,而是多种技术融合的统称,包括TEE(可信执行环境)、MPC(安全多方计算)、联邦学习、同态加密等。也正是因为其技术路线的复杂性以及高昂成本,让众多企业望而却步。
举一个例子 ,在隐私计算技术的开发过程中,开发者需要有一个技术框架,用来基于实际业务场景、以及功能来设计。而实际情况是,如果开发者想使用联邦学习,那么就要使用A框架来做研发;如果想使用多方安全计算,那么又要使用B框架来做研发,如果想使用可信硬件,还要去熟悉所选硬件的架构才能真正开始使用。但现实的业务需求是,经常是需要多个技术一起来使用的,那么这时候就会出现繁琐、重复的开发工作量。
而“隐语”可以让开发者收获“开箱即用”、更加兼容通用的开发体验。同时,提供丰富的联邦学习算法和差分隐私机制,技术能力涵盖了多方安全计算、联邦学习、同态加密、差分隐私、机密计算等,供开发者灵活选择,开发者可以简单、快速上手,大大降低了算法、研发技术人员使用隐私计算技术的门槛。
“隐语”开源恰逢其时。开源一方面可以规避后门风险,破除信任难题;另一方面开放透明人人可以参与,系统的可持续发展性得到保障。
而在王磊看来:首先从技术层面,如果别人看不到我们的代码,就不能确认产品的安全性,那又谈何信任。只有以开源共享的方式,吸引更多优秀的开发者加入,才能凝聚技术合力降低隐私计算开发者和使用者的技术门槛。
其次从产业层面,只有整个隐私计算行业发展好了,我们才能做更多的事情。隐语开源,就是希望能够通过开源共享回馈行业,推动技术产品化、规模化应用落地,构建商业生态,最终推动整个隐私计算行业的发展。
目前,“隐语”已向社区开放了多方安全计算和联邦学习的核心代码。对于算法/模型研发开发者,可以使用隐语提供的编程能力,方便快捷地将更多算法和模型迁移来,并得到隐私保护增强。对于底层安全开发者,可将底层密码/安全研究成果嵌入隐语,完善密态设备的能力、性能和安全,转化实际业务应用。
2
隐语开源的底气
当隐语框架2年前决定开源,就注定踏上了一条不平凡之路。
蚂蚁集团副总裁兼首席技术安全官、隐语开源指导委员会主席韦韬曾表示:“2022年整个数据行业将迈向“数据密态时代。”过去在数据要素行业,数据易复制,而明文流通易导致分发失控。若数据以密态形式流通,可以保障其流转、计算、融合到销毁全链路安全可控;并保证数据要素持有权和使用权分离,进而支持数据要素产业更加安全健康的发展。
迈进数据密态时代,蚂蚁集团看到,隐私计算技术需要进一步升级,“可信隐私计算”是非常重要的方向。而隐语毫无疑问成为了其技术支撑底座。
在经过蚂蚁集团内部大规模业务以及外部金融、医疗等场景的淬炼,可信隐私计算框架“隐语”,拥有了卓越的安全性和性能,可支持大规模数据集。具体来看主要有以下几大优势:
完备性:针对隐私计算技术方向多,且各方向优劣势不同的问题,通过密文计算设备对不同技术进行抽象,使得同一套框架能支持所有主流的隐私计算技术,且可以灵活组装,以适应不同场景的需求;
透明性:针对隐私计算技术底层技术与上层应用耦合性强,导致每种底层技术的更新都重复开发上层应用的问题,通过编译器和IR层的抽象,将底层协议与上层应用分离,上层可以对接传统数据处理的SQL、Pytorch、TF、JAX框架,底层安全协议和技术的更新上层不感知;
开放性:针对当前隐私计算没有可以容纳多方共同参与开发的良好抽象的框架,通过明密文编程范式的抽象,使得非安全背景的开发者也可以开发出安全的隐私计算算法;
联通性:针对多种隐私计算技术无法互通的问题,采用混合协议设计,使得不同隐私计算技术之间的数据也可以相互联通,让组建大型数据网络成为可能。
隐语所做的事情,一方面是将隐私计算所涉及的各主流技术分支分别抽象为加减乘除等具备基础功能的“设备和原语”,基础符号越多意味着组合计算的方式越多;另一方面,是继续向上建设AI & BI 隐私算法层,提供像勾股定理一样的具备特定功能的公式,这些公式开箱即用,可供我们在解决完整的应用题时自由调用。
本次隐语的开源内容如上图中的点亮模块,主要包含以下要点:
1. MPC设备。支持大部分Numpy API,支持自动求导,提供LR和NN相关的demo,支持pade 高精度定点数拟合算法,支持 ABY3、 Cheetah 协议。用户可以采用传统的算法编程模式,在不了解MPC协议的情况下开发出基于MPC协议的AI算法; 2. HE设备。支持Paillier同态加密算法,向上层提供Numpy编程接口,用户可以使用Numpy接口做矩阵加法或者明密文矩阵乘法运算。且实现了与MPC密态设备之间的数据可流转;
3. 差分隐私安全原语。实现了一些差分隐私噪声机制、安全噪声生成器、隐私开销计算器;
4. 明密文混合编程。支持中心化编程模式,使用@device标记构建明文和密文设备混合计算图,基于计算图进行并行、异步任务调度;
5.数据预处理。提供水平场景下的数据标准化、离散化、分箱功能,提供垂直场景下的相关系数矩阵、WOE分箱功能。无缝对接已有的dataframe,提供和sklearn一致的使用体感;
6. AI & BI 隐私算法-多方安全计算。提供水平场景下的XGBoost算法、新增垂直场景下的HESS-LR算法,并结合差分隐私增强了对拆分学习的隐私保护;
7.AI & BI 隐私算法-联邦学习。提供联邦学习模型构建和包括SecureAggregation,MPC Aggregation, PlaintextAggregation在内的多种安全模式的梯度聚合,用户只需要在模型构建时给出参与方list和聚合方法,之后的数据读取,预处理到模型训练的体验和传统明文编程几乎一致。
目前,隐语框架已经制定了后续版本将逐步开源的既有内容;随着隐语开源,更多的需求和建议将被提出,隐语这一社区将探索更大的成长空间。
3
六年规模化应用探索之路
隐私计算目前面临着定制化程度高、没有标准化的产品,难以规模化发展的问题。王磊表示,“很多时候定制化的产品利润率非常薄,未来如果要实现隐私计算大规模应用,除了产品标准化之外,还需要做很多超出隐私计算之外的事情,只有大家群策群力才能助力国家数据要素市场化建设。”
2016年,蚂蚁的隐私计算就开始了规模化应用探索之路,在这期间蚂蚁集团在隐私计算领域逐步推出了摩斯多方安全计算平台,可信隐私计算框架隐语、蚂蚁链数据隐私协作平台FAIR、蚂蚁隐私计算一体机等产品。
据介绍,在众多产品中,蚂蚁隐语主要解决的技术先进性问题,就是底层技术的长期发展。拿摩斯多方安全平台来说,它是一个商业化的产品,所以摩斯跟隐语也可以被认为是上下层的战略模式,摩斯是上层的隐私计算产品,蚂蚁会在其他方面支撑,包括提供蚂蚁链的计算、隐语技术产品升级等。
另外,隐语框架的另一大亮点,就是集合了阿里巴巴双子实验室的Cheetah(猎豹)安全两方计算协议,该框架性能比目前世界最好的计算方案——微软CryptFlow2快5倍以上,通信量少90%。阿里巴巴集团安全部资深安全专家洪橙告诉雷峰网:“隐语团队非常擅长框架能力和机器学习算法,猎豹团队则擅长密码技术相关的能力,两方强强联合,能发挥隐语和猎豹最大的影响力。”
那么,蚂蚁可信隐私计算框架“隐语”能够做什么呢?针对不同的应用场景,蚂蚁可以基于隐语的技术框架构建相应的产品。
目前隐语已经在联合风控、政务数据、联合营销等业务场景中得到了成熟的应用。在金融、医疗等领域也有成功的大规模落地经验、支持了浦发银行跨机构数据流通、浙江某三甲医院医保 DRG(Diagnosis Related Group,疾病诊断相关分组)改革,获得过中国信通院颁发的 “星河案例” 奖,CCF 科学技术奖科技进步优秀奖、中国网络空间安全协会 “数据安全典型实践案例”,入选了工信部 2021 年大数据产业发展试点示范项目名单等。
例如,医保DRGs分组器初始版本,成功实现多家医疗机构数据进行联合训练,在保护患者隐私前提下,增加样本数量、扩大数据规模,通过更为准确的DRG分类模型帮助医疗机构提升预测准确率,对于优化临床路径、规范诊疗行为、提高服务效率有显著的作用。
4
开源成为应用落地和生态构建的关键
如果一个公司仅仅关注自己的技术而不去关注市场的走向、别人的需求,那么它往往会做出一些很高端的软件,但使用者却少之又少。而蚂蚁集团等科技公司,开源自己的学习框架,在提升行业热度、价值落地和生态构建中发挥着积极的作用。
目前隐语社区已经成立,蚂蚁集团及隐语也将在多个方面与开发者、研究者联动共建隐私计算生态:
其一是围绕隐私计算这一技术核心通过多种渠道以文字、视频等多样的内容,普及这一技术,通过开放的交流探讨增强生态中各界之间的粘度;
其二是在普及之上,联动高校科研等科研机构,形成产业视角与教学视角的结合,打造一套体系化的隐私计算教学材料,助力社会培养会用隐私计算的人才体系;
其三是在会用之上给予实质性的孵化支持,即设立隐私计算科研基金,公开招募、评选、扶持有创新有价值的项目深度发展。
最后,王磊强调:“开源最重要的目标,是能够吸引更多的人进来一起合作,这不是蚂蚁集团一方的事情,而是多方合作的事情,是让隐私计算行业能够得到认可,大家都能够在上面做贡献,这是比较最重要的一点。”
END
涂鸦:千亿变百亿的「傲慢与偏见」
智能运维行业乱象:估值虚高、上市受阻、裁员频现
爱奇艺往事:多少过错,多少错过
微信扫码关注该文公众号作者