蚂蚁集团陈锣斌:揭秘新一代智能风控的全局视角
陈锣斌:我目前主要负责蚂蚁集团大安全技术架构的工作,包括整个安全架构的相关规划、设计治理等;同时也是风控平台技术团队的负责人,带领团队共同支撑业务发展,打造业务需要的各种平台能力。
陈锣斌:我刚开始参与蚂蚁风控平台建设的时候,是属于支付宝从单体应用拆分成多个子系统,走向 SOA 化的尾声,风控应用从交易系统中拆分了出来,有了独立的风控服务。第一次参与风控平台(风控二代平台升级到三代平台)换代就是这个时候,主要是风控完成了 SOA 化拆分后,开始更独立更完善的建设整个风控体系。主要的工作就是平台化,把风控领域的应用做更好的抽象,按照不同的领域抽象出了多个平台;
随着风控三代平台建设完成,支付宝的业务也发展到新的阶段,风控系统也面临新的挑战:
一方面蚂蚁开始了国际化,我们在国内建设的各种平台,很难快速地复制到海外,基础设施也不一样,难以支撑业务发展的需要;
蚂蚁业务发展的同时,风控能力也在不断增强,随之而来的用户体验要求也越来越高,过往以策略规则为主的风控体系开始难以满足业务精细化管控的诉求,庞大的策略规则网络混杂一起,调整起来牵一发而动全身,攻防应对慢,体验也到了瓶颈;
蚂蚁开始全面向无线时代转型,以往建设的安全服务能力已经不能适应无线时代发展的需要;
随着支付宝的普及,安全在支付宝愈发显得重要,如何提供更可靠的不间断的安全服务,支撑诸如淘宝双十一、双十二、618 等超大流量的活动,并保障合理的技术成本,成为当前的关键挑战之一。
这些因素下,进行了风控平台四代的升级,核心解决几个问题:
风控业务升级了分层运营体系;
技术平台上,进行了组件化的沉淀和封装,可以快速地把核心组件复用到全球;
在原来规则为主的运营体系上,沉淀出独立的特征变量体系,推进模型平台的升级,促进安全数据化升级;
底层部署架构上,完成多机房、多活、多中心改造,风控具备异地多活能力。
这就是风控的四代平台 UCT。
五代风控平台则相对比较明确,就是智能化,全链路的智能化。围绕着全链路的风控运营,全面加强自动化智能化的设计,让很多原来需要人工分析和运营的事,用 AI 来助力,这就是五代风控平台 AlphaRisk 风控引擎,风控开始探索风控领域的无人驾驶技术。通过 AI 策略推荐,“一键推荐”安全与体验平衡的最优风控策略,风险管理智能化等。
我自己参与的三代风控平台建设大体如此,三代平台是完成平台化建设,四代平台是分层化、组件化、数据化,五代则是智能化。
陈锣斌:UCT 平台的升级过程比较复杂的,业务上技术上都如此,我当时负责风控数据计算体系,两件事令我印象深刻:
三代风控平台里,风控并没有独立的特征、变量体系,基本上可以说数据是融入在规则体系里面的,现在要开始数据化升级,首先就是要把原来规则里面的“数据、变量”给梳理出来,在原来笼统的规则逻辑中把变量给理出来,这个事情基本就是在项目组里,技术、业务、产品一起,梳理了大半年,每天一起推演逻辑和讨论,最后又经过了几次迭代升级才完成了。
另外就是 UCT 平台阶段,风控系统的多数据中心改造,蚂蚁内部称为 LDC 改造,这些建设升级复杂度都很高,涉及了整个安全的所有系统,并且存在极大的稳定性隐患,在项目快上线的时候,已经做了非常多的演练和灰度引流验证。但没想到实际项目的正式上线非常戏剧化,本来项目还在线上做最后的灰度引流比对,线上突然发生了机房的存储系统故障,为了防止系统风险扩大,项目组决定提前上线风控的多中心,直接切流到异地的数据中心。阴差阳错地,风控系统的多数据中心,多活能力就上线了。机房切换后故障恢复,业务也正常。这看似运气的背后,其实是之前整个项目建设过程中,做好了各种灰度比对,容量分析等各种细节的工作。
陈锣斌:除了参与风控几代平台的建设,我印象比较深的项目还有「蚂蚁入侵检测与响应平台」、「风险实时数据平台」。
先说风险实时数据平台,前面提到风控的几代平台的演进,这背后其实很关键的也是风控的数据计算能力的升级,风险实时数据平台就是为风控引擎提供强大的实时计算和服务能力。随着风控业务的发展,我们在一次识别风险的过程中使用到的数据指标越来越多,与此同时我们还得保障实时风控的性能在百毫秒、甚至是十毫米的响应能力,我们构建的风险实时数据平台,最早就是统一了大安全的相关数据服务,后来围绕着计算我们构建了风险累积,名单,实时图查询等各种数据产品,最后把整体平台等能力进行升级构建了蚂蚁安全的变量中心,为蚂蚁安全的数据化、智能化发展打下了坚实基础。
蚂蚁入侵检测与响应平台跟风控系统有点不一样,偏基础安全板块。过往蚂蚁的安全工程师做入侵检测,有不少零散的平台,安全工程师也会自己直接在离线数仓,或流式计算引擎上(如 Jstorm、Spark、Blink 等)构建自己的安全入侵检测能力,但缺少一个统一的大平台来支持他们的入侵安全检测业务,我在业务风控领域的数据计算有一些经验,和安全工程师也经常交流,就来协助参与建设这。经过一年多时间的打磨,我们先构建起基础安全基于大数据计算适合安全工程师使用的计算底座—— AlphaSec。基于 AlphaSec,我们打造了各种攻防运营、风险分析能力,引入安全业界比较有名的 SOAR (Security Orchestration, Automation and Response) 安全编排与自动化响应能力,蚂蚁的「反入侵平台 AntXDR」逐步成型。
陈锣斌:蚂蚁集团充分地认识到网络信息安全在业务发展中的战略地位和对业务的支撑作用,为了更为有效地保障业务安全稳定运行,建立了规范的网络与信息安全风险管理组织架构。整体以十四五规划中关于网络安全、数据安全的政策指引为纲领,严格遵照《网络安全法》、《数据安全法》、《个人信息保护法》等法律法规要求及监管发布的安全标准和规范执行。
尤其在数据安全方面,进一步融合了个人信息保护领域的标准要求,建立以《数据安全管理总则》为总纲,覆盖数据全生命周期(分类分级、采集、传输、存储、使用、输出、共享、销毁、权限管控、监控审计、事件应急、员工管理、合作方管理)的数据安全管理制度,将安全责任落实到人,形成了高效执行的数据安全组织管理体系。
数据安全技术方面,通过数据识别、分类、分级,对数据在业务流程中的传输、存储、处理、展示等阶段进行分级管控,以加密加签、访问控制、内部授权查看、展示屏蔽、输出控制等维度保护数据的机密性与完整性。同时部署数据库审计系统,准实时发现数据异常访问,防止数据异常泄露。
网络安全防护方面,上通过异常流量清洗、网络安全域划分、网络访问控制策略等技术手段进行互联网攻击防御。生产网内部,按照安全级别分为网络核心区、生产区(含应用区、数据库区、运维管理区)以及专线区,按照安全级别高低进行访问控制策略配置,避免非授权访问;网络运维人员通过堡垒机进行网络开放收口,只对办公网开放堡垒机端口,所有操作日志统一由堡垒机记录、由行为审计专员定期审计。
应用安全管控方面,安全开发生命周期(SDL)分别在需求分析、产品设计、编码、测试和发布等环节加入安全过程控制,使 Web 安全漏洞能够在项目开发阶段就得到有效控制。系统交付测试之前,开发人员必须通过自研的白盒扫描工具完成代码安全自测,确保漏洞修复后再提交测试。在人员教育培训方面,我们建立了完整的网络安全教育与考核体系,覆盖全员,强化重点人群,不断加强员工的数据安全教育和培养。
同时在日常宣传和引导中增加了针对性强的专题推送和课程,并增加了年度专项考试,以研发红线、安全红线的形式强化安全要求的落实。
接下来,我们将继续以高度的使命感、责任感、紧迫感,不断加强重要网站、平台、生产系统的网络安全保障工作,深入学习网络安全相关政策、标准,提升网络空间安全意识和安全防护能力水平,切实落实网络安全主体责任。
陈锣斌:1)全图风控,相比与传统风控以单一主体视角进行建模方式,图风控具备以下优势:
首先是更贴近真实的建模方式,图作为对于真实世界最好的认识手段,,以图来进行风险建模就更容易还原出最真实的场景以及进一步的风险。之前会先对真实场景进行单点拆解再组合的复杂模式进行风控刻画,图风控更加容易建模以及解释性会更强。
其次是全局观 -"上帝视角",通过图的关系能力, 可以关联出交易双方上下游的多度关系,以更加全面信息来判断这笔看似正常的交易背后的风险,就像在欺诈场景中每笔交易看似正常,但是合起来全局看就不正常了。最后是多主体的动态性:在图风控里面所有图都是带的时间版本的,我们除了关心多个主体之间是否有关联,更要关心多主体之间的动态性:例如 A 转了 100 元给 B,B 再转 100 元给 C,如果时间差在 1min 之内完成,就符合反洗钱的典型场景资金快进快出。往往单笔交易的动态都会影响上下游整体动态。
2)除了图风控,蚂蚁安全在密切关注业界的前沿技术方向,例如区块链、隐私计算、Web3、交互式技术数字人、大模型、数据湖等。
通过区块链我们在探索更开放安全的风险互通方案;利用隐私计算多方等相关技术可以更好的和生态、金融机构进行安全联合建模,加强生态安全水位以及蚂蚁自身的安全能力;Web3 里面的去中心化身份技术可以更好的保护用户身份信息,提供更好的体验和交互;人机交互技术可以让我们更好的为用户提供更有效的风险验证,安全服务引导,等等;再就是大模型,数据湖,安全风控的核心能力就是数据和 AI,大模型、数据湖在安全风控领域的探索可以更好的加强我们的数据计算以及智能化的水平。
陈锣斌:蚂蚁大安全通过对数字化技术研发和落地应用中成千上万个真实问题的思考,已持续升级为一个综合性的“安全智能体系”,对新时代安全趋势的判断,我们提出 IMAGE 下一代风控体系。
首先,IMAGE 的“I”即“交互式主动安全技术”,其关键在于“主动”和“交互“二词,安全必须从静态的被动防守,转变为动态的主动对抗。“交互式主动安全技术”把风险判断能力前置,通过影响用户“心智判断”,遏制风险的发生。这也是让技术实现“人”参与其中的一个具体体现。
IMAGE 的“M”即“多方安全技术”,以多方安全计算等技术代表,通过结合区块链、应用密码学等,在保护合作伙伴用户隐私和商业秘密的前提下,在平台之间实现 1+1>2 的价值效果。这也是面向数实融合的“生态化”的多方共建共存的安全体系的代表。
IMAGE 的“A”即“对抗智能”,是实现安全“大规模智能化”的一个较为有效的手段。通过人工智能与安全技术的深度融合,需要全面投入“智能决策”和“智能对抗”的研发,极大地提升人工智能的抗打击能力。
IMAGE 的“G”即“全图安全技术”,指以“图”的形态,实现对风险变化趋势的预测,提前遏制风险的发生。它代表了我们在风险愈加复杂的情形下,建设全链路数据驱动的、“大规模智能化”应对方法。
IMAGE 的“E”即“端云协同安全技术”,是“大规模智能化”趋势下,兼顾风险防控与隐私保护发展的实践探索。数据安全和隐私保护是当下的安全新挑战,是“合规性”的强要求。这一技术能够满足在合规要求下,数据价值依旧实现。
陈锣斌(一弦),蚂蚁集团大安全事业群首席技术架构,蚂蚁风控技术团队负责人。在风险防控领域有数十年的一线研发经验,其研发的产品服务于支付宝和蚂蚁数十亿海内外用户。
在蚂蚁工作期间,陈锣斌负责了蚂蚁近三代的风险防控平台主技术架构研发,并领导了包括风控数据产品、风险特征服务平台、入侵检测与响应平台等多个重点风险防控项目的研发和落地。陈锣斌带领的团队负责建设蚂蚁的核心风控引擎,在蚂蚁一直致力于大数据风控领域,在风险领域有多年沉淀。
2023 年 3 月 17-18 日,ArchSummit 全球架构师峰会将落地北京海航万豪酒店。来自百度、京东、华为、腾讯、斗鱼、中国信通院等企业与学术界的技术专家,将就数字化业务架构、低代码实践、国产化替代方案、分布式架构等主题展开分享讨论。本文嘉宾陈锣斌也将出席本次大会,担任多数据中心的分布式架构实践专题的出品人。
目前已上线数字化场景下的业务架构、低代码实践与应用、国产软件优化迭代之路、多数据中心的分布式架构实践、软件质量保障、技术 - 产品 - 业务、高并发架构实现、架构师成长与团队搭建落地实践、大数据和人工智能融合、大规模微服务架构演进、可观测技术落地、云原生大数据实践等多个专题,点击阅读原文去官网查看大会日程。
会期临近,门票即将售罄,购票或咨询其他问题请联系票务同学:15600537884(微信同电话)
谷歌面临企业文化危机?出走创业者痛批谷歌效率低下、管理不善,员工深陷制度“迷宫”
背负着整个现代网络,却因“缺钱”放弃开源,core-js 负责人痛诉:“免费开源软件的根基已经崩塌了”
重新构想前端开发!Kotlin 推出新功能:无需同时了解 Kotlin 和 JavaScript
告别SVN,Git成“独苗”:GitHub 在 13 年后宣布淘汰Subversion支持
微信扫码关注该文公众号作者