向云原生要数据：日均万亿级数据安全保障和小时级风险应对实践

2023-03-05 02:03

作者｜夏巨鹏（真谛）

编辑｜邓艳琴

近年来，大数据、人工智能的发展给数据的自由流动带来了便利。但风险也随之产生，数据安全问题成为了关注的核心，因此，《数据安全法》、《个人信息保护法》应运而生，为数据隐私保护法律法规的实施对数据的应用做出了规范和要求。另一边，各大型互联网企业纷纷响应，对内进行大刀阔斧的技术改造，进而保护数据生产要素及其合规应用。在过去的 3、4 年中，蚂蚁集团将云原生、大数据、人工智能三者结合，实现了数据安全合规技术的新突破，解决了日均数万亿数据流动风险检测问题，将数据安全风险响应时效提升到小时级。近日，蚂蚁集团资深技术专家夏巨鹏（真谛）在 QCon 全球软件开发大会（北京站）中分享了以上经验，包括数据安全合规趋势、挑战，大型互联网企业数据安全治理模式、技术架构，以及安全领域智能化体系及演进方向，本文据此整理。完整幻灯片下载地址：https://qcon.infoq.cn/202302/beijing/presentation/4512。

今天我要和大家探讨的是《数据安全在云原生下的探索与实践》，聊一聊云原生给数据安全带来的变化，以及我们是否可以利用云原生来助力数据安全。在此基础上，再分享蚂蚁数据安全过去 3、4 年中的落地实践与思考。

今天的分享分为四个部分，第一是数据安全合规的趋势与挑战；第二是蚂蚁集团在数据安全实践的探索，这部分会详细介绍介绍数据安全在云原生之下构建数据体系的方式方法；第三则是数据安全到网络安全及体系的延伸，智能防控体系的技术介绍；第四是分享我对于数据安全领域的未来方向思考，最后会简单做一个总结。

数据安全合规趋势与挑战

当前，国内外各项法规已经给数据安全奠定了良好的法律基础。近年来，我国在法律、法规层面的建设中，给数据安全行业以及数据安全相关的数字经济、相关行业指明了方向。例如《数据安全法》《个人信息保护法》等，详细阐述了数据安全及立法原则，对参与到数字经济建设的各个主体有较大的指导作用。从技术工程师的角度来看，我们通常会通过权利主体、义务主体和责权量化三个维度来解读法律条文，企业在其中的责任与义务，与之相对应的连带责任是有明确和强化的。数据安全在法律的指引下抽象出了多种数据和场景，我们认为要做好数据安全相关工作必须了解当前场景中每个值，或者说每一个数据。于是，我们提出了要建立数据分布与流动的概念，并把建立数据分布与流动的上帝视角定义为数据安全数字化的核心问题。但在大型互联网企业中，场景复杂度高，数据规模大，其基础设施演进的阶段并不统一，业务的快速迭代又加剧了数据的流动，以上种种原因给数据分布与流动的数字化体系的建立增加了难度。

数据安全在蚂蚁集团的落地实践

为应对上述挑战，做好数据安全建设，蚂蚁集团从数字经济安全角度出发，区分出数字经济的各个分层场景，同时将其背后的安全体系划分为业务安全、数据安全、网络安全和底层基础设施建设等四个层级。

首先，业务安全是离业务场景最近的。其次，是离基础设施最近的网络安全。第三则是数据安全，数据安全的元年是 2021 年，介于业务安全和网络安全之间。一方面数据安全最重要的特点是明确了各主体的法律责任，另一方面数据安全既要向上关联业务场景，也要向下对网络安全和基础设施提出新要求，起到了承上启下的作用。举个例子，我们在购买保险或电商产品时，需要向售卖方提供相关数据信息的维度不一样，这和其场景直接相关，同时这些数据合规与否也与场景紧密关联。

2021 年底，蚂蚁集团发布了《数据安全复合治理》白皮书，提出了四个关键点。分别是战略要位、实战牵引、全员参与和技术创新。下面的内容将回到白皮书中的技术创新，对其他内容感兴趣可以参考白皮书。

以数据为中心的技术体系，围绕数据驱动和合规保障两个方面。数据驱动和场景强相关，数据分为静态分布的数据和流动的数据，数据流动具有可达性和事实性，一方面数据可以通过某个链路传播到相应位置，另一方面数据分布在存储中始终是其本来的样子。这其中，如何复用传统的安全能力，如何运用云原生时代下的新技术，改变数据安全科技格局就成了关注的重点。

智能防控体系技术介绍

数据安全智能防控体系建立在数据流动的上帝视角基础上。它包含三个核心技术。第一，ERB 数据模型，即设计简洁、直观的领域模型，从而能够直接地描述数据流动途径、跨实体流动的可达性和事实行为；第二，从云原生基础设施采集数据流动行为，即基于 ERB 模型构建出的完整数据流动链路；第三，在 ERB 数据体系基础之上，利用大数据、机器智能技术红利，建立智能化防控体系的过程。

ERB 数据模型

那么，什么是 ERB 数据模型？我们在刻画数据流动的时候，一个关键问题是如何度量场景当中的每个值。假如有 A、B 两个节点，A 到 B 之间有一条路径 P1，A、B 节点有自己的 ID，由此构成一个非常初始的模型，表达数据从 A 到 B 的流动。如果有另一种数据也会从 A 流动到 B，我们可以用 A、B 间的新增一条路径 P2 来表示，如果数据会流经其它节点，可以增加新的节点来表示。

以此类推叠加，一个非常简洁的 ERB 模型就出现了。它可以帮助我们看清楚数据流动的节点和路径，从而建立数据流动的上帝视角。模型中，节点表示数据途径的实体，具备一个 ID 及多个属性；边表示数据流动的可达性，具备一个 ID 及多种数据类型；行为 Behavior 则表达数据流动的事实行为。

那么，各个模型都有什么特点呢？

首先，E 这个维度具备粒度的可调试性。我们可以把 E 缩小到一个比较小的应用粒度，比如用 E1 和 E2 表示两个不同的应用，也可以把 E 放大到到架构域的粒度。如果进一步将粒度放大，甚至还能把 E1 和 E2 扩大到同一集团下的两个独立子公司的粒度。

通过简单分析，我们会发现这个 ERB 模型在描述数据流动时，具有同构性质，这也是第二个模型的特点。在算法设计中，同构性带来的是算法的递归性。我们可以用同样的算法，去求解数据安全中存在的风险。

向云原生要数据

在云原生架构下，如何获取构建 ERB 模型所需的数据？

云原生链路具备一个特点：应用跟应用之间，需要通过中间件 sidecar 来进行 RPC 的调用传递。S 代表是数据采样的 sample 节点，在云当中发挥调度采集的作用。而后， APP Call 和 API Call 会各自通过 Ingress 进入到整个体系当中来。由此，应用之间完成了整体数据流动的串接。在外部商业生态主体进行交换的场景下，会走 Ingress 跟外部云或者是生态里面的主体，以 API Call 的方式发生数据调用数据交换，产生数据流动。

下面来看怎么样定义 R。我们把 RPC 抽象成一个 table，R 是这个 table 的 schema，参数对应的值就是 table 里面具体 row 的值。

进入 R 的内部视角，在边界上通过 RPC 观测 schema 是远远不够的，还需要关注参数值的影响，比如宽接口里面 arg1 和 arg2 值的范围可能影响后面的路径。此外还有一些具备枚举特性的值，比如取值是 case1、case2、case3，对应的整个路径是不一样的。

此外，我们通过使用 traceID 以 R 串联数据流动的全链路。通过在 Ingress 里写入一个 traceID，使得 sidecar 跟应用传递下去，从而获得从边界到内部一个完整的流动链路。

当前，蚂蚁的日均量级已经达到了十万亿级别。如果直接执行全量数据的链路计算，过程中的成本和计算量将会非常可观。因此，必须在其中增加一个环节——链路采样，用最简单的采样算法对 traceID 末位取模。在 Ingress 边缘以及 sidecar 近缘，通过增设链路采集控制器来控制采样策略，实现采集功能。

蚂蚁有百万量级的节点，如果让链路采集控制器控制所有 sidecar 和 Ingress，其复杂性、稳定性以及性能均存在着极大的挑战。于是，我们进一步优化，从 traceID 边缘生成入手，在 traceID 编码里面带入是否要采样的信息，使得 sidecar 成为状态节点，直接信任 traceID 的编码以决定是否采样。通过这样的方式，百万级的节点即可降低至千级别，使得整体体系可以根据数据量级和后面传递一系列的情况参数做调优。

通过将多种采样策略融入采集控制器，我们实现了对链路构建进行调优。举个例子，当链路每天涉及百万量级，我们可以将采样策略设在 10 点到 12 点间，每分钟采 10 秒，随机采样十分钟；当每天量级只有 1000，取消采样限制进行全量采集；当某个链路每天涉及 10 亿量级，可以在 17 点到 18 点间进行百万分之一的采样。基于采样策略的优化，可以实现以非常小的成本来完成上帝视角下的数据流动链路刻画。

综上，我们通过建立一个 ERB 数据流动链路刻画，实现了以较低的成本获得整个集团“上帝视角”下的线上数据流动。

智能防控体系

接下来介绍智能防控体系。底层是云原生和基础设施，其中包含了近缘边缘的采样逻辑计算以及安全管控。再上层是 ERB 数据体系，包括数据静态分布刻画、安全主体刻画（本次分享中不做涉及）以及数据流动链路刻画。再往上一层，是数据驱动的检测、响应和防护环节。

检测环节：检测环节核心解决两方面问题。第一，风险覆盖率，能否发现体系里面所有的问题，同时匹配蓝军攻击演练，以校验监测风险覆盖。第二，风险准确性，匹配安全事件，校验发现问题的准确率。检测环节通过后进入响应环节，再将发现的可疑事件推给响应平台。

响应环节：自动化响应是响应平台智能化的一个关键要素。事件经过与数据体系的衔接，在检测识别定位后，通过响应环节完成人工分拣以及人工制定策略下的自动分解，事件从可疑状态到确定状态完成定性转换。

防护环节：在防护模块，结合编排方式搭建多层分级的防护能力。分级体系中包括身份相关的账户层面、EDR/DLP/ 零信任网络代理等相关的办公终端层面、对外 API 网络层面、物理主机层面、具备计算和拦截能力的应用层面、涉及包括脱敏、数据加解密、数据水印、数据染色以及保障数据可用不可见的差分隐私与多方安全计算等等一系列防护能力在内的数据层面。六大层面有机结合，形成一整套完整、分级的安全防护体系。

态势感知：整个体系再往顶层延伸，到达态势感知。通过了解自身水位以及外部风险，整体牵引智能防控体系向前发展。态势感知测量基于模块自身特性的独立增长曲线，在检测响应的覆盖率与准确率、响应自动化、防护灵活可靠性以及性能成本各层面有机结合、升级迭代，推进智能防控体系的全局发展。

在整个防护体系中，智能化是手段，而不是目的。第一，智能化实现了更智能、超出自然人能力的风险挖掘；第二，更智能的风险对抗与自动化处理过程能够通过充分释放工程师的人力，将更多安全专家精力投入到复杂事件的对抗研究中。

数据安全未来发展趋势

与此同时，我们看到了几个数据安全的未来发展趋势。

趋势一：数据安全与云原生、大数据、机器智能技术的结合愈发紧密。

趋势二：数据保护技术将成为数据要素时代关键技术。 第一层，数据要素与自然资源要素具有强相似性。对有价值的“数据矿产”而言，定位哪些数据具有什么价值是关键。第二层，数据要素关键技术突破。关键技术突破直接决定了数据要素时代何时到来、能走多远、效率多高，如隐私计算技术。第三层，制度层面。当数据交易发生，商业价值的衡量与量化定价需要通过制度来保证。

趋势三：数据安全合规科技将成为企业持续发展的核心竞争力。 当我们具备数据流动的上帝视角，就具备了业务在数据使用过程中使用效率的检测能力，从而能够在合规层面判断业务的发展进程，使得企业评估数据使用情况成为可能。一方面，企业能够根据当前数据使用判断是否接近或超越红线，规避业务风险避免触礁；另一方面，通过判断数据价值是否实现充分挖掘，指引业务挖掘数据潜力，助力企业发展取得新的突破。

总结

最后对今天的分享内容进行总结。

第一，2021 年作为数据安全元年，大型互联网企业面临巨大挑战。蚂蚁集团的建设思路是通过构建数据流动的所谓“上帝视角”，完成从侧重数据边界到关注数据流动的过渡。

第二，大数据、云原生、机器智能等技术的突破，正在给安全行业带来更多新机遇。

第三，以数据安全中的数据链路刻画为关键问题，给出 ERB 数据模型应用的探索与实践。

第四，智能防控体系，介绍如何以数据体系为核心，将智能化深入防控的方方面面。

最后，基础设施与数据应用能力当前仍处于快速演进的阶段。数据安全技术发展加速的同时，也在不断突破自身领域的核心问题。未来发展空间非常乐观。

作者简介

夏巨鹏（真谛），蚂蚁集团大安全技术资深安全专家，毕业于哈工大计算机学院，在安全与风控领域有十余年的一线研发经历，拥有 10 余项专利授权。在 PKI 体系、终端安全和数据安全等领域拥有丰富的实操经验。现致力于大规模复杂数据企业中流动数据的透视和安全复合治理的技术突破和创新。

活动推荐

5 月 26-27 日，QCon 全球软件开发大会即将落地广州，从下一代软件架构、研发效能提升、现代编程语言、AIGC、现代数据架构、金融分布式核心系统、新型数据库、出海的思考、大前端架构等角度与你探讨，欢迎你来现场打卡交流～

点击底部【阅读原文】直达大会官网，现在购票享 8 折优惠，组团购票还有更多折扣，感兴趣的同学联系票务经理：15600537884（电话同微信）。