数牍科技宋一民:隐私计算让数据“可用不可见”
大数据时代,隐私安全成为每个人都很关注的问题。对企业来说,数据已经成为核心资产,同时企业对数据安全要求也越来越高。
很多不经意的时候,我们都面临着隐私泄漏的风险。比如网购的时候,填写自己的电话信息;付款的时候,需要面部认证;打开各种APP的时候,定位功能会默认打开……
这样的场景正越来越多地出现在生产生活之中,隐私计算正在成为一种刚需,尝试兼顾数据安全和高效流通。数牍科技也随之而生。
数牍科技成立于2019年8月,在国内较早以系统性隐私工程视角和基于协作场景的产品落地隐私计算,并与合作伙伴共同推进了隐私计算领域的多个首次突破。
数牍是一家什么样的公司?
数牍具体可以帮助我们解决哪些实际问题,其隐私计算技术主要应用于哪些场景?
在中国,当前隐私计算行业处于一种怎样的生态?
为什么美国没有隐私计算方向的巨头?
今天的《创业内幕》,我们和中国领先的隐私计算公司——数牍科技的创始人宋一民以及GGV纪源资本投资副总裁邝英挥一起聊聊隐私计算这个话题。
Lily:
亲爱的听众朋友大家好,欢迎收听本期创业内幕,我是主持人Lily。本期我们请到的嘉宾非常有趣,他是中国领先的隐私计算公司数牍科技的创始人——宋一民Ethan。我们还请了一个专家跟我一起来聊,那就是大家非常熟悉的GGV纪源资本投资副总裁邝英挥。今天我们来和二位一起来聊数牍这家公司,先请Ethan介绍一下自己和数牍吧。
宋一民:
在创立公司之前,我在美国读了研究生,并且在美国工作了大概10多年,主要服务于两家公司:第一家是微软,主要做云计算方向,我们是从0-1做了等于是 Windows 下的第一个容器。我从微软出来之后,就去了 Facebook(现为“Meta”) 广告部门做用户数据,在 Facebook 的环境下面,搭建了内部外部的一些数据协作的技术框架。
我们做这个方向时,其实涉及到很多企业间的数据协作问题。因为广告领域涉及到一个巨大生态,广告主、广告投放平台、数据提供方、各种类型的机构、测量机构、监管机构等等,都需要进行广泛的数据协作。在整个过程中,我们意识到一个矛盾点,就是我们数据协作时需要把数据开放和流通出来,但是过程之中可能会导致一些数据泄露,进而导致一些巨大成本甚至巨大风险等等。所以当时我们面临这一系列问题时就在看,是否有技术可以在数据协作的同时,能够尽可能地保护数据。
2017年初,我们就在 Facebook(现为“Meta”)内部立项,开始去探索,当时主要是应用于广告,包括流量反欺诈等领域。
做这个方向时,我们正好发现隐私计算这个技术,能够相对颠覆性地去解决这种数据协作中的痛点,满足既要分享又要保护的需求。这样一个技术,其实我们当时判断它可能类似于一些第三方服务,我们需要把这个技术像公有云一样,能够以一个相对比较中立的视角,去整个行业对市场做开放。因此在我们的假设之下,公司从创立一开始就是延续前面那个想法,一直以来围绕隐私计算这样一个类似新的技术概念。一方面我们给市场做隐私计算的赋能,帮助市场具备这个技术能力;另一方面我们也帮助市场,把新技术应用于自己的业务来创造价值,帮助这些企业和个人可以更好地进行数据协作。
Lily:
我知道您和您同事亲历了 Facebook(现为“Meta”)因为数据问题在美国引发政坛持续关注的特殊时期,从今天您的角度来看,当时有哪些疏忽和不到位的地方呢?
宋一民:
其实从个人隐私保护的角度来看,美国的这些公司包括Facebook(现为“Meta”)、 Google 等,其实是比较 serious,大家对它的防范意识很强,监管也很严格。当时的情况就是, Facebook(现为“Meta”)和外部一个类似于研究型的机构进行合作,帮助他们做一些研究,过程中可能分享一些用户数据给他们。但是那家公司可能把数据用于研究之后,又进行二次开发利用,或者用于其他目的,且这些目的并非一开始 Facebook(现为“Meta”)和公司约定的。Facebook(现为“Meta”)当时其实和这家公司签订了很严格的共识/约定,有很强的法则,所以这个事件出来之后,这家公司也没办法承担这个法则,直接宣布破产。
即便如此,数据泄露所带来的损失也没办法弥补。之前很多年,大家靠约定/协议确保数据不被泄露,但我们单单靠协议来解决数据安全/数据隐私保护其实是很难的。因此我们可能后面会想到说,通过一些技术手段介入,来确保数据在被使用过程之中,能够避免一些我们不想看到的现象。如果能确保这一点,我们再通过协议进行保障,这种情况之下才可能能够更好解决这个问题。
Lily:
公司为什么叫数牍这样一个非常传统的名字?
宋一民:
说实话,我们当时想这个名字,做了很多 Brain Storming(头脑风暴),印象中提了100多个名字。这个名字怎么选出来的?首先,我们做了一些 constraint(限制),比如我们做的事情,其实是用一种非常数学的方式来对数据进行处理,所以我们希望这个名字能体现数据甚至数学的特性。
“数牍”的“数”可以解释为数据,也可以解释为数学,那么“案牍”的“牍”其实也和数据相关,所以这两个字其实就是都和特性相关。第二,我们想相对体现一些中立性。第三,我们希望它简单好记,因为正好有数独这样一个数字游戏,有很多人喜欢,也非常好记。满足这三点之后,非常幸运地发现它没有被注册,然后就选了这个名字。当然也有很尴尬的时候,因为“牍”其实日常用得比较少,所以经常被写错。
Lily:
我想问问英挥,据我所知,中国目前有100多家企业都在做隐私计算相关业务。我想知道,当时数牍的哪些独特魅力,吸引了你去跟他们交流并且投资?另外你对于中国整个隐私计算行业有什么看法和观点?
邝英挥:
我记得我们最开始认识应该是2019年底2020年初,离我们最后的投资还是经历了有一段时间。我们最开始知道这个概念其实要更早,2017年我见过一家公司,就是通过爬虫去网上找我们个人用户的信息,卖给各种机构公司用来做精准营销。当时我就很震惊,如果大家的个人数据都可以如此被买卖,在市场上流通而不被加以监管,没有技术手段去解决,长久以来肯定是很混乱的。后来当我们听说有隐私计算时,数牍可能也刚成立不久,我们觉得在未来5-10年甚至更长期,隐私计算是一个非常有价值的产品和技术。
我们前前后后也见了小20家公司,最让我们惊喜的是,整个数牍团队和它产品的成长速度非常快。不仅是行业内,我们还了解到很多用户对公司的评价非常好,然后我们跟管理团队再去更新时,发现大家对整个行业的思考,对自己的反思,未来公司的发展方向、技术架构、扩展领域、商业模式等,明显超越其他竞争对手。所以这时我们选择了成为公司股东,帮公司一起成为这个行业里将来最领先的公司。
Lily:
数牍具体可以帮助我们在生活中实际解决哪些问题,具体落地到哪些场景?
宋一民:
日常生活当中,我们会使用各种类型的应用,接受各种类型的服务,当我们接受这些服务时,我们需要这些服务的主体更好地了解我们,这个过程中就无形地泄露了很多我们的信息。对于个人来讲,侵害个人隐私,对于企业来讲,可能伤害了企业的商业价值,因此其中就存在一个矛盾点。
我们来解决这个问题,今天比较通用的一个方式就是授权同意,我们去使用这些我们已经提供出去的,或者说我们已经被别人收集到的这些信息时,我们应该明确授权同意对这些数据进行使用。其实授权同意一直有在做,现在也在加强,但是我们心中都有这样一个疑问:授权同意到底靠不靠谱?为此我们就要及时考虑几类问题:
首先授权同意里面,涉及到授权同意授权了哪些权限。这个问题背后是说,我们在做授权同意时,是不是能够把所有权限全部都清晰地拆解出来,对每一个进行限定或者约定。
第二就是,当我们去使用这些数据时,也要考虑数据类型。我们都知道现在很多法律法规里面,对数据的分类非常复杂,那我们是不是能够在数据统一时,把所有分类一一列出来。毕竟我们对不同类型数据能够接受的处理方式是不一样的。
第三就是,我们授权统一的过程中可能涉及到哪些主体。授权同意的过程中,涵盖所有这些主体,也是非常难的。
说了三个问题背后,我就想说一个核心逻辑,就是统一这个事情其实非常复杂。因此在隐私计算里面,我们其实做的事情就是,通过技术手段把一些不需要的权限禁止掉。我们可以把数据更加细致地做分类,把那些我们最核心的权限,最需要涉及到的主体,以及最需要涉及到的数据类型,单独拿出来进行授权同意。
这对于我们每个人包括企业,都是息息相关的。它其实会涉及到各行各业,我们可能是解决刚刚像授权同意这样一个问题,但是其实在各个行业到每个场景中,其实都有我们在里面扮演一个角色。
邝英挥:
相当于我们用数牍的这种技术,就能让数据在不离开原始储存地,也不被过程中间看到的情况下,也可以完成我的需求。我觉得是一个比较清晰的价值体现。
Lily:
其实这个相对来讲对技术要求还是很高的产品,我们怎么能够说服客户,让他们认可我们在技术上有领先优势?
宋一民:
其实这个技术已经出现有几年了,整个市场行业里面对这个技术也有一些基本认知。用户会组织一些对技术本身的测试,比如说在某些他们所关注的场景中,使用这个技术,验证场景中的价值。一般来说,就是参与他们的测试,以及和他们共同去验证场景价值。
Lily:
在隐私计算这个领域,什么技术是最核心的、最关键的,护城河在哪?
宋一民:
其实就这个技术概念来说,实际上它可以说是一个技术栈,涉及到很多层面的问题,比如说相对比较关键的几个:
第一可能还是进行了安全的一系列密码学的相关方法,这是一类,还有一类可能层级稍微高一点,利用一些工程和一些数学方法,做一些工程上的实践。这些技术可能也是非常关键的,也是构成技术内核的一部分。在整个技术内核之上的话,其实会涉及到另外一些问题。我们之前大数据行业里面会涉及到一些,比如说离散数据中心的一个数据协作问题,但是离散数据中心和离散数据还是有区别的。离散数据源里面意味着很多比如状态数据都不能进行功效,我们可能会用一切涉及到很多大量的共识机制,在大数据的分布式系统,包括基础设施那一套东西,其实也有新的事情要做。在那个基础之上,我们到了应用层时就涉及到一些交叉数据挖掘。做交叉数据挖掘时,其实也是一个很新的问题。所以在云计算的大技术概念下面,其实有很多个比较新的突破点在里面。
Lily:
我知道2020年,数牍以黑马姿态拿下了和联通的合作。其实我想问问,能跟联通这样的巨头合作,数牍做对了哪些事情?有哪些技术上和产品上的优势,促成了我们这次合作达成?
宋一民:
其实从大的市场情况来看,当时是一个比较好的时间点。我们2019年成立公司,当时就出现了一些金融科技里面的数据泄露导致的问题。整个行业包括国家,其实从2020年开始,就比较重视这个事。后来2020年年初又出现了疫情,疫情早期有很多数据泄露问题,当时为了进行比如说疫情防控,我们可能会去观察患者之前的轨迹,但是患者轨迹数据在早期,都是姓名加身份证号加上他去的所有地点。这些在全网在流通,也受到了整个社会的广泛重视,包括国家也很重视,所以整个大的基调就在2020年。其实从疫情角度来说,或者从当时金融科技事件角度来说,我们其实为了更好把事情做好。我们要鼓励数据协作数据流通的,但是过程之中,我们其实也要同时做好数据保护,不然它的影响危害非常大。
因为联通不仅仅是通信运营商行业,在整个跨行业来看,联通是一个在大数据和人工智能领域,投入比较早、投入量比较大的公司,所以它其实有大量的数据协作需求,需要用像隐私计算这样的技术来更好进行实现。联通在2019年时曾经自己做了一些尝试,2020年开始对外招标,我们其实就是在那个时间点发现,这个技术当时是有刚需的,因此我们把我们的注意力,放在了“如何体现技术确实可以帮助用户解决实际问题”,或者说“如何能够让用户对我们的技术以及对技术实现能力进行认可”。我们当时非常大的投入,参加到和用户的各种场景验证,包括技术测试。当时我们也非常幸运,联通的团队非常专业,我们正好有这样一个配合。联通其实也是在整个测试和我们创新论证那几个月当中,对公司形成了非常好的认可基础。
Lily:
其实和联通的合作中,据我所知就是速度促成了行业整个TB级的隐私计算商用项目。请Ethan解释一下,对于普通人来讲, TB级的数据隐私计算是一个多大的概念?
宋一民:
假如每个人存一个特征样本,占1k到10k,TB级大概对应的样本量是在1亿到10亿,也就是10亿用户的各种特性的总和。基本上就是有10亿用户这量级的企业,其实也是一个大型企业,这种类型的样本量,其实也可以满足大多数大型企业对所有数据进行处理的需求。
Lily:
我想请教一下英挥,你认为对资本市场而言,数牍最大的吸引力是什么?你未来希望这家公司走到哪里?
邝英挥:
这家公司确实挺特别。第一是我们看了企业服务的很多领域,隐私计算是一个技术门槛和技术壁垒很高的场景,一个好的隐私计算平台,背后的技术框架是非常复杂的。另外一个很大的亮点是,我们中国的企业服务公司,相对比美国还是落后一些,中国目前还处于比较早期。我们中国有一个自己的机会,隐私计算是一个中国有可能引领全世界的细分,这块并没有什么美国的大公司,也没有任何我们可以去借鉴或者对标的一个对象。所以我们要自己一点点去探索,自己去定义这个场景和一个场景里面的产品,去打磨,构建自己的壁垒,就有可能让中国本土诞生一个引领全球的企业服务,或者企业服务加安全的细分领域。
Lily:
Ethan,如果我想加入你们公司,需要具备哪些专业性和素质?你们缺什么样的人才?
宋一民:
我们其实在各个方面都有人才需要,公司整体来说可能分成4种人在线。
第一是技术线。我们其实一般来说是看三个方面,第一我们比较看重工程师文化,大家一起合作就是文化一致性,有效率,其实对整个团队的效率是影响非常大的。
第二我们比较看重基本面,就是学习能力和解决问题的能力。
第三可能相对次要一点,比如说我们在招一些具体方向的负责人时,会需要他在这个方向上有一些积累。
其他的线像商务线前端一些的,还有一些偏产品线,还有支撑线,基本上从招聘维度来讲都是大同小异的。
Lily:
欢迎各位有识之士加入数牍,可以在各大招聘网站搜索“数牍”,数字的数,案牍的牍,或者按照本期shownotes去搜索。大家有任何关于想要了解数牍的,或者想要加入这家公司的,都可以积极地了解我们加入我们,我们求贤若渴。
在节目最后,按照惯例,我们还是请大家积极转发评论本期内容,在小宇宙和喜马拉雅以及微信公众号三个平台中,我们会抽出5位积极评论的朋友,送出Ethan和数牍为大家准备的小手办和小礼物。
微信扫码关注该文公众号作者