等了49年!!!中国大陆首个SIGMOD最佳论文奖出炉!!!
本文首发微信公众号:飞总聊IT
SIGMOD是数据库领域的最知名的会议之一,第一届在1975年召开。今年,阿里云联合浙大的《Detecting Logic Bugs of Join Optimizations in DBMS》获得最佳论文。这是中国大陆研究团队自SIGMOD自1975年开始以来,在第49年第一次获得该会议的最佳论文奖。
SIGMOD最佳论文奖难度有多大呢?这样说吧。SIGMOD每年投稿的论文大概一千篇左右,录取率在百分之十几,委员会再从录取的文章里面选出一到两篇最佳论文。所以,每次从投稿到拿到最佳论文,都是千分之几的概率,你说难不难?
《Detecting Logic Bugs of Join Optimizations in DBMS》这篇论文,关注的是数据库优化器在连接优化中的逻辑漏洞。
查询优化器是数据库管理系统里面最复杂的组件之一。查询优化器中的逻辑漏洞会导致数据库返回难以检测的错误结果集,非常的不容易被检测出来。
标准的解法,就是让程序员和测试人员大量写各种查询去手工测试。开源数据库和商业数据库都积累了大量的测试数据集。但是这种方式既耗时,也会遗漏大量的逻辑漏洞。这是目前开源数据库和很多商业化数据库都面临的问题。
阿里云的PolarDB数据库也不例外。这篇论文始于阿里云数据库团队的一次会议。
当时阿里云数据库团队正在进行PolarDB内核测试,组织了会议讨论这个整个工业级都很头疼的逻辑漏洞如何检测的问题。
这一问题通过阿里云与浙大的合作“张榜”提了出来,浙大博士唐秀刚好在阿里云作研究型实习,于是阿里云数据库由负责人李飞飞牵头,共同与浙大联合团队一起,攻克了这一难题,最终就有了这篇论文的成果。
值得一提的是,这也是李飞飞的第二篇SIGMOD最佳论文。此前李飞飞曾以一作身份凭借《Wander Join: Online Aggregation via Random Walks》拿下2016年SIGMOD最佳论文。
本次的最佳论文提出了一种叫做Transformed Query Synthesis(TQS)的新方法,可以自动发现包括MySQL、PolarDB、MariaDB在内的诸多数据库管理系统中的漏洞,解决了数据库管理系统查询执行的正确性验证问题。
根据作者们的说法,这个方法的效率非常高,运行24小时就发现了MySQL,MariaDB和PolarDB等数据库100多个critical/serious的漏洞。作者们将这些漏洞分成了20个类别,分别提交给了相应的项目。
SIGMOD2023的最佳论文评奖委员会认为:这篇论文引入了一种新范式,也即TQS方法,它优雅、有效地解决了现代数据库管理系统(DBMS)的关键问题之一——在执行连接查询(join queries)中debug那些复杂逻辑漏洞,并在开源的、业界领先的系统中证明了TQS的能力。
这是非常高的评价。说实在的,这篇论文用非常直接的思想,近乎全自动发现漏洞,在开源和非开源的数据库中都检测出了大量逻辑漏洞。对一个既重要又有实际意义的问题,效果好的令人发指。
等了49年,中国研究团队终于获得了第一个SIGMOD最佳论文奖,这实在是很不容易的。
回想1975年,SIGMOD第一次开会的时候,关系型数据库的理论刚提出不久,关系型数据库后世那些知名的数据库产品,都还没有面世。
过了5到10年,才迎来了Oracle,DB2等商业数据库的爆发和发展,而开源数据库MySQL和PostgreSQL更是要等到进入90年代。
1975年的时候,中国研究团队在SIGMOD上拿最佳论文奖,显然只能是个梦,哪怕是发一篇论文可能也只是个梦。
实际上,中国的数据库的研究和应用的发展,都不算太快,进入上个世纪90年代,才有了以Oracle为代表的商业数据库,在中国的银行,电信等各个部门的全面展开。
到了90年代末,由于互联网的发展,电商巨头阿里巴巴等公司也开始使用数据库,早期主要是Oracle数据库。
在很长的时间里,阿里巴巴曾经是Oracle的明星客户。因为淘宝,支付宝和阿里巴巴B2B的生意越做越大,Oracle数据库里面的数据也越来越多。
有段时间,淘宝启用了全亚洲最大的Oracle RAC集群。但是这仍然解决不了业务迅速扩展的问题。同时,Oracle的成本也越来越高,让阿里巴巴越来越难以负担了。
2009年底,阿里巴巴就不得不面对自己研发数据库的问题了,这就是后来著名的去IOE--去掉IBM的小型机,Oracle的数据库和EMC的存储。
这场战争有个老师叫雅虎。雅虎曾经是互联网第一股。雅虎早就从Oracle数据库切换到了开源的MySQL上面来。阿里巴巴的途径也是这样的,学习雅虎用MySQL取代Oracle。
阿里巴巴自研的MySQL分支,为阿里巴巴2014,15,16年双十一的爆发式增长,提供了强劲的技术支持。可以想象,如果没有当时切换到MySQL的自研分支,仅仅靠Oracle数据库,怎么样能够撑起来那些年业务的爆发式增长。
2016年,在杭州的云栖大会上,阿里巴巴宣布开源自己的自研MySQL分支AliSQL。一年以后,2017年9月,阿里巴巴宣布了自研的云原生数据库PolarDB。
数据库是一门实践学科。阿里巴巴作为国内电商的巨头,拥有国内最大规模最复杂的数据库集群。再加上阿里云数据库在云上给百万量级的客户提供数据库服务,这些来自各行各业的用户运行了千变万化的SQL查询请求,都是锤炼一款数据库产品的最好的土壤,也孕育了新的前沿技术。
以科研为例,阿里云数据库这篇最佳论文的诞生,就起源于一次为了解决PolarDB实际问题的内部会议。可见实践出真知。并且,运用论文新方法的技术已在阿里云数据库中落地,率先帮助PolarDB等数据库产品提高了稳定性。
某种程度而言,PolarDB之所以能持续进化,就是因为阿里云能从数据库实践中提炼问题,进而联合高校攻关解决问题,最新的技术成果又会反馈进产品中进化升级。
阿里云数据库搞科研,搞成了一个研究与生产互为支撑的良性闭环,当然更能产出前沿技术成果。
2023年截至目前,阿里云数据库团队共有23篇论文被SIGMOD、VLDB、ICDE、OSDI、ASPLOS等国际顶会收录,其中就包括了这篇最佳论文。研究范围覆盖云原生、智能化、HTAP、安全可信等数据库前沿研究方向。
可以毫不夸张的说,这种科研能力,在全世界各大知名公司的数据库团队中,都是非常领先的,在中国,更是独树一帜的。
和49年前相比,现在的中国本土数据库市场,已经不再是Oracle,DB2等外国品牌占据主导地位的时代了。
根据IDC的研究报告显示,截止到2022年,中国关系型数据库市场中,前五名的本土厂商份额占到了55.4%,而前5名国际厂商的份额只有27.3%。
可见,本土数据库已经被广泛应用到了各个领域,并在市场占有率上取得了关键性的胜利。
这其中尤其以公有云上的数据库的发展最为显著。下图是IDC提供的公有云模式下关系型数据库软件市场厂商的份额:
其中阿里云以42%的份额连续4年蝉联第一,市场份额大于2到4名的总和,持续彰显领先优势。
由此可见,经过49年的发展,中国的数据库,无论是科研,还是市场,都已经取得了非常丰硕的成果,再也不是国际数据库品牌一统天下的局面了。SIGMOD 2023最佳论文奖给了中国研究团队,更是中国数据库实力的象征,中国人的骄傲。
微信扫码关注该文公众号作者