Redian新闻
>
Twitter的中国人,机器学习玩SQL,牛逼大了。。。

Twitter的中国人,机器学习玩SQL,牛逼大了。。。

科技

关注飞总聊IT,了解IT行业的方方面面。


这事情,发生的时候挺早的,但是我最近才听说。


具体来说,可以看一下这篇文章:


https://blog.x.com/engineering/en_us/topics/insights/2021/forecasting-sql-query-resource-usage-with-machine-learning


文章讲的是Twitter的中国人搞的一个功能,通过对SQL语句进行机器学习,可以学习出来,哪些SQL语句需要多少CPU的时间,会消耗多少memory。


简单来说,这里用了机器学习的方法,把SQL语句变成数字串,然后,把使用多少CPU进行分类,分成短中长三类,内存也是。这样的数据集通过机器学习一下以后,就可以得到一个模型。


后面就可以用这个模型,来对新进来的SQL文本进行预测,看看新的SQL Query需要多少CPU,用多少memory。


数据层面,训练数据只需要SQL语句,然后用了多少CPU和多少内存就行了,因为是训练两个模型,所以我估计预测CPU的模型不需要内存信息,反之亦然。


根据作者的说法,precision和recall都相当的不错。


有了这个预测以后,就可以在SQL查询进来的时候,根据SQL语句决定到底应该去什么cluster跑了,查询快的给专属快查询的cluster,慢的就去慢的。


我当然不是什么机器学习的专家。我对机器学习懂的程度,大概也仅仅限于我上课学的那么一点。


但是关于能不能够只用SQL语句的文本,就可以预测出这个SQL大概需要多少的CPU time,要用掉多少memory这件事情,大概率来说,应该成功率比较低才对。


可能作者做的是分类,分类的话给与的模糊空间比较大,所以会准确一点。


但是我们知道现实世界里面,往往会有很多ETL的sql是重复跑的,所以一模一样的SQL出现很多次也很正常。


那么这些SQL就会同时出现在training set, validation set和test set里面,除非系统进行了dedup。但是我想从我对文章的理解,显然是没dedup的。


所以信息明显是已经在数据中给互相泄露出去了,最后到底学出了什么东西,我是真的看不懂了。


我感觉自己有点孤陋寡闻了。原来机器学习还可以这样用,最后还能达到这么好的效果。


就我简单朴素的理解来说,这个项目要想成功,真的需要有很多很多的假设条件,而我的确不知道,这些假设条件们分别都是什么。


但是,它貌似就真的很成功,作者也对这项目很骄傲。所以,真的是我孤陋寡闻了,我实在是没想到,这么用机器学习的。


作者们开源出来了这个项目,我很好奇的事,不知道到底有多少人在生产系统里真的用了这个开源项目。要是有人知道的话,欢迎给我留言。


不过我看了一下LinkedIn,作者似乎已经在Twitter被马斯克的大裁员中被裁了,然后迅速的去了Alluxio。也不知道这个开源项目还有没有人在维护


我最近写的专栏,讲职场的故事,有兴趣的可以订阅,有很多人说学到了经验,不喜欢的一天内可以退款


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Powerful Tornado Kills 5 as Extreme Weather Batters Guangdong交作业《没有情人的情人节》博士申请 | 美国亚利桑那大学杨幻睿老师招收机器学习方向全奖博士/实习生机器学习测试:使用模拟器测试训练好的功能的见解和经验北京内推 | 微软亚洲研究院机器学习与工业创新组招聘研究型实习生有了这 4 款脚本工具, 再也不怕写烂 SQL了!!!中国的相亲直播间,已经火到日本了。。。我已不是当年的我大自然的力量真神奇啊。。。。。。。博士申请 | 香港科技大学(广州)谢泽柯老师招收机器学习方向全奖博士/RA/博后《雨蝶》纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023扫码进群|《数据科学·机器学习求职实战营》第1节正课免费体验!FLAG数据科学家带你科学准备DS面试!扫码进群|《数据科学·机器学习求职实战营》正课免费体验!FLAG数据科学家带你科学准备DS面试!深入解析大模型主流微调方法:从LoRA、QLoRA到Flash Attention、增量学习娃哈哈596ml,东方树叶335ml,饮料净含量为什么不是整数?MySQL联表查询优化汪小菲宣布求婚成功,二婚老婆依然是台湾人,网友炸锅了。。。巨杉数据库,好像被坑了。。。我在淘宝写SQL|ODPS SQL 优化总结今日最佳:怎么还当真了。。。【买房】翻新Somerville绿线Magoun Square公寓 近93 | 3b1b 1,354sqft $67.5W腾讯这10道算法面试题,看完跪了。。。彩云易散琉璃脆,世间好物不坚牢。。。。。《2024年文学城春之颂真人秀》照片征集squid代理http和https方式上网的操作记录MySQL索引你用对了吗?MySQL的多存储引擎架构文友会群《龙年元宵网会2024》一个SQL任务的一生8 种专坑运维的 SQL 写法,性能降低 100 倍,您不来看看?面向数据库的操作系统:80 岁的 PostgreSQL 之父宣布推出 DBOS Cloud因⼦⼯程与机器学习量化CTA策略班MySQL忘记root密码解决方案愚人节集体整活儿!这帮大厂和二游公司,牛皮吹的太大了...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。