Redian新闻
>
Twitter的中国人,机器学习玩SQL,牛逼大了。。。

Twitter的中国人,机器学习玩SQL,牛逼大了。。。

科技

关注飞总聊IT,了解IT行业的方方面面。


这事情,发生的时候挺早的,但是我最近才听说。


具体来说,可以看一下这篇文章:


https://blog.x.com/engineering/en_us/topics/insights/2021/forecasting-sql-query-resource-usage-with-machine-learning


文章讲的是Twitter的中国人搞的一个功能,通过对SQL语句进行机器学习,可以学习出来,哪些SQL语句需要多少CPU的时间,会消耗多少memory。


简单来说,这里用了机器学习的方法,把SQL语句变成数字串,然后,把使用多少CPU进行分类,分成短中长三类,内存也是。这样的数据集通过机器学习一下以后,就可以得到一个模型。


后面就可以用这个模型,来对新进来的SQL文本进行预测,看看新的SQL Query需要多少CPU,用多少memory。


数据层面,训练数据只需要SQL语句,然后用了多少CPU和多少内存就行了,因为是训练两个模型,所以我估计预测CPU的模型不需要内存信息,反之亦然。


根据作者的说法,precision和recall都相当的不错。


有了这个预测以后,就可以在SQL查询进来的时候,根据SQL语句决定到底应该去什么cluster跑了,查询快的给专属快查询的cluster,慢的就去慢的。


我当然不是什么机器学习的专家。我对机器学习懂的程度,大概也仅仅限于我上课学的那么一点。


但是关于能不能够只用SQL语句的文本,就可以预测出这个SQL大概需要多少的CPU time,要用掉多少memory这件事情,大概率来说,应该成功率比较低才对。


可能作者做的是分类,分类的话给与的模糊空间比较大,所以会准确一点。


但是我们知道现实世界里面,往往会有很多ETL的sql是重复跑的,所以一模一样的SQL出现很多次也很正常。


那么这些SQL就会同时出现在training set, validation set和test set里面,除非系统进行了dedup。但是我想从我对文章的理解,显然是没dedup的。


所以信息明显是已经在数据中给互相泄露出去了,最后到底学出了什么东西,我是真的看不懂了。


我感觉自己有点孤陋寡闻了。原来机器学习还可以这样用,最后还能达到这么好的效果。


就我简单朴素的理解来说,这个项目要想成功,真的需要有很多很多的假设条件,而我的确不知道,这些假设条件们分别都是什么。


但是,它貌似就真的很成功,作者也对这项目很骄傲。所以,真的是我孤陋寡闻了,我实在是没想到,这么用机器学习的。


作者们开源出来了这个项目,我很好奇的事,不知道到底有多少人在生产系统里真的用了这个开源项目。要是有人知道的话,欢迎给我留言。


不过我看了一下LinkedIn,作者似乎已经在Twitter被马斯克的大裁员中被裁了,然后迅速的去了Alluxio。也不知道这个开源项目还有没有人在维护


我最近写的专栏,讲职场的故事,有兴趣的可以订阅,有很多人说学到了经验,不喜欢的一天内可以退款


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
因⼦⼯程与机器学习量化CTA策略班仅剩3席|全面掌握Python, SQL等数据分析语言、工具和拓展包,高效斩获心仪offer!无OFFER退款丨机器学习工程师求职1V1定制计划《2024年文学城春之颂真人秀》照片征集大自然的力量真神奇啊。。。。。。。DuckDB怎么就那么牛逼了,我来讲一点八卦。。。项目从 MySQL 切换 PostgreSQL,踩了太多的坑!!!扫码进群|《数据科学·机器学习求职实战营》正课免费体验!FLAG数据科学家带你科学准备DS面试!交作业《没有情人的情人节》squid代理http和https方式上网的操作记录老板牛逼吹出去以后,这样干,你就完蛋了。。。文友会群《龙年元宵网会2024》SQL 50 周年了,但 SQL 之父已经“投靠”NoSQL 了我在淘宝写SQL|ODPS SQL 优化总结Hinton官宣加盟AI初创公司:用AI探索新材料,机器学习大牛担任联创跟着开源的InternVL,学习如何做自己的GPT-4V限制中国人移民!禁止中国人买房!Peter Dutton放话:若当选总理,立刻颁布严格禁令让 Altman 也玩上瘾的「语音 Twitter」,在硅谷彻底火了深入解析大模型主流微调方法:从LoRA、QLoRA到Flash Attention、增量学习娃哈哈596ml,东方树叶335ml,饮料净含量为什么不是整数?留美圈地震: 机器学习+AI岗位对中国籍彻底关闭...北京内推 | 微软亚洲研究院机器学习与工业创新组招聘研究型实习生【买房】翻新Somerville绿线Magoun Square公寓 近93 | 3b1b 1,354sqft $67.5WMySQL 巨坑:永远不要在 MySQL 中使用 UTF-8!【深入学习MySQL】MySQL的索引结构为什么使用B+树?我已不是当年的我【软件工程求职战报】全球知名社交软件X(原Twitter)软件工程师面试邀约!Kubernetes部署PostgreSQL集群In China, a Major Battle Between Publishers and Big Tech纽交所故障,巴菲特股票暴跌 99%;苹果 WWDC 直播邀请曝光;Twitter 正式允许成人内容存在 | 极客早知道《雨蝶》汪小菲宣布求婚成功,二婚老婆依然是台湾人,网友炸锅了。。。机器学习测试:使用模拟器测试训练好的功能的见解和经验扫码进群|《数据科学·机器学习求职实战营》第1节正课免费体验!FLAG数据科学家带你科学准备DS面试!最富的华人,来西雅图坐牢了。。。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。