Redian新闻
>
Twitter的中国人,机器学习玩SQL,牛逼大了。。。

Twitter的中国人,机器学习玩SQL,牛逼大了。。。

科技

关注飞总聊IT,了解IT行业的方方面面。


这事情,发生的时候挺早的,但是我最近才听说。


具体来说,可以看一下这篇文章:


https://blog.x.com/engineering/en_us/topics/insights/2021/forecasting-sql-query-resource-usage-with-machine-learning


文章讲的是Twitter的中国人搞的一个功能,通过对SQL语句进行机器学习,可以学习出来,哪些SQL语句需要多少CPU的时间,会消耗多少memory。


简单来说,这里用了机器学习的方法,把SQL语句变成数字串,然后,把使用多少CPU进行分类,分成短中长三类,内存也是。这样的数据集通过机器学习一下以后,就可以得到一个模型。


后面就可以用这个模型,来对新进来的SQL文本进行预测,看看新的SQL Query需要多少CPU,用多少memory。


数据层面,训练数据只需要SQL语句,然后用了多少CPU和多少内存就行了,因为是训练两个模型,所以我估计预测CPU的模型不需要内存信息,反之亦然。


根据作者的说法,precision和recall都相当的不错。


有了这个预测以后,就可以在SQL查询进来的时候,根据SQL语句决定到底应该去什么cluster跑了,查询快的给专属快查询的cluster,慢的就去慢的。


我当然不是什么机器学习的专家。我对机器学习懂的程度,大概也仅仅限于我上课学的那么一点。


但是关于能不能够只用SQL语句的文本,就可以预测出这个SQL大概需要多少的CPU time,要用掉多少memory这件事情,大概率来说,应该成功率比较低才对。


可能作者做的是分类,分类的话给与的模糊空间比较大,所以会准确一点。


但是我们知道现实世界里面,往往会有很多ETL的sql是重复跑的,所以一模一样的SQL出现很多次也很正常。


那么这些SQL就会同时出现在training set, validation set和test set里面,除非系统进行了dedup。但是我想从我对文章的理解,显然是没dedup的。


所以信息明显是已经在数据中给互相泄露出去了,最后到底学出了什么东西,我是真的看不懂了。


我感觉自己有点孤陋寡闻了。原来机器学习还可以这样用,最后还能达到这么好的效果。


就我简单朴素的理解来说,这个项目要想成功,真的需要有很多很多的假设条件,而我的确不知道,这些假设条件们分别都是什么。


但是,它貌似就真的很成功,作者也对这项目很骄傲。所以,真的是我孤陋寡闻了,我实在是没想到,这么用机器学习的。


作者们开源出来了这个项目,我很好奇的事,不知道到底有多少人在生产系统里真的用了这个开源项目。要是有人知道的话,欢迎给我留言。


不过我看了一下LinkedIn,作者似乎已经在Twitter被马斯克的大裁员中被裁了,然后迅速的去了Alluxio。也不知道这个开源项目还有没有人在维护


我最近写的专栏,讲职场的故事,有兴趣的可以订阅,有很多人说学到了经验,不喜欢的一天内可以退款


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
最富的华人,来西雅图坐牢了。。。《雨蝶》机器学习测试:使用模拟器测试训练好的功能的见解和经验squid代理http和https方式上网的操作记录汪小菲宣布求婚成功,二婚老婆依然是台湾人,网友炸锅了。。。项目从 MySQL 切换 PostgreSQL,踩了太多的坑!!!扫码进群|《数据科学·机器学习求职实战营》第1节正课免费体验!FLAG数据科学家带你科学准备DS面试!我在淘宝写SQL|ODPS SQL 优化总结In China, a Major Battle Between Publishers and Big Tech跟着开源的InternVL,学习如何做自己的GPT-4V北京内推 | 微软亚洲研究院机器学习与工业创新组招聘研究型实习生纽交所故障,巴菲特股票暴跌 99%;苹果 WWDC 直播邀请曝光;Twitter 正式允许成人内容存在 | 极客早知道【深入学习MySQL】MySQL的索引结构为什么使用B+树?深入解析大模型主流微调方法:从LoRA、QLoRA到Flash Attention、增量学习大自然的力量真神奇啊。。。。。。。如何避免,第一份工作的大坑。。。。。仅剩3席|全面掌握Python, SQL等数据分析语言、工具和拓展包,高效斩获心仪offer!娃哈哈596ml,东方树叶335ml,饮料净含量为什么不是整数?限制中国人移民!禁止中国人买房!Peter Dutton放话:若当选总理,立刻颁布严格禁令【软件工程求职战报】全球知名社交软件X(原Twitter)软件工程师面试邀约!文友会群《龙年元宵网会2024》彩云易散琉璃脆,世间好物不坚牢。。。。。我已不是当年的我无OFFER退款丨机器学习工程师求职1V1定制计划SQL 50 周年了,但 SQL 之父已经“投靠”NoSQL 了扫码进群|《数据科学·机器学习求职实战营》正课免费体验!FLAG数据科学家带你科学准备DS面试!MySQL 巨坑:永远不要在 MySQL 中使用 UTF-8!留美圈地震: 机器学习+AI岗位对中国籍彻底关闭...【买房】翻新Somerville绿线Magoun Square公寓 近93 | 3b1b 1,354sqft $67.5W老板牛逼吹出去以后,这样干,你就完蛋了。。。让 Altman 也玩上瘾的「语音 Twitter」,在硅谷彻底火了交作业《没有情人的情人节》Kubernetes部署PostgreSQL集群《2024年文学城春之颂真人秀》照片征集DuckDB怎么就那么牛逼了,我来讲一点八卦。。。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。