Kaggle发布年度调研报告,悬赏3万美元邀请你来「讲故事」
新智元报道
新智元报道
【新智元导读】Kaggle年度报告出炉,还有三万美元大奖等你赢!
说到数据科学和机器学习竞赛平台,第一个想到的肯定是全球最大的开发者社区Kaggle了。
上个月,Kaggle进行了第六次年度行业调研,以求全面了解当前数据科学和机器学习的研究状态。
Kaggle设计的调查问卷包括了43个问题,在调研了来自173个国家的23997名受访者后,发布了最终调研报告!
随报告发布的还有一项数据分析竞赛,参赛者需要使用Kaggle提供的原始数据分析出一些有意思的结论或故事,总奖金为三万美元,冠军可得到一万美元奖励。
首先从从业人员群体角度来看,男女比例仍然相当不均衡,六年来仍然没有改善的趋势。
居住、工作在印度和日本的从业人员数量近年来逐步攀升。
在具体的编程实践上,Python和SQL仍然是两个最常用的语言,R语言的占比逐年下降,不过仍然排行第三。
在IDE的选择上,有超过50%的数据科学家选择使用VS Code,超过80%的人都在使用Jupyter Notebook,而PyCharm和RStudio, MATLAB的市场份额丢得就有点惨了。
在选择Jupyter notebook的云服务时,Colab的使用量连年攀升,超越Kaggle内置的环境成为最受欢迎的云Jupyter notebook
报告中提出两个问题:
用户转向VSCode和Jupyter Notebooks是否反映了一种新的趋势,即选择可以放在web浏览器内的IDE?你觉得什么是用户选择IDE的主要考虑因素?
为什么用户不愿意选择桌面端app了?
在机器学习工具包的选择上,Scikit-learn以其全面且优质的内置模型和数据集,成为最受欢迎的机器学习框架,超越TensorFlow, Keras, Xgboost, LightGBM, PyTorch等。
PyTorch的使用人数逐年稳步上升,TensorFlow则是略有下降,不过TensorFlow使用人数还是比PyTorch多出20%左右。
这就叫做PyTorch逐年上升难掩颓势,TensorFlow连年下降尽显王者风范。
在深度学习架构的选择上,Transformers模型逐年上升,超过60%的数据科学家都在用。
对此,报告中提出两个问题:
你觉得scikit-learn流行的原因是因为它太全了,能覆盖的用例更多吗?
表格数据在商业分析中有多重要?提升树(boosted tree)和神经网络之间在表格分析中有绝对的赢家吗?为什么提升树在Kaggle中占据主导地位?
在云计算的调研中,所有的主流云计算服务提供商,包括亚马逊AWS,谷歌GCP和微软Azure,都比上一年的业绩有所提升。
一些专用的计算硬件如TPU逐渐受到Kaggle用户的关注,不过仍然有50%的人从未用过TPU
3万美元雇你分析数据
3万美元雇你分析数据
看完报告,是不是感觉只有几个图表,实在不过瘾?
Kaggle把原始数据打包上传到了平台上,发起一年一度的数据科学调研挑战赛(Data Science Survey Challenge),根据提交的notebook内分析出的故事进行评奖,总奖金为三万美元,还有两个月的提交时间。
比赛链接:https://www.kaggle.com/competitions/kaggle-survey-2022/data
Kaggle在竞赛中的描述中称,调研报告中有很多值得探索的地方,数据集中包含哪些人从事数据科学工作的原始数据,不同行业的机器学习正在发生什么,以及新数据科学家进入该领域的最佳方式。
Kaggle公布了所有的数据,使其成为一个全新的数据集,能够方便数据分析师们自己分析数据,而不只是听取官方公布的调研结果。
挑战赛的目标为通过叙述性文本和数据探索的结合,讲述一个关于该调研中所代表的数据科学社区子集的数据故事。
一个「故事」可以有很多种定义方式,关键在于通过数据深入探索特定数据科学和机器学习从业者群体的影响、优先级或关注点。
故事可以是宏观的,比如Python程序员;也可以是微观的,比如在硕士项目中学习机器学习的女性数据科学专业学生。
这是一个充满创造力的竞赛,你只需要讲述一个你认同的关于数据科学社区的故事。
竞赛的评价标准包括:
结构(Composition),是否有一个清晰的叙述线索的故事,清晰地表达和支持的数据?这个主题应该被很好的定义,很好的研究,并且通过使用数据和可视化很好的支持。
原创性(Originality),读者是否通过这次提交学到了新的东西?还是读者在挑战自己,用一种新的方式思考问题?一个优秀的作品可以提供给读者有价值的信息且发人深省,同时对读者来说也有新鲜感。
文档(Documentation),你的代码、notebook和其他数据源是否有很好的文档,以便读者能够理解你做了什么?你的消息来源被明确引用了吗?一个高质量的分析应该在每个步骤中简洁明了,这样理论基础就容易遵循,过程也是可重复的。
参赛作品的提交截止时间为2022年11月27日,获奖名单将于12月16日公布。
冠军的奖励为一万美元,第二到第五名分别为5000美元。
数据集中最主要的就是一个csv表格,包含43个问题和23997个回答。
在补充材料中,pdf文档详细描述了问题内容及候选项。
目前已有参赛选手提交notebook,选取高赞的参考一下。
笔记链接:https://www.kaggle.com/code/michau96/kaggle-s-popularity-in-your-country
作者的主要工作内容为通过时间来查看每个国家/地区的受访者,该分析旨在在每个可能的国家/地区找到Kaggle的流行趋势,用到的数据集包括从2017年至2022年的Kaggle Machine Learning & Data Science Survey
作者使用R语言,最后分析了50个地区,并根据其在Kaggle受欢迎程度的排名制作图表,最后分析的结果比如Kaggle在澳大利亚的受欢迎度连年下降。
而埃及则上升趋势明显。
也有一些国家的受欢迎度消退到没有数据了,比如瑞士,越南等。
另一个高赞参赛选手使用Python研究了各个国家调研受访者的薪酬范围,单位为美元。
笔记链接:https://www.kaggle.com/code/carlmcbrideellis/how-much-do-people-on-kaggle-earn-by-country-2022/notebook
因为各个国家的购买力也不同,作者还引入非正式经济学指标巨无霸指数(Big Mac Index),用来计算不同国家的美元是否一致,方便后续统一换算。
巨无霸指数以各国麦当劳餐厅的巨无霸汉堡价格,相对于该国货币汇率,作为比较的基准。该指数在1986年由《经济学人》杂志推出,每年出版一次。
以印度为例,通过对比两年的调研数据,可以看到大部分人的薪酬水平年薪都少于20000美元,基本都在一万美元左右,其巨无霸指数为2.16。
而到了加拿大,高收入群体明显增多,不过受试人数明显少于印度,巨无霸指数为0.98。
中国的主要薪酬范围为少于五万美元,巨无霸指数为1.45。
快准备好,向冠军进发吧!
微信扫码关注该文公众号作者