国际科技财经博客移民网络热点娱乐民生时事公众号

>

Kaggle发布年度调研报告，悬赏3万美元邀请你来「讲故事」

Kaggle发布年度调研报告，悬赏3万美元邀请你来「讲故事」

公众号新闻

2022-10-14 05:10

新智元报道

编辑：LRS

【新智元导读】Kaggle年度报告出炉，还有三万美元大奖等你赢！

说到数据科学和机器学习竞赛平台，第一个想到的肯定是全球最大的开发者社区Kaggle了。

上个月，Kaggle进行了第六次年度行业调研，以求全面了解当前数据科学和机器学习的研究状态。

Kaggle设计的调查问卷包括了43个问题，在调研了来自173个国家的23997名受访者后，发布了最终调研报告！

随报告发布的还有一项数据分析竞赛，参赛者需要使用Kaggle提供的原始数据分析出一些有意思的结论或故事，总奖金为三万美元，冠军可得到一万美元奖励。

首先从从业人员群体角度来看，男女比例仍然相当不均衡，六年来仍然没有改善的趋势。

居住、工作在印度和日本的从业人员数量近年来逐步攀升。

在具体的编程实践上，Python和SQL仍然是两个最常用的语言，R语言的占比逐年下降，不过仍然排行第三。

在IDE的选择上，有超过50%的数据科学家选择使用VS Code，超过80%的人都在使用Jupyter Notebook，而PyCharm和RStudio, MATLAB的市场份额丢得就有点惨了。

在选择Jupyter notebook的云服务时，Colab的使用量连年攀升，超越Kaggle内置的环境成为最受欢迎的云Jupyter notebook

报告中提出两个问题：

用户转向VSCode和Jupyter Notebooks是否反映了一种新的趋势，即选择可以放在web浏览器内的IDE？你觉得什么是用户选择IDE的主要考虑因素？

为什么用户不愿意选择桌面端app了？

在机器学习工具包的选择上，Scikit-learn以其全面且优质的内置模型和数据集，成为最受欢迎的机器学习框架，超越TensorFlow, Keras, Xgboost, LightGBM, PyTorch等。

PyTorch的使用人数逐年稳步上升，TensorFlow则是略有下降，不过TensorFlow使用人数还是比PyTorch多出20%左右。

这就叫做PyTorch逐年上升难掩颓势，TensorFlow连年下降尽显王者风范。

在深度学习架构的选择上，Transformers模型逐年上升，超过60%的数据科学家都在用。

对此，报告中提出两个问题：

你觉得scikit-learn流行的原因是因为它太全了，能覆盖的用例更多吗？

表格数据在商业分析中有多重要？提升树（boosted tree）和神经网络之间在表格分析中有绝对的赢家吗？为什么提升树在Kaggle中占据主导地位？

在云计算的调研中，所有的主流云计算服务提供商，包括亚马逊AWS，谷歌GCP和微软Azure，都比上一年的业绩有所提升。

一些专用的计算硬件如TPU逐渐受到Kaggle用户的关注，不过仍然有50%的人从未用过TPU

3万美元雇你分析数据

看完报告，是不是感觉只有几个图表，实在不过瘾？

Kaggle把原始数据打包上传到了平台上，发起一年一度的数据科学调研挑战赛（Data Science Survey Challenge），根据提交的notebook内分析出的故事进行评奖，总奖金为三万美元，还有两个月的提交时间。

比赛链接：https://www.kaggle.com/competitions/kaggle-survey-2022/data

Kaggle在竞赛中的描述中称，调研报告中有很多值得探索的地方，数据集中包含哪些人从事数据科学工作的原始数据，不同行业的机器学习正在发生什么，以及新数据科学家进入该领域的最佳方式。

Kaggle公布了所有的数据，使其成为一个全新的数据集，能够方便数据分析师们自己分析数据，而不只是听取官方公布的调研结果。

挑战赛的目标为通过叙述性文本和数据探索的结合，讲述一个关于该调研中所代表的数据科学社区子集的数据故事。

一个「故事」可以有很多种定义方式，关键在于通过数据深入探索特定数据科学和机器学习从业者群体的影响、优先级或关注点。

故事可以是宏观的，比如Python程序员；也可以是微观的，比如在硕士项目中学习机器学习的女性数据科学专业学生。

这是一个充满创造力的竞赛，你只需要讲述一个你认同的关于数据科学社区的故事。

竞赛的评价标准包括：

结构（Composition），是否有一个清晰的叙述线索的故事，清晰地表达和支持的数据？这个主题应该被很好的定义，很好的研究，并且通过使用数据和可视化很好的支持。

原创性（Originality），读者是否通过这次提交学到了新的东西？还是读者在挑战自己，用一种新的方式思考问题？一个优秀的作品可以提供给读者有价值的信息且发人深省，同时对读者来说也有新鲜感。

文档（Documentation），你的代码、notebook和其他数据源是否有很好的文档，以便读者能够理解你做了什么？你的消息来源被明确引用了吗？一个高质量的分析应该在每个步骤中简洁明了，这样理论基础就容易遵循，过程也是可重复的。

参赛作品的提交截止时间为2022年11月27日，获奖名单将于12月16日公布。

冠军的奖励为一万美元，第二到第五名分别为5000美元。

数据集中最主要的就是一个csv表格，包含43个问题和23997个回答。

在补充材料中，pdf文档详细描述了问题内容及候选项。

目前已有参赛选手提交notebook，选取高赞的参考一下。

笔记链接：https://www.kaggle.com/code/michau96/kaggle-s-popularity-in-your-country

作者的主要工作内容为通过时间来查看每个国家/地区的受访者，该分析旨在在每个可能的国家/地区找到Kaggle的流行趋势，用到的数据集包括从2017年至2022年的Kaggle Machine Learning & Data Science Survey

作者使用R语言，最后分析了50个地区，并根据其在Kaggle受欢迎程度的排名制作图表，最后分析的结果比如Kaggle在澳大利亚的受欢迎度连年下降。

而埃及则上升趋势明显。

也有一些国家的受欢迎度消退到没有数据了，比如瑞士，越南等。

另一个高赞参赛选手使用Python研究了各个国家调研受访者的薪酬范围，单位为美元。

笔记链接：https://www.kaggle.com/code/carlmcbrideellis/how-much-do-people-on-kaggle-earn-by-country-2022/notebook

因为各个国家的购买力也不同，作者还引入非正式经济学指标巨无霸指数（Big Mac Index），用来计算不同国家的美元是否一致，方便后续统一换算。

巨无霸指数以各国麦当劳餐厅的巨无霸汉堡价格，相对于该国货币汇率，作为比较的基准。该指数在1986年由《经济学人》杂志推出，每年出版一次。

以印度为例，通过对比两年的调研数据，可以看到大部分人的薪酬水平年薪都少于20000美元，基本都在一万美元左右，其巨无霸指数为2.16。

而到了加拿大，高收入群体明显增多，不过受试人数明显少于印度，巨无霸指数为0.98。

中国的主要薪酬范围为少于五万美元，巨无霸指数为1.45。

快准备好，向冠军进发吧！

参考资料：

https://www.kaggle.com/kaggle-survey-2022

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

创业！你敢吗？GGV Fellows邀请你一起来做“敢为青年”！合肥到底是怎么成功的？邻省的洛阳写了一篇长篇深度调研报告写好剧本直接出片！Google发布首个「讲故事」的视频生成模型别的简报｜韦氏词典发布年度词汇：Gaslight —— 煤气灯趁秋天近了，想邀请你来当“心意传递员”Google发岗位，限时！速投！KY邀请你2023，一起赶自由！|「情绪漫步」年度主题手账开启预售新茶饮“下半场”往何处去？看看这份2万字调研报告里的答案腾讯研究院：国有企业数字化转型调研报告（2022年）简知：女性新职业技能学习趋势调研报告深度调研丨在这个千亿市场赛道上，这些企业超越了华为台湾与中国是紧密相连有来己久「森林夜剧场 · 一人一故事」 | 上海简单森林活动招募 Google Play公布年度游戏：Apex手游、原神,神觉者,幻塔美区获奖品牌周报｜百年跑步品牌索康尼携手LFRC上演泼墨接力跑、隅田川、云鲸、THE COLORIST发布年度品牌片解数：2022防晒行业调研报告（100页）35年前，国务院的这篇调研报告，预见了今日之中国 ChatGPT讲故事，DALLE-2负责画出来，两AI合作出绘本别人写的是业务调研报告，你的只是访谈记录？《纽约时报》发布年度10佳书单，鲍勃·迪伦为使用自动笔签名道歉｜文化周报 Google发布2022年度搜索关键词：“我能改变吗？”Ensem：科技驱动，向undruggable的药物靶点宣战 | GGV投资笔记第132期数十家GGV Family成员入选「WISE2022 新经济之王年度企业」榜单｜GGVictory 我家老大，算不算太计较？涉黑涉恶，悬赏缉捕杨积俊！既讲故事、更用心听故事，这款SLG用1年时间摆脱商业化绑架的设定我给孩子讲故事的心法！这样做娃会越来越爱读书~（文中有福利）ChatGPT讲故事，DALLE-2负责画出来！两大AI合作出绘本！我，15岁辍学当厨师，吃尽生活的苦，大病之后转型做播音，靠讲故事月入两万 2022中国科技产业投资机构调研报告 | 甲子光年智库一些将军合影照布什森林的初秋清晨 2453万的名表丢了，悬赏1000多万的房产来找？原来如此……现在的父母培养孩子，用力过猛呀！观点丨怀虔敬心行保护事让历史文化融入城乡建设——城乡历史文化保护传承调研报告

热点事件追踪