GitHub年度报告曝光:生成式AI项目暴涨2倍,个人贡献者激增148%,从趋势看机遇何在?
一项新技术成为主流意味着什么?
Git 于 2005 年首次发布,在我们创建 GitHub 时,它仍然是一个新的开源版本控制系统。如今,Git 是现代开发者体验的一个基础元素——93% 的开发者使用它来构建和部署软件。
在 2023 年,GitHub 的数据强调了另一项技术如何迅速开始重塑开发者体验:人工智能。在过去的一年里,越来越多的开发者开始使用人工智能,同时也在尝试构建人工智能驱动的应用程序。Git 从根本上改变了今天的开发者体验,现在人工智能正在为软件开发的下一步奠定基础。
在 GitHub,我们知道开发人员喜欢边做边学,开源可以帮助开发人员更快地采用新技术,将其集成到工作流程中,并构建下一步。开源也为几乎每一款现代软件提供了动力,包括大部分数字经济。在我们探索技术如何成为主流的过程中,GitHub 继续在弥合实验和广泛采用开源技术之间的差距方面发挥着关键作用,开源技术是我们软件生态系统的基础。
在今年的报告中,我们将研究围绕人工智能、云和 Git 的开源活动如何改变了开发者体验,并在开发者和组织中产生越来越大的影响。
我们发现了三大趋势:
一、开发人员正在大量使用生成式人工智能进行构建应用。我们看到越来越多的开发人员尝试 OpenAI 和其他人工智能参与者的基础模型,开源生成式人工智能项目甚至在 2023 年进入了贡献者数量排名前十的最受欢迎的开源项目。随着几乎所有开发者(92%)都在使用或试验人工智能编码工具,我们预计开源开发者将在 GitHub 上推动下一波人工智能创新。
二、开发人员正在大规模操作云原生应用程序。 我们看到,使用基于 Git 的基础设施作为代码(IaC)工作流的声明性语言越来越多,云部署的标准化程度越来越高,开发人员使用 Dockerfiles 和容器、IaC 以及其他云原生技术的速度也急剧增加。
三、2023 年首次开源贡献者数量最多。我们继续看到商业支持的开源项目在首次贡献者和整体贡献者中占据了最大份额——但今年,我们也看到生成式人工智能项目进入了首次贡献者最受欢迎的十大项目。我们还看到 GitHub 上的私人项目显著增长,同比增长 38%,占 GitHub 所有活动的 80% 以上。
在全球范围内,开发人员使用 GitHub 构建软件并进行协作的人数比以往任何时候都多,而且这种协作跨越了公共和私人项目。这不仅证明了 Git 在当今开发者体验中的基础价值,也展示了全球开发者社区在使用 GitHub 构建软件。
在过去的一年里,美国有 2020 万开发者,开发者增长了 21%,仍然是全球最大的开发者社区。但自 2013 年以来,我们继续看到其他社区在整个平台上占据了更多的增长,我们预计增长将继续下去。GitHub 上开发者的全球分布显示了哪些地区拥有最多的开发者。
我们认为谁是开发人员?
我们将“开发者”定义为任何拥有 GitHub 帐户的人。
为什么?
开源和开发人员社区是一个越来越多样化的全球性群体,他们修补代码、做出非代码贡献、进行科学研究等等。GitHub 用户推动开源创新,他们跨行业工作——从软件开发到数据分析和设计。
亚太、非洲、南美和欧洲的开发商社区逐年扩大,其中印度、巴西和日本处于领先地位。
预测未来五年排名前十的开发者社区
为了了解哪些开发者社区在未来五年内增长最快,我们根据当前的增长率进行了预测。根据这一准则,我们预计到 2027 年,印度将超过美国,成为 GitHub 上最大的开发者社区。
这些预测假设线性增长,以预测到 2028 年哪些开发者社区将成为 GitHub 上最大的开发者社区
亚太地区发展最快的开发者社区
在印度、日本和新加坡的经济中心的推动下,我们继续看到亚太地区的可观增长。
表 1:2023 年开发商总增长率,比 2022 年增长 %
印度的开发者群体继续保持着巨大的同比增长
在去年的 Octoverse 中,我们预测印度的开发者总人口将超过美国。这仍在继续。印度的开发者人数同比增长 36%,2023 年有 350 万新开发者加入 GitHub。
作为联合国支持的数字公共产品联盟的一部分,印度一直在用开放材料建设其数字公共基础设施,从软件代码到人工智能模型,以改善数字支付和电子商务系统。以下是印度开发人员在 GitHub 上构建并参与的开源软件(OSS)项目列表。
新加坡是亚太地区今年开发者人口增长最快的国家,在全球排名第一,开发者占总人口比例最高。
由于对技术和初创公司的投资,我们还可能看到日本的开发者在未来一年继续增长。
非洲发展最快的开发者社区
非洲地区是世界上人口增长最快的地区,开发人员数量不断增加,已被确定为科技公司的重要枢纽。(例如,在肯尼亚,小学和中学必须教授编程。)
表 2:2023 年开发者总增长率,比 2022 年增长 %
尼日利亚是开放源码软件采用和技术投资的热点,其 45% 的同比增长率——这是全球最大的增长率——反映了这一点。GitHub 上还有一个由尼日利亚开发者制作的至少 200 个项目的集合,可以在“非洲制造”集合(Collection: Made in Africa · GitHub)中找到。
南美洲发展最快的开发者社区
南美洲的开发者增长率与亚太和非洲一些增长最快的开发者社区不相上下。
表 3:2023 年开发者总增长率,比 2022 年增长 %
2023 年,巴西的开发者人口是该地区最多的,并继续以两位数的速度增长,同比增长 30%。此前,私人和公共组织继续在巴西进行投资。查看巴西开发人员在 GitHub 上制作并参与的 OSS 项目列表。
我们还看到阿根廷和哥伦比亚的经济持续增长,这两个国家在过去几年中已成为各组织的热门投资目标。
欧洲发展最快的开发者社区
整个欧洲的社区的总体开发者数量继续增加,但随着南美洲、非洲和亚太地区的社区增长超过他们,他们的发展现在更接近美国。
表 4:2023 年开发者总增长率,比 2022 年增长 %
值得注意的是,法国的增长是在政府推动吸引更多科技初创企业之后实现的。我们还看到西班牙和意大利的增长有所上升,这表明这两个地区为支持其国内技术市场所做的努力。
虽然生成式人工智能在 2023 年的新闻头条上引起了轰动,但对 GitHub 上的开发者来说,这并不完全是新鲜事。事实上,在过去几年里,我们已经看到 GitHub 上出现了几个生成式人工智能项目,还有很多其他以人工智能为重点的项目。
但 GitHub 2023 年的数据反映了这些人工智能项目如何从更专业的工作和研究发展到更主流的被采用,开发者越来越多地使用预先训练的模型和 API 来构建生成式的人工智能应用程序。
就在过去一年的一半时间里,我们看到 2023 年生成式人工智能项目的数量是 2022 年全年的两倍多。我们知道这只是冰山一角。
随着越来越多的开发人员尝试这些新技术,我们希望他们能够推动软件开发中的人工智能创新,并继续将技术的快速发展能力纳入主流。
开发人员越来越多地尝试人工智能模型。在过去的几年里,我们看到开发人员使用 tensorflow、pytorch 等机器学习库构建项目,而现在我们看到更多的开发人员在尝试人工智能模型和 LLM,如 ChatGPT API。
保持智能:我们预计企业和组织也会利用预先训练好的人工智能模型,尤其是随着越来越多的开发人员熟悉使用它们进行构建。
开源人工智能创新是多样化的,顶尖的人工智能项目由个人开发者所有。通过分析 GitHub 上排名前 20 位的开源生成式人工智能项目,其中一些排名前 20 的项目为个人所有。这表明,GitHub 上的开源项目将继续推动创新,并向我们展示行业的下一步,社区将围绕最令人兴奋的进步进行建设。
生成式人工智能正在推动生成人工智能项目的个人贡献者在全球范围内大幅增长,同比增长 148%,生成人工智能的项目总数也同比增长 248%。值得注意的是,美国、印度和日本在开发者社区中处于领先地位,包括香港、英国和巴西在内的其他地区紧随其后。
学习生成式人工智能的开发人员数量的大幅增加将影响企业。随着越来越多的开发人员熟悉构建生成式人工智能应用程序,我们预计不断增长的人才库将支持那些寻求开发自己的人工智能产品和服务的企业。
最重要的是:在过去的一年里,随着开发人员使用这些 LLM 开发面向用户的工具,如 API、机器人、助手、移动应用程序和插件,我们看到在基础模型之上构建的应用程序(如 ChatGPT)呈指数级增长。全球的开发人员正在帮助为主流应用奠定基础,而实验正在帮助为组织建立人才库。
自 2019 年我们看到云原生开发的巨大增长以来,IaC 在开源方面持续增长。2023 年,Shell 和 Hashicorp 配置语言(HCL)再次成为开源项目中的顶级语言,这表明操作和 IaC 工作在开源领域越来越突出。
HCL 的采用率同比增长 36%,这表明开发人员正在为他们的应用程序使用基础设施。
HCL 的增加表明,开发人员越来越多地使用声明性语言来决定他们如何利用云部署。
JavaScript 再次成为最受欢迎的语言,我们继续看到熟悉的语言,如 Python 和 Java,年复一年地保持在前五名。
TypeScript 越来越受欢迎。今年,TypeScript 的用户群增长了 37%,首次超过 Java,成为 GitHub 上 OSS 项目中第三受欢迎的语言。TypeScript 是一款集语言、类型检查器、编译器和语言服务于一体的软件,于 2012 年推出,标志着渐进类型的诞生,它允许开发人员在代码中采用不同级别的静态和动态类型。
用于数据分析和操作的流行语言和框架显著增加。T-SQL 和 TeX 等受人尊敬的语言在 2023 年发展起来,这突出了数据科学家、数学家和分析师如何越来越多地参与开源平台和工具。
最重要的是:编程语言不再局限于传统软件开发领域。
与 GitHub 中使用的总体最流行语言相比,我们发现 2023 年创建的项目中使用的最流行语言具有显著的对等性。一些显著的异常包括 Kotlin、Rust、Go 和 Lua,它们在 GitHub 上的新项目中有更大的增长。
Rust 和 Lua 都以其内存安全性和效率而闻名,它们都可以用于系统和嵌入式系统编程,这可以归因于它们的增长。Go 最近的增长是由云原生项目推动的,如 Kubernetes 和 Prometheus。
2023 年初,我们庆祝了超过 1 亿开发者使用 GitHub 的里程碑——自去年以来,我们看到 GitHub 上的所有全球开发者账户增长了近 26%。比以往任何时候都更多的开发人员跨时区协作并构建软件。私人和公共存储库中的开发人员活动强调了哪些技术正在被广泛采用,以及哪些技术将被更广泛地采用。
开发人员正在自动化更多的工作流程。在过去的一年里,开发人员在公共项目中自动化任务、开发 CI/CD 管道等方面使用的 GitHub Actions 分钟数增加了 169%。
平均而言,开发人员在公共项目中每天使用超过 2000 万分钟的 GitHub 操作。随着 2023 年 GitHub 市场中 GitHub 操作的数量突破 20000 大关,社区不断增长。
这突出了开源社区对 CI/CD 自动化和社区管理的日益认识。
GitHub 80% 以上的贡献都来自于私人存储库。这是对私人项目的 42 亿美元捐款,对公共和开源项目的 3.1 亿美元捐款。这些数字显示了通过免费、团队和 GitHub Enterprise 帐户在公共、开源和私有存储库中进行的活动的规模。丰富的私人活动表明了内部源代码的价值,以及基于 Git 的协作不仅有利于开源的质量,也有利于专有代码的质量。
事实上,在 GitHub 最近发起的一项调查中,所有开发人员都表示,他们的公司至少采用了一些内部源代码做法,超过一半的人表示他们的组织中有一种活跃的内部源代码文化。
GitHub 是开发人员操作和扩展云原生应用程序的地方。2023 年,430 万个公共和私人存储库使用了 Dockerfiles,超过 100 万个公共存储库使用 Dockerfile 创建容器。在过去几年中,我们在 Terraform 和其他云原生技术中看到了越来越多的使用。IaC 的实践日益采用也表明,开发人员正在为云部署带来更多的标准化。
Generative AI 进入 GitHub Actions。人工智能在开发者社区中的早期采用和协作能力在 GitHub 市场中的 300 多个人工智能驱动的 GitHub 动作和 30 多个 GPT 驱动的 GitHub 动作中表现得很明显。开发人员不仅继续尝试人工智能,还通过 GitHub Marketplace 将其引入开发人员体验和工作流程的更多部分。
重要的是:开发人员尝试新技术,并在公共和私人存储库中分享他们的经验。这项相互依存的工作揭示了容器化、自动化和 CI/CD 在开源社区和公司之间打包和运送代码的价值。
今年,我们看到开发人员、OSS 社区和公司都通过自动警报、工具和主动安全措施更快地响应安全事件,这有助于开发人员更快地获得更好的安全结果。我们也看到负责任的人工智能工具和研究在 GitHub 上共享。
越来越多的开发人员正在使用自动化来保护依赖关系。2023 年,开源开发者为易受攻击的软件包合并了比 2022 年多 60% 的自动可靠拉取请求,这突出了共享社区对开源和安全的执着。由于 GitHub 上的免费工具,如可靠、代码扫描和秘密扫描,开源社区的开发人员正在修复更多易受攻击的包,并解决代码中的更多漏洞。
我们通过一个名为 Mona Rank 的准则来计算前 1000 个公共项目,该准则评估了明星、分叉和独特问题作者的数量。我们采用所有具有许可证的公共、非分叉存储库,计算上述三个指标中的每一个的排名,然后使用总和来显示排名靠前的 Mona 排名项目。
越来越多的开源维护人员正在保护他们的分支。受保护的分支为维护人员提供了更多的方法来确保其项目的安全,我们已经看到超过 60% 的最受欢迎的开源项目都在使用它们。自从今年早些时候我们在 GA 的 GitHub 上推出了存储库规则以来,大规模管理这些规则应该会变得更加容易。
开发人员正在 GitHub 上共享负责任的人工智能工具。在实验生成式人工智能时代,我们看到了人工智能信任和安全工具的发展趋势。开发人员正在围绕负责任的人工智能、人工智能的公平性、负责任的机器学习和道德人工智能创建和共享工具。
乔治城大学安全与新兴技术中心也在确定哪些国家和机构是值得信赖的人工智能研究的顶级生产者,并在 GitHub 上分享其研究代码。
重要的是:为了帮助 OSS 社区和项目保持更安全,我们投资了向公共项目免费提供可靠、受保护的分支、CodeQL 和秘密扫描。2023 年的新采用指标显示了这些投资如何成功地帮助更多开源项目提高其整体安全性。我们也看到了软件开发人员和机构研究人员对创建和共享负责任的人工智能工具的兴趣。
2023 年,开发者为 GitHub 的开源项目贡献了 3.01 亿美元,这些项目从 Mastodon 等热门项目到 Stable Diffusion 和 LangChain 等生成式人工智能项目。
商业支持的项目继续吸引着一些最开源的贡献,但 2023 年是生成式人工智能项目首次进入 GitHub 十大最受欢迎项目。说到生成式人工智能,几乎三分之一至少有一颗星的开源项目都有一个使用 GitHub Copilot 的维护人员。
商业支持的项目继续处于领先地位。2023 年,贡献者总数中最大的项目获得了压倒性的商业支持。与去年相比,这是一个持续的趋势,microsoft/vscode、flutter/flutter 和 vercel/next.js 在 2023 年再次成为我们的前十名。
生成式人工智能在开源和公共项目中快速增长。2023 年,我们看到基于人工智能的生成式 OSS 项目,如 langchain AI/langchain 和 AUTOMATIC111/ 稳定扩散 webui,在 GitHub 上排名第一。越来越多的开发人员正在使用预先训练的人工智能模型构建 LLM 应用程序,并根据用户需求定制人工智能应用程序。
开源维护人员正在采用生成式人工智能。几乎三分之一至少有一颗星的开源项目的维护人员正在使用 GitHub Copilot。这是继我们向开源维护者免费提供 GitHub Copilot 的计划之后,显示了生成式人工智能在开源中的日益普及。
开发人员看到了组合包和容器化的好处。正如我们前面提到的,2023 年有 430 万个存储库使用了 Docker。另一方面,Linux 发行版 NixOS/nixpkgs 在过去两年中一直是开源项目的首选。
首次贡献者继续青睐商业支持的项目。去年,我们发现,与其他项目相比,受欢迎的商业支持项目的品牌认可力吸引了更多的首次贡献者。2023 年,微软、谷歌、Meta 和 Vercel 支持了一些在首次贡献者中最受欢迎的开源项目。
在社区驱动的开源项目,从 home-assistant/core 到 AUTOMATIC111/stable-diffusion-webui、langchain-ai/langchain 和 signifcant-gravitas/Auto-GPT,首次贡献者的活动也激增。这表明,基础模型的开放实验增加了生成式人工智能的可访问性,为新的创新和更多的合作打开了大门。
2023 年,首次为开源项目捐款的人数最多。新的开发人员通过 freeCodeCamp、First Contributions 和 GitHub Education 等项目加入了开源社区。我们还看到大量开发人员参与了谷歌和 IBM 等公司的在线开源教育项目。
重要的是:开发人员正在为开源生成人工智能项目做出贡献,开源维护人员正在采用生成人工智能编码工具,公司继续依赖开源软件。这些都表明,无论是在公共还是私人存储库中工作,公开学习并分享新技术实验的开发人员都提升了整个全球开发人员网络。
正如 Git 已经成为当今开发者体验的基础一样,我们现在看到了人工智能主流出现的证据。仅在过去一年,就有 92% 的开发者报告在工作内外使用了基于人工智能的编码工具。在过去的一年里,GitHub 上托管的各种开源项目中的人工智能实验也出现了爆炸性的激增。
我们给您留下三条路径:
1、GitHub 是生成式人工智能的开发者平台。2023 年,生成式人工智能从一个专业领域发展成为主流技术,开源活动的激增反映了这一点。随着越来越多的开发人员构建和实验生成式人工智能,他们正在使用 GitHub 进行协作和集体学习。
2、开发人员正在 GitHub 上大规模操作云原生应用程序。2019 年,我们开始看到在开源中使用基于容器技术的开发人员数量大幅增加,2023 年,开发人员越来越多地使用基于 Git 的 IaC 工作流、容器编排和其他云原生技术。这一巨大的活动表明,开发人员正在使用 GitHub 来标准化他们如何将软件部署到云上。
3、GitHub 是开源社区、开发人员和公司构建软件的地方。2023 年,我们看到私人存储库的数量增加了 38%,占 GitHub 所有活动的 81% 以上。但我们看到开源社区的持续增长,他们正在使用 GitHub 构建下一步,推动行业向前发展。数据显示,新的开源开发人员不断增加,开放社区的创新步伐也很快,很明显,开源从未如此强大。
本报告利用了 2022 年 10 月 1 日至 2023 年 9 月 30 日期间从 GitHub 获取的匿名用户和产品数据。我们在 GitHub 上通过 683 个存储库主题术语定义人工智能项目,您可以在我们 2023 年进行的研究中了解更多信息。我们还通过一种称为“Mona Rank”的指标来评估开源项目,这是一种基于排名的项目社区规模和受欢迎程度分析。
更多数据可在 GitHub 创新图上公开获取,这是 GitHub 为对整个 GitHub 的软件开发状态感到好奇的组织和个人提供的研究工具。
原文链接:
https://github.blog/2023-11-08-the-state-of-open-source-and-ai/#take-this-with-you
《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。
微信扫码关注该文公众号作者