Copilot 正在吞噬世界,与 ChatGPT 一起
机器之能报道
编辑:SIa
2023 年属于 AI (尤其是生成式 AI ),几乎每个人都或多或少尝试过大型语言模型 ( LLM ),无论是教师、政客、脱口秀甚至儿童活动支持人。凭借每周超过 1 亿的活跃用户,ChatGPT 跻身当之无愧的顶流。
不过,很多日常用例只触及了可能性表面。透过表面,那些真正从事技术工作的人们正在使用广泛 AI 工具来改造产品、重构业务,或者以前所未有的方式提供客户体验.......至少,大家承诺如此。
那么,真实情况是什么呢?
8月,低代码开发平台独角兽 Retool 对 1,578 名技术人员(软件工程师、工程和业务领导者、高管、产品人员、设计师等)展开了一项关于生产用例、正在使用的模型、基础设施和工具等方面的调查,全面了解他们如何使用和构建 AI 。
最近,凝结了调查结果的 《2023年 AI 生产力报告》新鲜出炉,被一些业内人士视为目前最全面的 AI 报告之一,提供了大量有关 AI+LLM 用例、技术成熟阶段以及痛点方面的有用信息。
LlamaIndex 的联合创始人兼首席执行官 Jerry Liu 表示,这份报告时目前最为全面的AI报告之一。有大量关于 AI+LLM 用例、技术成熟阶段和痛点的有用信息。
以下是这份报告的详细内容,共分三部分。
一、AI 炒作真的存在?
1、与大多数容易被炒作弄晕头的普通大众不同,这群真正从事技术工作的受访者往往更具洞察力。事实上,调查显示,他们普遍认为(51.6%),AI 有点被高估了,但不是那么严重。
当前对AI的评价是否公允?51.6%的受访者认为被高估;25.1%认为被低估。认为评价还算公允的占23.4%。
其中,高层管理人员的看法最为正面。以 10 分为满分的话,VP(副总裁)级别受访者平均评分为 5,最高管理级别( C-suite,比如 CEO、CTO 等)平均评分为 5.3。
IC(通常更接近普通技术岗位,比如普通工程师)的评价偏向于高估,例如初级员工的平均评分为 5.9,中高级 IC 的平均评分为 6。
低估、公允和高估的细分图。
2、AI 真的会改变开发人员的学习和工作方式吗?谷歌 DeepMind 团队的员工曾经发文称,过去一年半,编程问答社区 Stack Overflow 的访问量下降了五成,马斯克称其已经被 LLM 取代。
调查发现,57.% 的受访者表示,自 2022 年以来,他们使用 StackOverflow 的次数确实在减少,其中有 10.2% 的人说不再使用它。
受访者将 GitHub Copilot 和 ChatGPT 列为压倒性的原因(93.7%)。
今年你使用 StackOverflow 的次数少了多少?最多的答案投给了「少了50%」,还有人甚至表示「不再使用」。「使用次数反而变多」的人数比例最少。
3、如果 AI 可以取代 StackOverflow,那么,它可以取代……我们的工作吗?受访者普遍认为,AI 将在未来 5 年内极大地改变他们的工作和所在行业。
对人工智能对角色/行业影响的预期,只有极为少数的受访者认为「不是很多」绝大多数观点都集中在了从「多少有点」 到「彻底改变」。其中,最大的圆圈(24.5%受访者)给到了9分的评价。
按工作职能划分,以 10 分为满分,运营岗位对变革的预期最高( 7.8 ),其次是产品岗位( 7.5 ),以及数据和工程岗位(均在 7.4 左右)。设计师们不太相信,为 6.8。按资历划分,最高级别的管理者( C-suite)预计变化最大( 7.8 )。
从行业来看,从农业到医疗保健,从媒体到金融,每个人都期望至少会发生一些变化:分数范围从 6(政府工作人员)到 8.3(人力资源)。
受访者还对这些变化可能会是什么样子做出了一些预测:
4、虽然不同角色、行业和实施方式对人工智能的看法略有不同,但大多数受访者认为他们公司的事情进展顺利,或者渴望更多。
公司在人工智能方面的投资规模,只有4.4%的受访者认为公司投资过多了。绝大多数认为正好(50.7%)或者还不够(44.9%)
即使最大的 AI 怀疑论者(认为人工智能被高估的受访者)中,也只有 4.4% 的人表示他们的公司在 AI 方面投资过度。这并不一定是矛盾的!相反,它可能表明,人们仍然将其视为一项有价值的技术,尽管这项技术可能还不够成熟,或者从受访者的角度来看还没有完全达到有用的阈值。
追求人工智能的动机各不同。其中占比最大的前三位动机包括降本、跟上趋势以及满足客户真实需求。收入方面的考量反而是最不常见的激励因素。
更进一步,我们要求受访者推测所在公司追求 AI 的潜在动机。节省成本(尤其是员工人数不足 500 人的公司)和紧跟潮流是最重要的。另一方面,收入影响被视为最不常见的激励因素(即使影响很小)。
至少就目前而言,也许在当前的宏观经济环境下,AI 似乎可能被视为一种削减成本的方式,而不是创造更多业务的方式。
5、为了更深入地了解与 AI 相关的认知和变化,我们还要求受访者评估优先雇佣会用 Github Copilot 、ChatGPT 写代码的候选人的可能性。
然而,公司规模不同,答案存在一些差异:在较小的公司和刚刚起步的初创公司( 1-9 名员工),可能性程度最高,为 7.1。对于 1000-4999人规模的企业来说,下降了一个百分点,为 6.1。其余的都集中在平均值附近。
虽然使用 AI 写代码的能力对大多数人( 63.2% )产生了一定程度的积极影响,但相当一部分受访者( 27.1% )仍然相当中立。(受访者很少认为 Copilot 或 ChatGPT 技能是一种损害。)
这对于技术面试(technical interviews)意味着什么?回应也同样存在分歧。大多数受访者( 60.3% )表示,他们的公司尚未改变招聘做法,但近一半的受访者(占总数的 28.4% )预计明年会改变。相当少数( 21.2% )表示,他们的招聘流程允许使用任何 AI 工具。(拥有 1,000-4,999 名员工的中型企业最有可能— 45%—注意到作为补偿,公司增加了技术面试的难度。所有其他规模的组织都处于不到 30%的中低水平。)
二、实用性和采用现状
AI——尤其是以 LLM 形式——不再只是计算机科学的研究人员和博士的专利,各类公司都已经注意到了这一点。那么,企业以及构建它们的团队如何真正将 AI 运用到工作中呢?
1、大多数公司都处于 AI 采用早期阶段。众所周知,各公司一直在和对手比赛,看谁更快地将 AI 应用到其流程中,提供相关的「AI 产品」 甚至将自己重新定位为「 AI 公司」。
公司的人工智能采用水平,29.6%的受访者还在做打地基的工作;19。3%的受访者仅有一些临时性用例。15.7%还开始采用AI。
因此,大多数( 77.1% )的受访者表示,他们的公司已经为采用 AI 做出了某种努力。但大约一半( 48.9% )表示这些努力才刚刚起步——只是刚刚开始或临时用例。此外,15.7% 尚未真正开始,而且可能不会很快开始。
2、我们来谈谈用例。当然,企业可以通过多种方式在内部和外部采用 AI。66.2%受访者表示公司至少有一个内部用例;43.1% 的受访者表示至少有一个外部用例。
内部和外部用例之间存在相当大的鸿沟。随着技术、法规和普遍理解的快速发展,内部用例可能被视为「更安全」或某种试验场。通过将用例保留在内部提供的相对自由裁量权可以在公司担心事物损坏、数据问题或缺乏控制时,提供保护。
内部 AI 用例有用性调查,96.5%的人认为多少有点用。
公司在 AI 方面的成熟度与受访者认为 AI 有用程度之间,似乎也存在有意义的相关性。在自称 AI 采用行业领先的公司工作的受访者中,44.1% 表示该技术「非常有用」。如果公司刚刚完成基础性工作,只有 27.3% 的受访者持相同看法。
有趣的是,这些行业领先公司的受访者也最有可能将其描述为没有用,或者有时「完全是浪费时间」。人们对这项技术越熟悉,意见似乎就越强烈——这很公平。
4、那些面向公司外部客户的用例怎么样?虽然公司可以构建的可能性几乎是无限的,但大多数受访者面向客户的用途都能归纳为几个关键类别。「产品本身提供的功能(In-product features)」——包括工作流程自动化、搜索、可视化、内容审核等——占比领先( 30.6% ) ,客户支持聊天机器人( 26.5% )和知识库问答( 26% )紧随其后。
面向客户的 AI 用例
5、准确性和数据安全是痛点。无论你用 AI 做什么,今天的 AI 工具都不太可能是完美的。了解任何技术的优点和缺点都可以帮助您更好地使用它,而对于受访者来说,输出准确性是最常见的问题。(幻觉——并非完全无关的现象——排在第三位。)
开发 AI 应用程序的痛点
数据安全是另一个痛点问题,人们对它的担忧几乎与公司规模的增长呈线性关系:
AI数据安全是核心问题
考虑到这一点,公司仍在研究 AI 如何融入其数据政策。31.7% 的受访者表示,他们的公司没有关于 AI 数据使用的明确政策。另外 19.8% 的人不确定是否存在政策或具体政策是什么。
另一半受访者确实注意到某种形式的数据政策。最常见的政策要么只允许使用匿名的非个人身份信息( PII 数据,21.4%),要么对特定类别的数据施加限制 (14.6% )。少数受访者( 6.6% )不被允许将任何公司数据与 AI 一起使用;类似的比例( 6.2% )政策允许使用任何数据,只要没有供应商在该数据上训练其模型即可。
不出所料,大公司很可能会对其进行控制。拥有 1,000 名以上员工的企业最有可能( 90% ) 制定严格的数据政策。此外,与规模较小的公司相比,规模超过 500 人的公司更有可能( 41-43% )将数据安全视为关键的AI 问题——只有约 30% 的员工人数不足 50 人的公司也这么认为。
在各个部门和行业中,数据政策的严格程度是不同的。在监管程度比较低的一端,不到 40% 的非营利组织( 31% )和教育部门( 35% )受访者表示,他们的公司实行严格的数据政策。在监管程度严格的领域,医疗保健( 59% )比紧随其后的能源( 48% )领先11 个百分点。金融服务通常被认为是严格且高度监管的领域,但处于中间位置,占 44%。
5、(几乎)每个人都在工作中使用 AI,无论是否被允许。工作场所中显然有大量 AI 的使用—— 54% 在工作中使用 AI 的受访者是在鼓励 AI 的公司中使用——但并非所有事情都是公开的。34.4% 的受访者表示他们正在秘密使用 AI 工作,尽管大多数人仍在遵守规则。( 57% 的受访者表示他们在公司政策范围内使用它。)
在工作中偷偷使用人工智能?!
虽然人们都清楚可以公开使用 AI ,为什么要秘密地使用 AI?到底是怎么回事?
对于那些在黑暗的掩护下使用 AI 的人来说——也就是说,在公司政策之外——有些人可能会违反规则,这是肯定的。但这个数字可能至少部分反映了数据政策的模糊性或尚未制定政策。这将是一个值得关注的部分——随着 AI 变得越来越可用、安全和易于理解,我们可以由此观察到自己与 AI 的关系将如何变化。
三、工具领导者
用于定制和改进 AI 应用程序的工具套件正在不断涌现。哪些基础设施、模型和应用程序正在让奇迹发生——公司开发自己的 AI 解决方案要解决哪些问题?
1、OpenAI 模型是构建 AI 应用程序的主要选择。当一家公司想用 AI 驱动自己的产品时,并不缺乏可供选择的 LLM——我们在调查中问了十几个,受访者还写了其他的选择。也就是说,OpenAI 无疑占据了很大的市场份额——可以说,目前,他们的模型似乎是受访者的默认选项。
最经常被用到的排名靠前的模型分布
不是经常用到的模型分布情况
ChatGPT 的各种风格模型(按顺序为 4、3.5 和 3 )是大多数受访者 ( 80.1% ) 最常用的模型。如果受访者使用其中一种模型,他们几乎也总是使用另一种( 88.9% )。
当我们询问不那么常用到的模型时,事情开始变得更加有趣。这些不同风格的 GPT 仍占近一半( Dall-E 取得了很大的飞跃,跃居到了第三位),其他类似 Claude 和 LaMDA 似乎变得更重要。
另一种角度看待排名靠前的模型分布——象限图
2、超越开箱即用的 LLM 是例外,而不是规则。由于许多受访者主要使用 OpenAI 模型,因此我们在他们工作的公司中看到类似的模式是合理的。三分之二的受访者( 68.7% )表示,他们的公司正在使用托管模式。19.6% 的人计划在不久的将来运行开源模型;大约一半使用托管模型的受访者没有计划进行自托管。剩下约 30% 的受访者在 HuggingFace 等云提供商上运行开源模型和完全自托管之间,各占一半。
自托管随着公司规模的增加而增加:
深入挖掘后,我们发现近一半( 48.1% )的受访者表示他们的公司目前没有对其模型进行任何定制,22.1 % 的受访者表示他们不需要定制。
当被问及如何自定义模型?26%受访者表示他们的公司目前没有对其模型进行任何定制,未来有计划。25.7%的受访者表示有微调。22.1%表示不需要定制。仅19.5%内部建立自己的模型。
在谈到开发工具时,近 40% 的受访者表示他们的公司没有使用任何 AI 基础设施工具;另外约 16% 表示,自己内部建造。在受访者排名的工具中,Hugging Face 占据领先地位(尤其是在 100 人以下的公司中,有趣的是,超过 5000 人的公司,比例从 41% 到 54% 不等),其次是 LangChain。
最流行的 AI 开发工具
围绕即时工程和测试模型输出的实践似乎也刚刚起步。近四分之一的受访者根本不跟踪即时性能,而另外约 35% 的受访者只进行手动测试。在那些测量和测试新的即时性能的公司中,手动测试在员工人数少于 500 人的公司中最为常见(占比为 44-47% ),而对于中型企业来说,手动测试显著下降至 32% 。内部工具扭转了这种模式,中型企业占 23% , 500 人以下的公司占 9-15%。
测量 prompt 性能方式
3、Copilot 正在吞噬世界(与 ChatGPT 一起)。尽管许多公司仍在寻找立足点,但 AI 对工程师的作用似乎正在具体化。像 GitHub Copilot 这样的工具在受访者今天使用(和喜欢)的功能中处于领先地位。值得注意的是,Copilot 有时被称为程序员搭档,不仅被工程( 42% )等技术团队使用,甚至设计团队( 13% )和运维团队( 22% )也表示他们使用它。
在我们询问的 19 个功能应用中,只有两项被超过 10% 的受访者使用:Copilot 和 Grammarly。(上图仅显示了至少有 1% 的受访者使用的功能。)大约五分之一的受访者没有使用任何功能。
当然,某个功能的受欢迎程度可能在某种程度上取决于该产品的整体受欢迎程度、该功能的成熟度和可用性等。由于 GitHub 拥有超过 1 亿用户,而 Grammarly 的出现时间比名单上的大多数其他公司都要长几年,更不用说对于许多受访者来说,编写代码和文字的内在必要性,这两者很可能具有一些固有的优势。
可是等等!还有更多。作为 GitHub Copilot 已实现一定程度的产品市场契合度的进一步证据, 68% 的受访者将其列为最重要的三个 AI 助手之一,仅次于 ChatGPT,后者几乎在所有受访者( 96.9% ) 中排名前三。( Google Bard 在这场三人赛中排名第三,得分为 47.6% 。)
目前,就特定工具而言, Copilot 很可能是 AI 杀手级应用的一个例子:高使用率、高影响力、高满意度。
4、矢量数据库,现在还处于早期阶段。由于公司大多使用开箱即用的托管模型,矢量数据库更像是一个未开发的领域,只有不到 20% 的受访者正在使用矢量数据库。但使用它们可能就意味着喜欢它们:所有排名前半部分的流行度都被评为相对中立到积极的。
考虑到所有这些,目前采用率较低的原因可能有多种——三分之二以上的公司处于早期阶段,其中最主要的是托管模型。尽管如此,还是有差异的:有些人可能缺乏投资资源,团队可能没有必要的专业知识,而其他人可能不知道随着 AI 实施的成熟,向量数据库可以提供的价值。
Pinecone 最受 1-99 名员工的公司欢迎;Postgres (pg_vector) 最受 100-999 名员工的公司欢迎;Chroma 最受 1000+ 员工公司的欢迎
进一步剖析数据,最引人注目的数字出现在员工人数为 500 至 999 的公司中。63%使用向量数据库的受访者表示是 pg_vector(是大多数其他公司规模的两倍多);他们还报告称,与其他规模的公司相比,Pinecone 的使用率( 19% )要低得多,其他规模的公司的 Pinecone 使用率通常在 30% 到 40% 左右。
四、2023 年人工智能的状况如何?
虽然 AI 的许多要素对于日常用户来说仍然遥不可及,但 LLM 今年却呈爆炸式增长。目前,公司大多是 GitHub Copilot 等人工智能应用程序的消费者,如果他们正在构建自己的东西,很可能是使用 GPT- 4(或 3.5 … 或 3 … )的内部用例。
随着形势的发展,公司是否会开始微调他们的模型,用向量数据库增强模型,并迭代他们的 LLM Prompt?他们会为 AI 的使用制定深思熟虑的政策和护栏,并鼓励秘密使用 LLM 的员工公开使用它们吗?我们拭目以待。
目前,每个人都在思考很多重大问题,很多受访者还想要谈论:
很明显,无论他们是看涨、看跌还是只是随波逐流,各个行业和角色的技术人员都在认真思考 AI 的可能性和影响,以及它们将如何塑造未来的许多方面。我们认为,这一充满活力的篇章才仅仅开了一个头。
PS:以下是 1,578 位受访者所属行业、岗位、公司的统计。
参考链接
https://retool.com/reports/state-of-ai-2023
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者