有钱缺数据 AI初创企业陷樽颈

2023-06-19 12:06

《华尔街日报》：大型企业忧安全性等问题拒合作

香港文汇报讯人工智能（AI）初创企业近月发展迅速，像ChatGPT这类AI工具已引发对大语言模型潜力的热潮，拥有合适的数据进行训练，对改进AI是至关重要。然而《华尔街日报》指出，大型企业忧虑安全性等问题，并不愿意与希望为训练自身语言模型的初创企业分享自有数据，认为生成式AI初创企业缺乏数据才是真正难题，可能面临发展樽颈。

美国风险投资公司Primary Venture Partners联合创始人兼合夥人斯沃卢加说，「我们看过很多公司的推介，这些公司很可能在开发一款卓越的AI应用程式，但它们没有获得使自己有能力开发一款强大应用程式的数据渠道，更不用说能帮助公司在业务中建立竞争护城河的自有数据了。」Bullpen Capital首席技术官泰玛也称，由於构建实际的模型已在一定程度上变得商品化，真正的价值在於数据，「现在要想取得成功，拥有适合的数据比以往任何时候都更关键。」

风险投资激增难获训练数据

根据数据公司PitchBook的数据，对生成式AI初创企业的风险投资，已从去年的48亿美元（约375亿港元），增长至今年头5个月的127亿美元（约993亿港元）。现在许多这类公司都希望在金融或医疗健康等领域，建立更加细分化的AI模型，但要获得这些领域的训练数据并非易事。

一些AI初创公司的目标就是与大型、数据丰富的企业合作，例如会计师事务所安永由於拥有大量交易数据，每天都有生成式AI初创公司与其接触。但安永全球客户服务管理合夥人鲍德温说，他关切的问题是，若安永的数据被用来训练外部模型会发生什麽事？「谁拥有这些数据？训练模型时，这个模型的访问权是什麽？还有其他人将如何以别的方式使用该模型？数据是我们带来的知识产权的一部分。」

大型科企生成式AI更具优势

初创公司可以通过为每个客户训练不同的模型，且只用该客户的数据，以此来解决知识产权问题。但法律科技公司Logikcull联合创始人兼行政总裁威尔逊称，让企业相信你有一个强大的网络安全配置，并能真正保护这些数据，这也是一个挑战。

斯沃卢加说，在生成式AI应用方面，大型科技公司可能比初创企业更有优势，原因之一是它们已得到大客户的信任，可放心让它们处理数据。例如金融服务公司Truist首席数据官丹尼尔斯便称，她目前只与大型技术供应商而非初创公司，探讨生成式AI的使用案例，表示她相信较大的供应商能保證数据的安全。

这意味即使是那些能利用公开数据取得先机的初创企业，在利用企业数据集壮大模型方面也面临挑战。Veesual是一家能生成人们试穿衣服图像的AI初创公司，最初利用互联网上的公共图像进行训练，但很难让大型零售商同意交出它们的数据来增强模型。该公司表示，有时大型零售商会要求获得巨额报酬或公司股权，以换取Veesual通过这些数据获利，结果无法达成交易。

--- 廣告 ---

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章