有钱缺数据 AI初创企业陷樽颈
《华尔街日报》:大型企业忧安全性等问题拒合作
香港文汇报讯 人工智能(AI)初创企业近月发展迅速,像ChatGPT这类AI工具已引发对大语言模型潜力的热潮,拥有合适的数据进行训练,对改进AI是至关重要。然而《华尔街日报》指出,大型企业忧虑安全性等问题,并不愿意与希望为训练自身语言模型的初创企业分享自有数据,认为生成式AI初创企业缺乏数据才是真正难题,可能面临发展樽颈。
美国风险投资公司Primary Venture Partners联合创始人兼合夥人斯沃卢加说,「我们看过很多公司的推介,这些公司很可能在开发一款卓越的AI应用程式,但它们没有获得使自己有能力开发一款强大应用程式的数据渠道,更不用说能帮助公司在业务中建立竞争护城河的自有数据了。」Bullpen Capital首席技术官泰玛也称,由於构建实际的模型已在一定程度上变得商品化,真正的价值在於数据,「现在要想取得成功,拥有适合的数据比以往任何时候都更关键。」
风险投资激增 难获训练数据
根据数据公司PitchBook的数据,对生成式AI初创企业的风险投资,已从去年的48亿美元(约375亿港元),增长至今年头5个月的127亿美元(约993亿港元)。现在许多这类公司都希望在金融或医疗健康等领域,建立更加细分化的AI模型,但要获得这些领域的训练数据并非易事。
一些AI初创公司的目标就是与大型、数据丰富的企业合作,例如会计师事务所安永由於拥有大量交易数据,每天都有生成式AI初创公司与其接触。但安永全球客户服务管理合夥人鲍德温说,他关切的问题是,若安永的数据被用来训练外部模型会发生什麽事?「谁拥有这些数据?训练模型时,这个模型的访问权是什麽?还有其他人将如何以别的方式使用该模型?数据是我们带来的知识产权的一部分。」
大型科企生成式AI更具优势
初创公司可以通过为每个客户训练不同的模型,且只用该客户的数据,以此来解决知识产权问题。但法律科技公司Logikcull联合创始人兼行政总裁威尔逊称,让企业相信你有一个强大的网络安全配置,并能真正保护这些数据,这也是一个挑战。
斯沃卢加说,在生成式AI应用方面,大型科技公司可能比初创企业更有优势,原因之一是它们已得到大客户的信任,可放心让它们处理数据。例如金融服务公司Truist首席数据官丹尼尔斯便称,她目前只与大型技术供应商而非初创公司,探讨生成式AI的使用案例,表示她相信较大的供应商能保證数据的安全。
这意味即使是那些能利用公开数据取得先机的初创企业,在利用企业数据集壮大模型方面也面临挑战。Veesual是一家能生成人们试穿衣服图像的AI初创公司,最初利用互联网上的公共图像进行训练,但很难让大型零售商同意交出它们的数据来增强模型。该公司表示,有时大型零售商会要求获得巨额报酬或公司股权,以换取Veesual通过这些数据获利,结果无法达成交易。
--- 廣 告 ---
--- 廣 告 ---
--- 廣 告 ---
--- 廣 告 ---
微信扫码关注该文公众号作者