Redian新闻
>
AI圈公开的秘密:天下模型一大抄

AI圈公开的秘密:天下模型一大抄

公众号新闻

抄袭已经成为AI世界公开的秘密。

据The Information周一的文章,许多初创公司的AI聊天机器人很可能是采用了OpenAI和其他公司的数据开发的。这些机器人在某些任务上可以媲美GPT-4,但收费只是后者的一小部分。

初创公司在开发过程中没有披露使用OpenAI的技术。不过,The Information报道称,OpenAI首席执行官Sam Altman去年夏天告诉初创公司创始人,可以接受初创公司以这种方式使用OpenAI的技术。

虽然Altman的回应让一些初创公司松了一口气,但这种做法实质上损害了OpenAI的增长,Altman随时可能改变主意。


在初创公司中,抄袭已成常态

初创公司抄袭OpenAI的具体做法是,先开通GPT-4的会员,然后向它提出一系列问题,例如“这行代码有什么问题?”他们使用这些问题和答案来训练自己的竞品模型。

采取这一策略的初创公司不在少数。

Unsloth AI联合创始人Daniel Han估计,他大约一半的客户从GPT-4或Anthropic的Claude模型中获取数据,并用它来改进自己的模型。许多公司也从ShareGPT获得此类数据,ShareGPT是一个开发人员分享使用OpenAI模型生成答案的网站。

小型开发商的模型通常基于Meta Platforms或Mistral AI免费提供的流行开源模型,但通过融合OpenAI模型的答案,可以显著提高这些模型输出内容的质量。Han表示,一些开发人员正在使用一项名为OpenPipe的服务来自动化这一过程。

“在一个尚未建立明确规则的新生态系统中,就会发生这种情况,”Menlo Ventures董事总经理Matt Murphy表示,该公司投资了OpenAI的竞争对手Anthropic。Murphy说:

如果大家都使用相同的数据,你怎么能比其他人更出色呢?

目前尚不清楚OpenAI、谷歌、Anthropic和其他大型开发商会在多大程度上允许初创对手利用他们的数据进行追赶。

Radical Ventures合伙人Rob Toews表示:

AI模型的训练数据的质量和来源正成为最重要的热点问题之一。没有人确切知道事情将如何发展,但任何没有对(数据来源)进行周密和战略考虑的AI初创公司都在落后。

如果那些在开发模型时暗中依赖其他AI服务的开发商被曝光,它们可能会面临尴尬的处境。

比如,总部位于巴黎的Mistral使用Meta的开源AI 模型Llama 2创建了自己的AI,但直到无意泄露才披露这一事实,引起了一些开发者的不满。Mistral已经筹集了数亿美元的资金。


大公司也一样?

实际上,初创公司利用OpenAI数据训练模型的做法,与OpenAI等AI巨头的做法并无二致。

OpenAI首席技术官Mira Murati上个月在回答有关该公司是否使用谷歌旗下YouTube以及Meta Platforms旗下Facebook和Instagram的数据来训练生成AI视频的Sora时表现出了犹豫和困惑。

如果OpenAI真的使用了这些数据,也不足为奇。

据《纽约时报》最近的报道,OpenAI创建了一个名为Whisper的语音识别工具,用于转录YouTube视频,以此来改进GPT-4。此前,也有媒体曾报道称,OpenAI暗中使用YouTube数据训练其早期的AI模型。

就在本月早些时候,YouTube CEO Neal Mohan还表示,他不赞成OpenAI使用YouTube视频来开发像Sora这样的文生视频模型。

这种行为也导致OpenAI招致了侵权官司。《纽约时报》公司去年12月起诉OpenAI及其最大支持者微软,指控他们在训练模型时非法复制了该报的新闻文章。诉讼称,OpenAI的聊天机器人“可以逐字逐句地生成时报内容”。

作为回应,OpenAI辩称,它已努力与新闻出版商建立合作关系,其训练做法属于美国版权原则“合理使用”所允许的范围。

尽管如此,OpenAI和谷歌都与Axel Springer等出版商达成了数百万美元的许可协议,并与Reddit等主要网站达成了更大的交易。

即使是科技巨头也难以抗拒捷径的诱惑。

The Information报道称,谷歌曾转录YouTube视频,Meta雇佣承包商总结受版权保护的书籍,Adobe使用Midjourney的AI生成照片,均是为了训练自家AI模型。一位谷歌工程师因担忧公司使用OpenAI的ChatGPT数据而辞职。

初创公司Lamini的CEO Sharon Zhou表示,AI开发的快速步伐和激烈竞争迫使开发者求助于有争议的训练数据来源,如受版权保护的内容或LLM。

Zhou说:

在这个领域,投资者需要看到非常快的进展。

⭐星标华尔街见闻,好内容不错过
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事麦当劳“公开的秘密”,员工曝光制作汉堡全过程,看完以后。。。宇宙的秘密:起心动念,能惊动十方神煞!微软亚研院新作:让大模型一口气调用数百万个API!活到115岁!巴西修女论长寿秘密:天天为世界的人祈祷三个清华校友,争抢大模型一哥菲菲亮相春晚,圆唱幕后花絮,首批圆功章全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选全球最强开源模型一夜易主,1320亿参数推理飙升2倍!【大陆出版小说】硅谷的鸢尾花 第二章【租房】最全789月现房 | 高级公寓步行13分钟BU 8分钟NEU 商圈公园生活舒适| 1b3075+可短租 2b4500+上帝视角下的蓝天白云?大模型改变气象预测格局 | 大模型一周大事神秘大模型一夜“征服”所有人,超GPT-4却无人认领?网友:OpenAI 要有大麻烦了黄仁勋领导团队的秘密:直接管理50 人兵团,让层级愈少沟通愈好Stability、Mistral、Databricks、通义、A21 Labs开源五连招,其中三个是MoE!|大模型一周大事发布屡次截胡?OpenAI与谷歌携新版大模型再度交锋 | 大模型一周大事必看|斯坦福&西北前招生官来温哥华,带你走进美本录取幕后!线上线下模拟内部招生全流程!美国移民申请补件秘密:NVC为何要求补材料?神秘大模型一夜爆红!奥特曼亲自确认,疑似GPT-4.5发布阿里云进军大模型一年,现在是开源第一名,CTO:闭源要超过所有开源模型才有机会参与讨论傅平自传体回忆录(20):走进耶鲁exaggerated how angry they had felt but underestimated their fee便便地图火爆法国,在票圈公开我在何时何地拉屎的感觉太妙!国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事诗画人生神秘大模型一夜刷屏,能力太强被疑GPT-4.5,奥特曼避而不答打哑谜鲶鱼效应显著!Sora 发布满月,多模态领域成果丰硕 | 大模型一周大事毛利提升亏损收窄的秘密:Keep迭代优化营收结构邮件中的秘密:揭开Martti与中本聪的早期交流机器人再度大幅进化!阿西莫夫三法则还有效吗?| 大模型一周大事美国一幢普通住宅下隐藏的惊人秘密:地下末日避难所!Meta、微软、Mistral AI、Hugging Face、通义、港中文六路进发开源大模型 | 大模型一周大事全球最强开源模型一夜易主,1320亿参数推理飙升2倍OpenAI否认加入的AI搜索已是一片红海!Stack Overflow 数据用于 AI 训练再次引发争议!| 大模型一周大事大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。