我们跟一线 AI 开发者聊了聊,发现中国开源生态已经在全球找到了自己的位置
本次直播我们讨论的是中国开源社区在大语言模型领域的全球角色和贡献。这一点至关重要,因为它证明了中国在全球新一轮生成式AI浪潮中是不可或缺的。中国的参与打破了刻板印象,显示了我们不是封闭自足,而是向全球开放,与全球共享我们的成果。
在开源方面,我们展现了极大的诚意,对全球开源社区和开源模型做出了重要贡献。同时也讨论了中国开源社区在大语言模型领域的全球贡献是什么?我们如何打破刻板印象并展现开源合作的诚意?
嘉宾阵容:
骆轶航-品玩/硅星人创始人&CEO
林俊旸-通义千问开源负责人
Richard林旅强-零一万物开源负责人/开源社联合创始人
Vilay Lee (李峰)-浪潮信息源大模型开源负责人
汪东瑶-实在智能NLP团队负责人
从何时开始,Qwen在海外和全球开源社区中的使用频率和讨论度开始增加?有哪些关键的时间点?
林俊旸:在2-3月份,我们发布了Qwen模型的1.5版本,标志着推广工作的重要里程碑。尽管发布恰逢春节前夕,但这个时间最终证明适合开源,我们顺其自然地进行了发布。云栖大会的成功举办和Qwen-72B模型的开源极大增强了团队信心,国内企业和开发者的高度认可促使我们扩大推广。12月访问香港和新加坡时,我们意外发现海外社区对Qwen了解有限,意识到可能处于信息茧房中。
开源生态主要由LLAMA模型主导,它最早开源并得到meta支持,社区在其基础上构建了丰富生态。Qwen 1.5开源时,我们提供了多种部署和使用方式,包括Hugging Face、vLLM、llama-cpp和Ollama等,并支持量化等高级功能。
我们认识到,开源模型成功不仅在于效果展示,更在于易用性和生态支持。
1.5版本发布时,我们评估了基础语言模型的多元能力,发现表现达到可接受水平。这促使我们投入更多精力进行后续训练和优化,提升模型的多元能力和实用性。通过后续训练,我们的模型逐渐被更多海外用户了解,提升了英语及其他语言能力。我们认为让模型易于使用并确保用户体验到效果是推广的关键。
目前,除了东南亚语言,还有团队在进行阿拉伯语等中东语言的继续训练。尽管中东语言审查难度大,我们保持乐观态度。随着模型开发和使用增多,Qwen讨论度自然上升,普及是逐步发生的。尽管国内媒体报道可能滞后,Qwen的知名度和使用率正在稳步增长。
对于开源大模型来说,社区和开发者最关心的问题是什么呢?特别是零一万物的Yi模型面向全球开源社区时所积累的重要心得和经验是什么?
林旅强:性能是模型推广的核心,模型需要在榜单排名或用户感受上展现出强大。
开发者最重视还是大模型本身的能力;在推广模型时,开发者的第一印象是来自测评榜单的排名,例如世界知名的LMSYS;但榜单不能完全代表在实际应用场景下的能力,更真实的感受和评价是来自于开发者用户实际的使用过程中。
模型让开发者觉得是强大的基础上,我们非常重视开发者体验,这包括Yi选择基于GPT/LLAMA的公开架构以及兼容其生态来提升易用性,并简化开发者上手过程。鉴于训练新版本需要好几个月的时间和有限的团队和算力资源,在版本迭代的过程中优化模型的易用性变得至关重要。
当前Yi和Qwen是由中国厂商主导在海外声誉最佳的模型,也跟上述因素有关。除了通过生态位选择和架构设计,让模型易于使用之外,我们重视每个Yi开发者,通过在社区的有效沟通和工作,追求服务质量而非仅仅是用户数量增长,确保开发者的反馈能在一定时间内得到改善和回应,这些细致的工作正是打造优质开发者关系的关键。
我们相信开源开发者生态依赖于口碑,国内生态需要更多中立角色,以开发者为中心进行良性竞争。海外开发者更注重体验,无论是使用开源模型还是API,都追求良好体验。
目前大模型还属于早期阶段,还是一个增量市场,用户数量都还不多,此外在国产算力适配模型等还有许多工作待完成,这些开源和开发者生态的工作都还在构建基础建设的阶段,这方面的投入需要战略定力。
浪潮信息为什么选择走开源的路?做的过程中得到了哪些国内和全球化用户的反馈?
李峰:国内AI技术,尤其是大模型的发展,要“一子两用”,既要稳固自身,也要给对手施压。从战略角度来看,大模型的开源是实现“一子两用”的关键一步。国内开源的大模型对国外产生了影响,迫使国际上的AI技术巨头关注国内的开源模型。这种开源开放的做法,对国际闭源的大模型服务和应用带来了冲击,迫使国际上的头部玩家在基础模型上加快创新步伐。
骆轶航:上周我们讨论这个话题的时候,尤洋老师马上就出来说,接下来大家最应该关心的事情应该是LLAMA跟进的新的开源模型,能够在多大程度上,跟gpt-4O在性能上,在反应上能够去做对比,他说这个是非常重要的事情。
李峰:浪潮信息自2021年9月发布源1.0模型后,持续迭代并提供优质中文数据。2022年,训练效率提升50%,首次实现了千亿规模大模型训练效率53%的突破,有效降低成本。
2023年11月,发布业界首个千亿规模免费商用的源2.0版本,推动合作伙伴共赢。我们按月更新模型,并推出了YuanChat工具和与魔搭社区合作提升用户体验。注重研发独立性,避免过度依赖自动代码生成。面对计算资源挑战,开发新算法降低75%带宽需求,保持训练效果。基于源2B模型,研发支持长文本代码的long code版本,超越GitHub代码生成局限,同时鼓励研发创新,促进应用落地。
骆轶航:上周我们讨论这个话题的时候,尤洋老师马上就出来说,接下来大家最应该关心的事情应该是LLAMA跟进的新的开源模型,能够在多大程度上,跟gpt-4O在性能上,在反应上能够去做对比,他说这个是非常重要的事情。
李峰:从浪潮信息的角度,我们主要是提供基础模型,及大模型相关的训练、推理和微调服务,面向的人群主要是企业用户、应用开发商和社区开发者。个人可使用云端或本地模型,TOB业务则提供易于封装和二次开发的工具,以助企业快速部署模型服务。
为简化模型选型,我们通过YuanChat平台实现一键体验多模型,并解决不同框架和芯片适配问题。在不久前的IPF大会上,我们也发布了EPAI,这是一个转专为企业级大模型应用而服务的开发平台,包含数据准备、模型训练、知识检索、应用框架等系一系列工具,也完全支持多元算力和多模算法的高效调度。
通俗点说就是,在EPAI上,各类开源模型和框架,都可高效运行,一起去助推“百模”与“千行”的融合。
骆轶航:浪潮信息在开源平台上的做法与其他公司有所不同。浪潮信息致力于将开发者和研发人员所需的工具和具体场景解决方案封装成工具包和功能包,以便于开发者更容易地使用和集成。
基于这种反馈,我们如何能够让这件事像飞轮一样正向循环起来?
李峰:我们提供基础模型、训练、推理和微调服务,面向个人和企业用户。个人可使用云端或本地模型,TOB业务则提供易于封装和二次开发的工具,以助企业快速部署模型服务。
为简化模型选型,我们与魔搭合作,通过源chat平台实现一键体验多模型,并解决不同框架和芯片适配问题。与IPF合作的EPAI AI平台进一步优化了框架和芯片适配,通过自研框架使计算资源调用更直接。这些措施让浪潮大模型和各种开源或商业模型在我们的平台上高效运行。
企业视角下的开源工作推进
骆轶航:李老师在讨论中主要关注的是用户的感受,特别是开源社区开发者的感受以及他们与我们的互动。如果我们没有理解错的话,我们的工作主要是通过工具和大模型的能力去赋能开发者,比如源,比如EPAI。
但你们同时也坚持开源开放,比如多元算力、多模算法,再一起携手去为行业落地服务。我首先先确认我的理解是正确的,我们确实是在使用开源社区的资源,这样的飞轮就转起来了。
汪东瑶:从客户的视角来看,开源对我们工作的推进至关重要。在开源模型变得普遍之前,我们已经在自行训练模型。实在智能起初专注于RPA,目标是提高数字员工的工作效率。
ChatGPT的推出激发了我们训练自己的大型模型,我们计划利用prompt让模型能够调用RPA组件和工具。接口的token限制(最初4096个token)限制了模型理解RPA的能力,我们通过让模型内化RPA和软件操作知识来解决这个问题。
自去年2月起,我们组建了团队,成为国内早期自主训练模型的公司之一,经历了从准备语料到SFT和强化学习的挑战。去年7月,我们发布了大模型塔斯,但token限制和软件更新依然是挑战。
随着国内开源模型如Qwen的出现,我们得以在现有基础上继续工作。我们的模型最初基于6B结构,而升级到13B则资源消耗巨大,因此我们转而在开源模型基础上进行工作。
今年,国内出现了更多优秀的开源模型,例如支持超长文本的kimi,这使我们能够通过prompt直接输入大量内容,使模型能够基于上下文做出正确的选择。这些开源大模型对我们具有重大的实际意义。
骆轶航:确实,开源模型对我们来说具有重要的意义。根据我的理解,从去年7月份到8月份之后,你们公司内部在模型开发路径上经历了一个显著的变化。
在这个过程中,我想坦率地讨论一下,你们大概参考了多少个开源模型,或者实际上使用了哪些模型。刚才提到,有些大公司或客户会表示他们使用了多家的模型,包括你们的产品。
我想知道,你们大概用了多少个开源模型,其中有多少是中国公司开源的,又有多少是全球其他公司开源的。
汪东瑶:我们最初使用的是Bloom模型,但Bloom并不支持中文,所以我们需要在中文语料上进行大量的继续训练(continue training)。在13B模型的开发初期,由于13B模型开源较早,我们最早使用的是Lama模型。
但后来我们发现,Lama在中文能力方面相对于Qwen模型来说较弱。因此,当我们开始使用13B模型时,我们是基于Qwen的技术框架进行训练的。到了今年4月份,我们正在开发的70B模型是基于deepseek和Qwen模型进行选型和训练的。这就是我们模型开发和选型的一个过程。
中国的这些模型在全球市场上与开发者互动的能力是什么?它们真正的优势在哪里?
骆轶航:我们正在讨论选择使用哪个模型,以及新一轮大语言模型,尤其是非开源模型,它们是如何在全球范围内与开发者互动的。
中国的这些模型在全球市场上与开发者互动的能力是什么?
它们真正的优势在哪里?
最近,我注意到一位我非常尊敬的大厂大佬在巴黎的会议上发表了演讲。他强调,主要服务中国市场的中文能力是我们的竞争力。然而,我认为,至少我们中的一些人,在全球市场上面对全球开发者和社区时,提供开源模型,中文能力可能并不是我们真正需要强调的能力。
我们需要思考,我们的核心优势是什么?
我们如何让别人使用我们的模型的最重要能力是什么?
汪东瑶:中文能力是我们的一个显著优势,主要因为国内用户构成了我们的核心客户群体。在实际应用中,特别是在生成RPA组件方面,Qwen模型展现出了其代码能力。这在数据分析和其他相关任务中尤其实用。相较于GPT,Qwen在理科领域的表现更佳,具备较强的分析能力,特别适合处理需要逻辑和分析的任务。
林旅强:目前市场上模型众多,开发者不会只使用某一家模型,而是会根据其具体的应用场景测试多款模型,再依据测试结果、性价比、模型口碑、社区支持和公司战略综合判断,后续也会随着推陈出新的模型动态调整其模型选用的策略。同时,部分开发者也会考虑模型的独特功能和输出风格,以满足具体需求。广泛测试和深入了解各家头部模型特性对选择合适的模型和调整prompt至关重要。
林俊旸:我们专注于模型的差异化,尤其是在function-calling和agent能力上,通过标注数据测试模型。我们的模型无需额外agent即可满足用户需求,并在1.5版本中重点改进了训练方法。尽管面临RLHF挑战,DPO技术帮助我们提升了模型的个性化和优雅性。用户反馈显示,我们的模型在文学创作和翻译方面受到青睐。
骆轶航:在早期你们通过强调function和agent功能,尤其是理科相关的功能,来吸引用户。我们想知道这种策略的效果如何?
林俊旸:即将增强模型代码能力。面对竞争,我们专注于代码性能提升。新代码模型将基于经验优化,提高产品整体性能。尽管其他模型如llama在coding方面有进步,我们的模型在特定场景下仍需提升数学和推理能力。
骆轶航:编码能力不足,以及数学能力不足,可能会影响到模型在多个方面的表现。这包括文字输出和语言输出的质量。
林俊旸:在执行简单任务时,很多人认为我们的模型性能远超3.5版本,有时甚至接近4.0版本。然而,也有人认为在某些方面,3.5版本仍然可用,而我们的开源模型可能仍有不足之处。对我们来说,挑战在于找出这些不足的点,并加以改进。实际上,我们并不害怕卷,我们害怕的是找不到问题所在。如果无法识别问题,我们就无法进行有效的优化。
骆轶航:我的核心观点是两个竞争力:一个是在coding方面,我认为function call agent以及coding能力是本质上的关键能力。你提到最近一段时间,我们更多地展示了文科方面的能力,比如中英互译,知乎上有人讨论的信达雅翻译。这是否过度依赖了Qwen作为中文领域积累的大语言模型的能力?
如果以全球影响力作为衡量标准,那么这种能力可能并不是最本质的东西。
林俊旸:我们的主要用户是中文用户,因此我们接触到的案例多,尽管我们支持多语言。我们通过实验确定不同语言数据的贡献,并以此构建多语言模型。我们依靠实验结果而非争论来达成共识,并确保在优化中文能力的同时,不损害英文和其他语言的基本能力。
什么样的开源才算是有诚意的开源?
骆轶航: 接下来我们讨论开源话题。中国开源社区已经从受益者转变为贡献者,这一变化具有本质意义。
自去年以来,中国的大型模型陆续开源,改变了中国在全球开源社区的角色。中国的开源社区在协作方面表现出色,这一点在全球范围内得到了认可。开源的活跃参与者数量并不多,这使得协作变得尤为重要。
这也引出了关于中国公司开源彻底性的问题,这成为了衡量中国大模型对全球开源社区贡献的一个重要指标。我们探讨了开源的彻底性,包括语料库的开源,一些公司甚至开源了深度语料库供大家使用,这在推特和其他地方引发了讨论。有人认为中国的开源是最彻底的。
我们可以进一步讨论,对于国际社区和全球社区来说,什么样的开源才是真正的、有诚意的开源。
同时,作为用户,我们应该考虑什么样的开源是真正有价值的。
汪东瑶: Function calling 是我们为 agent 训练的重点功能,但中文语料库的缺乏带来了挑战。我们认为彻底的开源应包括数据和处理方法的分享,这有助于提升模型质量,并在深层次 reasoning 上缩小与 GPT 等模型的差距。数据构造和训练技巧至关重要,早期项目中英文语料更常见,因为中文语料较为缺乏。
骆轶航:我们正在讨论一个非常重要的问题:开源的真正含义及其彻底性。作为开源的提供方,我们探讨了开源的评判标准,以及我们如何进行开源,或者至少从目前收到的反馈来看,我们看到了哪些情况。
林旅强:开源AI的定义和标准正在OSI被讨论,软件的开源已经有了定论,因为设计的只在代码层面;但大模型开源需考虑很多方面,例如目前主流只是开放模型本身,也就是权重和推理代码,以便开发者用起来;但它的数据、训练代码,以及限制和许可使用的条件,也就是许可证应该怎么设计,确实还在一个过程中。
零一万物的Yi系列开源模型以Apache 2.0开源许可证释出时,引发了国际开源社区的热烈讨论和一致好评,这是我们拥抱开源的具体行动。这也来自于我们注重人才的基因,零一成员也会参与不同的研究并发表论文。
例如以“弱智吧”出圈的开源中文数据集COIG-CQIA,就有零一万物的贡献;还有更重要、但圈内人才了解的是,我们支持了MAP学术社区,做了“CT-LLM”项目,这是中文世界中第一个全流程开源的LLM;以及我们与武汉智能研究院支持的MAP-Neo,全流程开源了2B和7B的双语LLM;这些都是零一万物贡献于学术并希望以开源助力中文大模型发展的投入。
此外,我也观察到,在大模型的时代,华人在全球AI领域有显著贡献;呼应到今天的主题「中国开源,全球收益」,确实在大模型领域中,这句标语已经不是口号,而是有所本了。开源是技术与文化的结合,是创新和协作的平台。目前开源模型主要提供访问和API,允许服务部署和使用。零一万物虽小,但有推动中文开源的宏大目标,提供模型和API。目标是推动国内AI开源力量持续发展,避免无意义竞争。
李峰:AI开源与传统软件开源不同。
传统软件的源代码公开后,用户可以理解其工作原理;而AI大模型开源后,尽管训练代码和参数公开,模型对用户仍是一个黑盒,其能力边界不明确。探索AI模型的能力边界是困难的,但可以通过数据直观地了解模型的限制。
首先,我们开源数据,很大程度上,可以帮助用户,尤其是行业用户了解模型不能做什么,确保模型不会触碰不合规的内容。因为模型验证和测试复杂,需要确保模型能力不出现问题。
其次,随着AI,尤其是大型生成模型的发展,数据隐私泄露问题变得复杂。保证模型不泄露隐私需要从数据层面做起。开源模型要让人敢于使用,需要能够明确知道模型能力边界。虽然确定边界困难,但可以通过反向验证数据中不存在某些内容,推断模型也做不了某些事情。这对于安全地将开源模型应用于商业逻辑中非常重要。
骆轶航:You may not achieve you, may what you may definite and not achieve from this Model.
李峰:开源模型在商用时无法保证不会出现不合规或风险性输出。这与开源技术应用于商业场景时所面临的风险有关。传统的开源软件,如Linux内核,功能明确,是一个“白盒”,而开源的大模型仍然是一个“黑盒”。因此,从本质上讲,这种模型或算法代码的开源与传统意义上的开源存在区别。
林俊旸:开源的彻底性体现在我们开源的模型规模上。我们的开源模型规模较大,光是大语言模型总和就达到了八九个Size,国内外用户都可通过API或产品使用。开源1.8B模型初衷是支持实验和学术研究,我们的兄弟团队在embedding方面注重效率,因此我们训练并开源了一个五亿参数的模型,方便他人调试。我们随机应变,如为满足端侧业务需求补充了4B模型,填补市场空缺。我们根据用户需求灵活开源,满足实际需求。
骆轶航:这是你们的方式。听上去好像这个方式也不是很固定。
林旅强:资源挺多的。就听起来还是人跟卡还蛮多的,所以才能这样做。
骆轶航: 这一听起来就是特别不缺算力的人。
大家认为开源大源模型接下来最重要的事情是什么?
汪东瑶:大语言模型的开源,在保护自身安全性的前提下,如何能够更大程度上的开源,能够让使用我们开源模型的这部分用户能够更白盒化地去了解我们的大模型。
林旅强:尽管现在开源和闭源模型都具有后发优势,生态建设依然至关重要。以 LLamMA为例,即便有模型在技术上超越了它,它已经稳居在它的“生态位”了,生态优势仍然非常重要。从开源的角度来看,AI开源最重要的首先是打造良好的生态体验,其次是建立稳固的社区。这些因素构成了除能力测评之外的最重要的隐性护城河,即开源的生态和社区。
骆轶航:Open AI的生态和市场地位目前无人能敌,包括中国的组织。Meta和LLaMA虽然在开源领域有所建树,但要打造与Open AI相匹敌的生态并非易事。我们探讨了建立一个类似Open AI的平行生态的可能性。目前开源领域由LLaMA等主导,这引出了一个问题:在开源的前提下,是否可能发展出一个独立的、有竞争力的平行生态?
林旅强:我认为,虽然大模型领域存在后发优势,但要建立一个新的生态位置实际上非常困难。开源生态好比过去手机操作系统的情况,一旦某个系统像是安卓占据了市场,它就会成为事实上的标准。例如,LLaMA已经成为许多人期待的事实标准,Llama 2推出后,大家就会期待Llama 3的到来。Open AI通过提供API服务,也是在API服务领域形成有别于开源的生态赛道。
对开源项目来说,找到自己的定位是至关重要的。用户选择使用一个开源项目不能仅凭一时的兴趣,而需要有可长可久的理由。因此,我认为最重要的是一个开源项目要明确自己的生态定位,并且能够在用户的心智中占领一个稳定的位置。这才是长期维持和发展的关键。
骆轶航: 它不是说要自起一个生态,是它开源的生态位,如何去构建自己的生态位。
李峰:开源大模型要想持续发展,应用导向至关重要。当前,很多项目因缺乏清晰的应用场景而陷入成本效益比较,而非增长阶段。应用导向是推动开发生态繁荣的关键驱动力。在实践中,我们发现高昂成本下缺乏合理的应用场景是核心问题。例如,为小应用点部署大型模型成本效益不高。因此,确定大模型的应用场景,以促进生态持续发展,是现阶段的重中之重。
骆轶航:用应用的落地促推动开源模型飞轮的向前。
林俊旸:我期待在下半年看到开源模型是否能显著超越GPT-4,因为GPT-5预计也不会太远。目前,GPT已经为许多用户解决问题,且稳定性对许多人来说已经足够。如果开源模型能够达到或超越这个标准,这将是今年非常重要的一个里程碑。
骆轶航:我们需要一个转折点来证明开源模型在很多方面优于闭源的强大模型。就像安卓和iOS在2010年找到自己的立足点一样,我期待开源生成式AI成为一个全球性的趋势。
世界不是只有旧金山湾区拥有最多的科学家、工程师和人才,大模型和AI的落地应用将在全球各地发生。
我期待全球的开源社区,特别是中国的开源模型提供者,能够服务于全球各地的人们,让他们基于自己的需求进行创新和想象。
同时,我有一个不期待的期待:开源AI永远不成为武器。我认为这非常重要,人工智能不能成为某些人阻止其他人参与游戏的武器。
微信扫码关注该文公众号作者