Redian新闻
>
如果集合100个模型工程师的大脑,然后变成一个工厂

如果集合100个模型工程师的大脑,然后变成一个工厂

公众号新闻
作者油醋
邮箱[email protected]
大模型,到底是一场无限游戏还是一场有限游戏?
与ChatGPT打过照面的人开始畅想一场无边界的AGI愿景,但真的接近它的人,想法或许越来越倾向后者。
“巨大的参数,巨量高质量的数据来源,以及融合在各种不同训练方法中的Knowhow,如果任何厂商说自己在三、四个月之内做出来一个跟OpenAI效果相近的超大模型,基本上都是唬人的。而如果能力达不到GPT-4,商用就无从谈起,GPT-3.5都不行。”
6月末竹间智能CEO简仁贤这样说的时候,行业对于通用大模型的热度已经迅速降温。
两个月前在MIT发生的一次讨论中,OpenAI CEO Sam Altman现身,他表示“诞生 ChatGPT 的研究策略已经结束”,未来模型的进一步变大将不会进一步带来新进展。在描述 GPT-4 的论文中,OpenAI预估扩展模型规模扩大的边际收益将出现递减。而训练背后,数据中心的存量和建造速度也会成为限制。OpenAI在6月除了推出了token数扩展到32000个的GPT-4-32k,也同时推出了另一个向下兼容的版本:基于GPT-3但模型规模更小的GPT-3.5-turbo。
投资领域也开始有“创业公司做通用大模型的机会是0”这样的论调出现,甚至如华映资本表示在未来5-10年国内能活下来并且产生商业价值的通用大模型不会超过三家。这样的呼声呼应了李彦宏以及李志飞等人在此之前对于通用大模型竞争的悲观前景。
图源:新浪财经
从商业角度,最有前景的大模型方向开始变成垂直领域,参数量则被校准到了几十亿到几百亿的区间。早在去年11月ChatGPT出来后,简仁贤做了一个简单的测试,然后决定放弃AGI的方向。
2015年简仁贤离开微软互联网工程院,带着微软小娜Cortana的研发经验另起炉灶,成立竹间智能,主攻NLP(自然语言处理)领域,力图成为以理解人类语言和情绪为目标的科技公司。2017年公司开始商业化探索,2020年形成规模化落地。目前竹间智能已经为600多家客户做了NLP的落地。
竹间智能在国内ToB的AI领域玩了8年的有限游戏。简仁贤对于大模型研发的门槛和机会有清晰构想。
通用人工智能(AGI)大模型的商业化路径势必通往ToC,但算力、数据,以及巨额资金对于竹间这样一家仍然保持初创公司体型的公司来说都是摆在明面上的巨大障碍。
但他也明白这场8年的有限游戏中,竹间智能得到了什么。
理性的放弃是为了在另一个方向上提前起步。ChatGPT在去年11月出现后,简仁贤很快决定推进Prompt Builder与 Model Factory (模型工厂)的研发,到现在已经8个月,Model Factory也引出了竹间在大模型上的新故事。

100位模型工程师的大脑

“目前市面上几乎所有大模型都基于Transformer框架展开,或者说,我们在谈论的大模型更像是一个复杂的数据处理与模型训练工程。”简仁贤说。
“模型训练还是在复制别人,CoT(思维链)是人家的Paper,InContext Learning也已经有很多研究者做了大量工作,包括Tree of Thought、RLHF也是人家发明出来的一个方法,你只是把这些方法拿来再复现一次而已。”
这并不是创新。但简仁贤认为更大的创新空间也从这里延伸出来——如何将这样的大模型训练任务批量化,规模化,并且做到低成本。
这也是为什么Prompt Builder与 Model Factory研发被这么早地提上日程。在竹间智能内部,Prompt Builder已经开始替代产品经理的角色,Model Factory 已经替代模型工程师做模型微调的大部分工作,并且渗透进所有关于大模型的研发体系。这个并不显眼的技术起点投射出竹间在大模型竞争中的入局野心。
将一百位模型工程师的大脑聚集成一个工厂,或者叫EmotiBrain。
Prompt Builder所包含的Prompt模版集以及优化和管理能力,都被内嵌在大模型训练微调平台EmotiBrain的 Model Factory内,后者是竹间研发的一个大语言模型训练工具。
简仁贤演示了一下企业如何用EmotiBrain来训练出一个适合的模型。
这是一个流水线的训练方式。使用者选择一个基础预训练模型,然后选择对应的行业数据,企业自有数据,指令集数据,以及同时可以选择多种微调方法(整个fine-tuning的过程是自动化的)。所有细节都选定之后,平台智能的分配GPU资源,并开始执行模型训练。在EmotiBrain上,多个模型训练可以同时运行,使用者选定一个目标任务后,可以改变基础模型、测试数据以及微调方式来生成不同的模型,通过模型评测,并选取最优者。
EmotiBrain模型训练界面  图源:竹间智能
EmotiBrain能够实现从训练数据生成,数据梳理清洗,标注,到选择预训练基础模型,实验不同的微调方法,不同人员进行多次微调直到测试、部署以及最后应用的集成整体化。它可以进一步被拆分成多方面的能力,Prompt Builder是其中之一,另一方面,其内含的Model Factory拥有高质量的中英文训练数据集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多种微调模式,可同时训练上百个大模型,大大减少训练最优模型的时间,也降低了模型训练成本;Chat Search则是一个大模型驱动的对话搜索引擎。
生成式AI的黑箱属性转变成模型训练的偶然性。这意味着企业在训练最适合自己的模型时很难一击即中,它是训练出来的,也是多次训练之后选出来的。EmotiBrain在多模型同时训练的基础上提供了一个模型评估机制。比如一个法律咨询场景下的对话AI,将多个训练完的模型呈现出来之后会以相同的提问同时测试各个模型,企业可以根据评估结果来选择更好的那个模型。
对于大量非AI领域的企业来说,聘请模型工程师是非常奢侈的事情,模型工程师人才短缺是一个大挑战。简仁贤说表示,“EmotiBrain相当于有100个模型工程师在帮你干活”。这样一个将集体智慧凝结成自动化流程的过程也并不是一蹴而就的。
2017年推出机器人定制云平台Bot Factory后,竹间智能也同时开始了NLP模型的自动化训练,对于 Transformer 的模型开发也是从2019就开始的,积累到现在已经有超过1000个意图理解模型,500多个解析器,总共的模型积累超过3000个。与此同时,一个竹间内部的机器学习平台也在成型,并且开始承载整个模型训练的过程。
这一套模型训练的流水线机制在内部研发中打磨多年后,去年年中谷歌效果惊人的LaMDA2发布,竹间科技决定转向大模型,开始用Bloom作为target(被预测内容)来打磨自己的机器学习平台,并且尝试训练自己的基础大模型,现在的EmotiBrain也在机器学习平台能力扩展之后形成。
但一个大模型训练微调平台只是基础。
彭博行业研究近日的报告预测,目前市场规模仅为400亿美元的生成式AI在2032年将会膨胀为一个1.3万亿美元规模以上的市场。而简仁贤对生成式AI在ToB领域的最终市场规模的预估也在数万亿级别,而这个市场中的胜负手最终将是产品化,规模化,与降低成本的能力。
“中国有14亿人,10亿以上的网民,但绝大多数人并不会使用模型,你要给他产品应用,而不是给他模型。”
EmotiBrain是竹间智能“1+4”大模型产品体系中基础性的“1”,它的能力将会借助四个方面的核心产品进一步具像化。

产品化的能力

这四个产品方向分别是对话、对练培训、知识管理和写作助手。
Bot Factory+和KKBot延续了竹间智能在对话方向的产品积累,前者包含大模型和快速模型协同的双引擎智能对话技术,可以实现对于问答的自动抽取和知识沉淀,在不断的人机交互中不断优化回答质量和速度。问答所形成的知识库,以及流程知识和图谱知识,也可以通过Bot Factory+来管理。
KKBot可以理解为个人或企业的办公Copilot,企业可以根据自身业务场景和需求在KKBot上选择适合自己的大模型,形成个性化的对话场景和功能,并且竹间提供私有化部署的解决方案来保证企业数据安全。Bot Factory+和KKBot的组合使用则可以进一步强化由AI对话能力带来的生产力提升,两者的结合可以控制大语言模型胡言乱语的现象。
Emoti Coach是竹间智能研发的一款基于大语言模型的仿真对练软件,在大模型能力的加持下,基于企业自有知识与大模型具备的能力,通过简单提示就可以生成丰富的课程和对练场景,Emoti Coach的沉浸式特点意味着其对练环境逼近实战,也更容易获得真实的1:1对练效果。融入大模型能力后,它能够为练习者给出及时且细颗粒度的反馈。
可以自动构建知识图谱及知识管理的Knowledge Factory定位为企业级的知识工厂,提供了模糊搜索和语意搜索相结合的方式来检索企业中的相关文档,并且能够在文档之间建立智能关系网络。对于员工个体,Knowledge Factory提供续写、改写、翻译和总结等生成式能力来辅助提高工作效率。而严格的安全审核机制则会确保文档作为企业的知识沉淀能够避开风险。
竹间智能“1+4”大模型产品体系  图源:竹间智能
而针对文档创作,竹间智能研发了企业级的写作助手产品Magic Writer,可以进一步解放员工在文档上的生产力。借助内置的丰富文档模版,员工只要输入必要的关键词就可以自动实现文档的生成,而Knowledge Factory的内容生成能力与安全审核机制也会在Magic Writer中得到体现,可以依据企业私有数据来创作,避免通用模型会胡言乱语的情形。
外界对于大模型的关注多放在大厂与新的创业公司两端,前者有足够的资源、研发能力和自有场景,后者往往可以将瞩目的创始团队转换成巨大的想象空间。相较之下,在NLP领域扎根多年的公司反而被忽视。但当外界将视线更多聚焦到行业大模型与企业定制化模型上,竹间智能的产品优势开始显现出来。
企业需要一个能真正跨越大模型与用户之间“最后一公里”的解决方案,而不仅仅是孤立的服务或工具。“一组零散的工具对企业是没有用的,因为企业没有那么多能做模型的IT人员”,简仁贤说。
竹间智能积累了包括私有部署跟SaaS服务在内的六七百个大客户,AI产品也在多年的大客户验证中趋于成熟,“1+4”大模型产品体系可以看做是从前的产品和行业Knowhow用大语言模型来做升级,这是竹间自己的“最后一公里”,但在此之前,基础的产品化能力则是一段必须要用5-7年才能走完的路。
竹间提供的是一个端到端的解决方案,这是在NLP领域多年积累后的AI公司相比市面上广泛谈论MaaS的其他玩家所具有的独特优势。
“Model is new Code(模型就是新型代码)”。竹间提出了这样的理念。
从20世纪90年之前程序员以纸带和纯文本形式编写代码,到之后集成开发环境(IDE)与提供代码补全和错误提示的语言服务器协议(LSP)的出现,人类的编码历史也是一条降低开发者输入门槛的历史。大模型的兴起已经席卷各行各业,未来的软件将由大型语言模型驱动,模型也就成了新的代码。
从这个意义上讲,为了弥合用户、企业与大模型之间的巨大鸿沟,负责大模型生产的流水线工厂会作为一种基础设施长久存在。竹间智能的机会也在这里。








· 文章版权归未来科技力/品玩所有,未经授权不得转载。
· 发送关键词 转载合作招聘 到品玩微信公众号,获得相应信息。
· 您亦可在微博、知乎、今日头条、百家号上关注我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态是什么决定了硬件工程师的薪资?国内某TOP大厂,对于运维工程师的评级要求,看看你在哪一级?10亿富养出来的女儿,10年后变成了这样...一名全栈工程师的技术实践之路百度智能云:千帆大模型平台接入Llama2等33个模型,推理成本可降低50%包邮送6本!推荐算法工程师的成长路径马斯克拒用TikTok:感觉它们的AI会探测我的大脑,谁造成了TikTok的商业化困局坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」天才少年稚晖君智元机器人走路进场!AI模型做大脑,目标售价20万以内懒人必备减肥法!丹麦新研究揭示:一幅美食图重复观看30次就能“欺骗”你的大脑,产生饱腹感满足食欲!四个高考大省的考生每人出资1000元建“山河大学”,然后呢?国产大模型进步有多快?我们用Z-Bench对10个模型进行了能力测评细思极恐!每次走进澳洲超市,都有70个摄像头盯着你,然后?更可怕!收割人类 III 之第十七章 黑洞记忆(2)《花信风之立夏》《立夏》旅美教授苏向东号清慧居士国画作品5065 血壮山河之武汉会战 鏖战幕府山 34北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师她做了一个“违背祖训”的决定,然后将一个学科推进了几十年深圳参战大模型!整合1000亿元AI基金群,公布AI发展行动方案【IC设计】“科班”和“非科班”出身的工程师的区别在哪集合13.5亿参保人用药需求!谈判药品续约规则这样调整→机器学习工程师的职业道路【六月职场读书会报名】工程师的《原则》,豆瓣8.7分大作《卓有成效的工程师》「 云集|职挂云帆 」暖通工程师可通过澳洲EA的职业评估认证,然后再进行技术移民澳洲!等不来自家大模型,火山引擎先搭了一个模型​「货架」|最前线1000个算法工程师冲入罗永浩直播间比较经常刷与不经常刷短视频的大脑,结果发现了一些非常有意思的现象紫东太初全模态大模型来了,一个模型打通感知、认知、决策交互屏障毕业当个工程师咋了,没前途吗?10亿富养出来的女儿,10年后变成了这样10亿富养出来的美国小姑娘,10年后变成了这样...牛奶​GPT充当大脑,指挥多个模型协作完成各类任务,通用系统AutoML-GPT来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。