Redian新闻
>
面壁李大海:行业大模型是历史阶段性产物

面壁李大海:行业大模型是历史阶段性产物

科技

大模型,通用才是未来。

作者丨孙溥茜

编辑丨陈彩娴

近日,在北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办的服贸会分论坛——“通用人工智能算力论坛”(A GICF)上,面壁智能发布了千亿多模态大模型露卡 Luca,并正式开启了 Luca 2.0 的全民公测。

Luca 寓意地球生命始祖,The Last Universal Common Ancestor。

最在今年5月27日的2023数博会上,Luca1.0首次公开亮相。

随后的三个月里,Luca迭代了85次,大语言模型能力整体提升39%。其中推理能力提升119%,推理、知识、生成等多项能力已媲美 ChatGPT。

这一次的 Luca 2.0 版本除了具有优秀的大语言模型能力外,还具备强大的多模态处理能力。图片理解能力已达中文全网最强。

其中多模对话、细节描述和复杂推理三项整体得分为92.5分,而行业其他模型的平均得分是78.4分,远超现有支持中文且具备图片理解能力的大模型。

会后李大海接受了媒体群访,针对行业或通用大模型、近来火热的一体机话题、知乎数据集对 Luca 训练的帮助、大模型评测榜单等热点问题表达了自己的看法。

以下是李大海与 AI 科技评论等媒体的对话精选:



1

坚定走向通用大模型之路

Q:目前资本圈和科技圈对大模型的态度冰火两重天,前者冷淡后者火热,请问您正在关注哪些问题?

李大海:现在大家普遍思考大模型如何落地的比较多。我的精力目前主要分配在几个方面:

首先,我们的模型在以专项的形式封闭式开发,封闭式开放效率很高,以至于我们能在三个月的时间里,成功将百亿模型做到今天的千亿模型,这个过程很辛苦。

另一方面是思考到底有哪些应用可以去做,以及看应用如何与大模型结合,这里面就有一个大模型与应用二者关系的问题。

我会认为我们一定要做大模型原生的应用,将应用建立于大模型之上,如果没有大模型,应用就不应该存在。

然而,一些应用在现有场景中已经在使用大模型,尽管在使用过程中可能会带来一些效率提升,但我认为这种不算是典型的大模型应用。

另一方面,我们也不认为大模型原生应用就是100%使用大模型,这样就像拿着锤子找钉子,我们还是要关注用户的真实需求,看这个需求在引入了大模型这一变量后,能否得到更好的满足。

Q:您如何看待 B 端的大模型业务,以及行业大模型发展?

李大海:B 端业务我们在同步开展,但是现阶段我们更侧重 C 端。

过去半年我们看到很多同行被需求追着走,有很多客户非常希望使用大模型。我们有能力解决客户的问题,但是在模型的标准化工作还没有做的特别好的情况下,就需要花费大量的人力填补服务。

我们在思考如何用更高的效率运营 ToB 业务。

其实回归到商业的本质,我们必须关注效率,思考 Profit and Loss 是否是健康。ToB 这件事如果纯做成项目制,其实很难定位,也很难有好看的毛利。

无论怎么做,要想高效交付只有两个选择:或者是面向场景做出相对好的模型,然后模型在场景里面对每一家客户进行微调;或者是做出足够通用的大模型,面对任何场景,只要微调就可以。

我认为未来一定是通用人工智能这个方向。

现阶段行业大模型可以用更小规模的模型承载垂直领域的应用,所以在成本上更有优势。并且通用大模型的能力也没有那么强,但是我相信未来一定会产生既能力强,成本也低的通用模型,这个通用模型会把所有的行业模型的空间抹杀。

行业大模型是现在阶段性的产物,我尊重现在的历史阶段。

Q:面壁大模型从百亿跃升到千亿,与悟道2.0时期从百亿模型进化到千亿量级有何区别?

李大海:从技术上,我们当时推出的 CPM2 (Chinese Pretrained Model) 千亿模型是一个 MoE 的稀疏模型,和我们现在推的千亿模型不太一样。

我们现在的千亿模型是 Decoder-only 网络结构的千亿模型。

值得一提的是,CPM 大模型是面壁智能从零自主研发的预训练大语言模型,其中包括国内首个中文大模型 CPM-1。

最新的大模型训练直播项目 CPM-Live的第二期百亿模型CPM-Bee是国内首个开源免费商用基座模型,目前已授权给数百家企业合法商用。

Q:面壁发布的千亿多模态大模型是否会影响大语言模型的研究进展?

李大海:这里要说明,我们公司的重点资源是做大语言模型,这是基础,必须先做好,这也是我们的阶段性战略。

而我们的优势在于,我们是一个产学研结合的团队,大语言模型不是在用公司资源在做,而是实验室的同学和公司合作的结果。

大语言模型作为一个基座,把多模态的东西对接进来,对原有的模型没有影响,所以把基座模型做的越来越好,我们才能够更加顺滑地增加不同模态的数据和学习意见。

Q:知乎提供的数据集有哪些优势?

李大海:我们的模型取得非常好的成绩,离不开知乎里大量的高质量图文数据。

知乎是一个社区,很多用户在知乎在上传图片时会给图片精心配上文字,这种 UGC的内容(用户生产内容)比第三方标注平台提供的数据质量要高出很多。



2

开源、独角兽、一体机

Q:您如何看待现在的开源大模型在 ToB 领域的影响?

李大海:目前开源这件事,对于开源厂商主要诉求还在于模型影响力的提升。因为模型开源现在还没有形成像安卓系统一样的生态,比如客户拿自己的数据去训练,数据不会集中到一个中心化的场景,甚至模型好不好用,都没有反馈的声音。

模型影响力的提升对于做 ToB 的业务是有帮助的,但是它的链条比较长,比较间接。

当竞争进行到一定阶段时候,大家的模型都差不多,客户会更关心,服务提供商自己的存续能力有多强,能否保障售后能力。就像电动车制造,一开始所有品牌百花齐放,早期的用户都是尝鲜者,但是一旦大众涌入后,车厂的售后能力、综合能力就会暴露出来。

Q:您认为通用大模型会出在大公司还是创业公司?

李大海:其实参考美国,我们也没有看到说头部公司就是通用大模型的天下,这事并没有发生。

我认为这件事还是要看公司的创新。

这本身还是一个综合的变量。一个公司能否在最新的技术浪潮中胜出,由很多因素决定,有没有足够好的人、资源、组织能力、创新力度、对创新的容忍度、战略方向等,没有一定之规。

Q:您怎么看待现在流行的一些大模型评测标准 ?

李大海:我认为在大模型领域,榜单就是一个悖论。

一旦出现大家都很认可的榜单,就一定会出现刷榜,这个事很难避免,除非榜单是完全随机的,由大模型随机生成题目,而且权威性得到大家认可。

未来也许可以,现在我觉得还是太早了。

因为大模型背题非常厉害,只要能拿到题目,喂给大模型它很快就能背会。我们现在观察到,大模型一旦能够背会,它就一定不会去理解。

Q:LUCA 现在收到的使用申请大概是什么情况?

李大海:我们正式发布后收到了很多申请,同事们在逐一批准,因为我们能够采购到的算力比较有限,现在是一个有限的推理量,不太方便透露。但我们会基于服务量,不断提高供给效率。

Q:传闻面壁也即将推出一体机,您对一体机持什么看法?

李大海:一体机这件事只能说我们在和合作伙伴有一些密集的推进,但是进展还不方便透露。

我认为一体机是一个顺应国内 ToB 市场的,特殊国情的产物。

但是为什么会产生一体机,就像我刚才所说,国内一些企业习惯于低估软件价值,高估硬件价值。软硬一体结合更能把产品的价格抬起来。

我个人还是更看好云服务,将繁琐的运维工作丢给云厂,模型厂商才可以更专注模型研发。

欢迎添加作者微信Sunpx33,交个朋友~

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
马斯克黄仁勋将出席闭门AI会议;传商汤大规模裁员;面壁智能推出大模型Luca小冰 CEO :马斯克呼吁停止研发 AI 大模型是为了给自己争取时间重磅!证监会:阶段性收紧IPO节奏、调降融资保证金比例、进一步规范股份减持行为…“好朋友都是阶段性的”吗?网友:有过美好的回忆已经足够……全面超越 AutoGPT,面壁智能联合清华 NLP 实验室打造大模型“超级英雄”—— XAgent最高法判取消学生贷款违宪?以及AOC的愤怒刚刚,碧桂园发声!出现阶段性流动性压力,管理层反省传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent记录小园春秋 中国玖瑰与日本绣线菊中国证监会IPO阶段性收紧新政,或将利好境外IPO市场百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报专门写给孩子的中国历史,是历史,更是好故事!【最新】我市完成职称制度改革阶段性目标,已累计出台25个职称系列改革办法李敦白迫害老海归美国第二例!给人移植猪心脏实现阶段性成功,医疗技术再进步!《我是梅花你是雪》&《暗光》坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」重磅!阶段性收紧IPO节奏!49岁何炅,戳破亿万人的隐痛:你所有的朋友,都是阶段性的笑死!大模型是什么互联网人的救命稻草取得阶段性应用成果!国家太空实验室已正式运行阶段性好朋友,扎心了华人注意!新西兰建筑业大事件:行业最新解析、多品牌洽谈交流…机会难得,不容错过!清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳通用大模型转向行业大模型:腾讯云、华为云们的下一个战场应用开发者的疑问:大模型是真正的银弹吗?【十大券商一周策略】进攻!吃饭行情,积极做多!阶段性关注价值风格对话面壁智能CEO李大海:国内大模型不要谈竞争,先追上GPT再说5105 血壮山河之武汉会战 浴血田家镇 13“如果大模型是答案,能解决的问题是什么?”中国财富管理业务前景广阔!恒生电子张慧海:大模型技术将改变证券行业应用场景美国医疗技术再进步!第二次给人移植猪心脏实现阶段性成功.....中美出现阶段性缓和?AI算力70年增长6.8亿倍,3个历史阶段见证AI技术指数级爆发
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。