Redian新闻
>
澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣

澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣

公众号新闻
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

专注、极致、口碑、快、成本。

这是澜舟科技创始人兼CEO周明给出的“大模型落地九字法则”,是他在雷军互联网“七字诀”的基础上,加上了“成本”一词而来。

他将2024年称为大模型落地元年,但同时坚定地表示,这并不意味着遍地是黄金。

而大模型的具体落地姿态,周明用自己带领的大模型创业团队澜舟科技身先士卒地做了个表率——利用澜舟“一横N纵”体系,以孟子大模型为基础,面向场景,发布产品。

简单来说,就是抓技术和应用的双轮驱动,在积极研究和掌握前沿技术的同时,致力于确保这些技术的有效应用。

3月18日的澜舟大模型技术和产品发布会现场,澜舟科技还与零一万物进行了战略合作签约。

现场,创新工场董事长、零一万物CEO李开复分享,目前世界上最好的大模型智能已经达到人类平均智力水平的3倍,也就是说,100道题普通人只能答对33道,而最好的AI大模型可以答对99道以上。

他展望了AI 2.0时代未来的四大趋势:

  • 最革命性的AI 2.0应用应该是AI-First / AI-Native:最终脱颖而出的应用,属于那些敢于全力投入新技术的先驱者。大语言模型的引入为 AI-First 应用带来了巨大的推动力。

  • 大模型始于文本,未来将拓展至“全模态”:跨模态生成技术是实现认知和决策智能的转折点。现实世界的信息是文本、音频、视觉、传感器以及人类各种触觉的综合体系,要更为精准地模拟现实世界,就需要将各种模态能力打通,例如文本-图像、文本-视频等跨模态甚至全模态的综合能力。

  • AI 2.0 将超越对话,从聊天工具到智能生产力工具:用户体验以及未来交互界面和商业模式都会发生大的变革。

  • AI 2.0 将走向实体,大幅提振社会生产力:具身智能可以让机器人制造机器人,进一步实现AI 2.0+生产线智能规划。

专注研发10B-100B参数大模型

澜舟科技成立于2021年6月,是国内最早一批下场,进行大模型创业的团队。

去年3月,澜舟发布了孟子GPT V1(MChat);今年1月,孟子大模型GPT V2(含孟子大模型-标准、孟子大模型-轻量、孟子大模型-金融、孟子大模型-编码)对公众开放。

近期,澜舟团队完成了Mengzi3-13B的大模型训练。

多说一句,孟子大模型训练背后有个大功臣,即总规模3T tokens的Mengzi-3数据集,包含了网页、代码、书籍、论文等高质量数据来源。

据介绍,本月底(3月30日)Mengzi3-13B的模型将在GitHub、HuggingFace、魔搭和始智AI社区开源

为什么开源的孟子大模型,是13B版本的?周明正面回答了这个问题。

首先,澜舟明确以服务ToB场景为主,ToC为辅。

实践发现,ToB场景使用频率最高的大模型参数量多为7B、13B、40B、100B,整体集中在10B-100B之间。

其次,在这个区间范围内,从ROI角度来讲,既满足场景需求,又最具性价比。

所以很长一段时间内,澜舟的目标都是做好10B-100B参数规模范围内的行业大模型。这就不能理解为什么开源版本选择13B。

周明解释道,他自己本身其实也是Scaling law的信仰者,但创业不同于科研。

“第一,这个大小的大模型已经可以解决80%的问题;第二,对团队来说也比较稳定,不会因为不断扩大的模型规模竞赛而感到焦躁不安。”周明补充说,这样冷静的思考,可以保证良好的成本控制,避免无谓的GPU算力、数据、人力投入竞赛。

“一横N纵”体系

发布会上,澜舟公布了自己的一横N纵体系。

“一横”是模型层,是孟子大模型技术基础上研发的各个模型;

“N纵”则是基于孟子大模型的面向ToB应用最重要的技术和产品。

据了解,澜舟目前重点投入到了金融行业,辅助编程等领域,旨在通过更加全面、专业、优质的领域数据,打造更加贴近行业场景的垂直大模型。

以孟子GPT通用大模型的“一横”为基础,澜舟科技合伙人、首席产品官李京梅,介绍了澜舟的应用能力型产品,包括:

  • AI文档理解:涵盖专业的PDF文档解析能力和信息抽取能力,为RAG方案中的文档理解提供了更优的基础能力;

  • AI文档问答:根据企业需要,提供私有化企业智能知识库构建的解决方案能力;

  • AI文档辅助写作:支持用户上传多个文档作为参考资料,支持自定义多级题目和写作提纲,由大模型赋能自动化按要求生成完整的文章初稿;

  • 机器翻译平台:专注以中文为中心的世界主要语种之间互译和20几个领域的专业翻译;

  • 澜舟智会:专注会议内容的智能分析和问答的产品, 是基于大模型打造的大模型原生的智能会议助手;

  • 澜舟AI搜索:大语言模型时代的搜索引擎。

过去一年,大模型领域日新月异。

OpenAI在干什么我们就去干什么,短期可以,长期不可取,一定要有自己的创新思路。

如何扬长避短,走出自己的独特的创新之路,周明表达了自己的看法。

最关键的第一步,就是企业要有明确定位。澜舟科技的定位就和国内其它大模型创业公司有明显差异。

他举例,澜舟的定位就是作“大模型技术+企业场景应用”的综合公司,“我们希望能做到站在技术角度最懂应用,站在应用角度最懂技术,同时又希望把技术和应用形成一种生态连接在一起,让两边可以快速迭代。”

同时,依然需要聚焦和抓紧落地——通过落地,创造价值,拉动创新。

而且需要注意,创新和落地是相辅相成的。

不要一味的创新或者一味的落地,要把这两者联系在一起,让它快速的迭代。

最后周明还语重心长地提醒:

今年是大模型落地元年,就遍地是黄金是吗?不是的,我可以负责任地说,很多地方我们都没有开拓出来。

比如大模型如何解决落地的最后一公里?大模型的商业模式是什么?如何加强交付能力?如何提高产品的商业化?

大模型落地的一切,其实才刚刚开始。

— 联系作者 —

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 

中国AIGC产业峰会同步火热筹备中,了解更多请戳:Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报【仙潭诗人补习课】全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报医院是应用大模型最好的场景,但不是商业化的最好场景揭秘腾讯混元大模型:400+场景落地,协作SaaS产品全面接入2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源讯飞医疗递交IPO申请;Meta发开源大模型Code Llama 70B;马化腾称两年内不会有纯原生AI大应用丨AIGC大事日报北京算力基建实施方案重磅发布!重点支持采购自主可控GPU,要支撑万亿参数大模型训练曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选异国他乡白喜事马斯克称每年要投资数十亿美元在AI硬件上;Meta发布开源大模型Code Llama 70B丨AIGC日报卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小七绝 合肥教弩台苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有【万水千山,一起走遍】Jan Jose, Costa Rica周鸿祎向李彦宏“开炮”:有些名人胡说八道别被忽悠了;全球最强开源大模型Llama 3发布:最大模型参数将超4000亿丨AI周报微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5英特尔AI PC开启商用元年!打造6大AI场景应用,三大AI引擎助力本地跑20B大模型AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿三层世界:老年痴呆症最有用的预防,而且最简单挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了讲座预约丨四位专家大论道 :大模型时代,机器人的技术革新与场景落地丨GAIR live骁龙最强AI芯能力下放:小旗舰8s发布,端侧运行10B大模型,小米Civi首发号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损澜舟科技周明:赌上半生积累创业 探索大模型落地的第三条路径
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。