最早出发的中国大模型创业者：“贫穷限制了我们的想象力”

财经

2023-04-26 12:04

“过去贫穷限制了想象力，现在一些人的野心又太超前了。”

文丨朱丽琨

编辑丨程曼祺

周明是在国内 AI 市场温度降到谷底的时刻决定创业的。那是两年前，2020 年底，他考虑辞去微软亚洲研究院副院长的工作，很多朋友劝他别出来，但他很坚定地要开始大模型创业，认为 “大模型未来会成为某种基础设施”。

这之前 6 个月，OpenAI 发布了 GPT-3，在人工智能领域引起关注，但尚未形成去年底 ChatGPT 发布后大模型机会已至的共识。

不像一些热潮中加入的创业者那样愿意谈 “终局”，周明在接受《晚点 LatePost》采访时，一再强调的是 “公司要活下来”。他给出的商业前景没有那么 “性感”。他认为对国内创业者而言，更靠谱的是 2B 的慢生意。

他笑着承认，“有 2C 志向的人，大概看不上做 2B 的人”。他认为大模型 2C 创业是无止境的 “军备竞赛”，不确定性很大，2B 更务实。

务实的背后是他始终受制于资源不足。

周明创立澜舟科技时，国内 AI 创投活动正处于冰点。他庆幸自己没有再晚一年从微软出来。自 2019 年以来，中国 AI 领域的创投热度一直在下降，去年到了最低谷。据 IT 桔子，截至 2022 年 11 月，中国 AI 领域一级市场融资总额比 2021 年同期下降 61%。

一成立，周明和澜舟就遇到了冰冷的市场环境，当时也少有人认可大模型的潜力。

资源受限也来自客户习惯：中国不少大型企业，尤其是央国企有数据私有化的强需求。所以周明走访了上百家国内客户后，得到的反馈往往是：“你做大模型，我们也用不起。”

它们要把大模型部署到本地，这需要自己购买大量 GPU、建算力中心，至少得投入上千万元人民币。因此，周明一开始选择做 10 亿参数量级的模型，研发重点是如何用轻量级模型解决问题。直到 ChatGPT 教育了客户，澜舟开始加速研发百亿、千亿级别大模型。

资源不足还有时代印记。周明从 1980 年代就开始研究自然语言处理（NLP），参与研发了中国第一个中英机器翻译系统 CEMT。那时算力很低，他每天想着如何节省内存。90 年代他去清华任教，申请到的科研经费仍然有限。1999 年加入当时刚成立的微软亚研院后，他和团队很长一段时间的重点也放在如何用小数据训练出与大数据相仿的结果。

周明经常开玩笑说自己是 “贫穷限制了想象力”——他一直不敢想通用人工智能（AGI）会实现，直到 ChatGPT 爆发，他才把 AGI 作为愿景。在做自然语言处理研究将近四十年、创业两年后，他终于有了适当的野心。

不过，在如今对更大机会、更新物种的畅想氛围中，周明并不是最吸引资本和资源的创业者。不止一位关注大模型的投资人对《晚点 LatePost》强调创业者的年龄，一些人相信，过去的 NLP 研究范式已被完全颠覆，更年轻的创业者才能更好地理解新技术，把握新机会。

周明在 “知天命” 的年纪开始创业，习惯了关于年龄的质疑。年龄也带来好处，就是经历过周期的韧性。

“利用好天时地利，才是一个人的核心竞争力。”他说。

澜舟科技创始人兼 CEO 周明

以下是周明和《晚点 LatePost》的对话：

普通人没感觉，但 AI 界 “巨震” 早就开始了

《晚点》：你 2020 年底从微软亚研院离职，决定做大模型创业，ChatGPT 引起震动是在这两年之后。你为什么更早看到了机会？

周明：我当时在微软亚研院的团队做了不少研究，看到大模型的用处。我认为再发展下去，它会成为某种基础设施。

当时很多国内中小企业还没感受到大模型是什么、有什么用。BAT 已经开始做大模型了，但还没有对外释放太多技术和服务。中国企业，尤其中小企业未来一定会用大模型。谁来做？这里就存在一个创业机会。

《晚点》：大模型有用，你在当时是怎么感知到的？

周明：其实 2017 年 Google 的 Transformer 出来后，NLP（自然语言处理）领域立刻就转到 Transformer 上了。

我当时在微软领导的自然语言组也马上开始用 Transformer 做编码、解码，做各种大模型，那时叫预训练模型，我们当时做了一个业界挺有名的模型叫 Unified Language Model (UniLM)。我们的技术成功应用到多个产品，涉及微软图灵大模型、必应搜索的相关度提升、Office 的语法错误检查、Azure 的机器翻译等。

《晚点》：所以 2017 年的 Transformer 给行业带来的震动比 ChatGPT 更大？

周明：如果未来颁图灵奖，也许会颁给 Transformer 而不是 ChatGPT，因为图灵奖一般鼓励有长期广泛影响的基础技术。

普通人没感觉，可是 AI 界当时全都转用 Transformer。Google 也许觉得有点亏，Transformer 是它搞的，轰动一时的 BERT 也是它搞的，但现在摘果子的是 GPT。

（*BERT 是 Google 2018 年基于 Transformer 推出的大模型。）

《晚点》：Transformer 具体带来了什么变化？

周明：让我们从头来讲。为什么自然语言处理这几年发展很快？“自监督学习” 是最重要的。

过去做自然语言的很多任务，比如中英翻译，你得去互联网上找中-英双语语料，人工检查确认，或者补充新的语料。不同任务还要标不同数据，标注成本特别大。再利用标注数据设计一个模型进行学习。这就是 “监督学习”。

GPT 大模型是 “自监督学习”，不需要提前标数据了，只需要把大规模语料准备好，神经网络会自己调整参数，学到一个稳定状态。

做具体任务时，比如信息抽取或文本生成，需要再在模型上做一个微调，这需要标注针对这些任务的数据，但标注量比监督学习小很多。因为模型更聪明了，你给它举几个例子，它就会了。原来可能要标 1 万条数据，现在可能 100 条就行了。

现在 GPT-4 连针对具体任务做标注这步都不需要了，它可以直接通过提示（prompt）告诉模型怎么做任务，你提示得越详细、准确，它完成得就越好。

《晚点》：Transformer 是如何实现自监督学习的？

周明：自监督学习，搞自然语言的人老早就想到了，只不过没有很好的编码方式去实现。

NLP 领域近年的第一个大变化是在 2012 年 ImageNET 大火，大家认识到深度学习在图像识别领域的强大能力，开始把深度学习用到 NLP 上。最初深度学习只改造了原有 NLP 流程的一部分，主要是用它生成帮助机器理解语言的 feature（特征），比如在翻译任务里，词的个数比例、两个词对译的可能性等都是特征。但当时做不到大模型这样，从输入数据到输出结果的端到端的训练，主要是因为编码能力和效率不足。

Transformer 的出现改变了这种情况，它带来了目前最高效的编码和解码器，而且它可以并行计算，速度快。关键在于它引入了 “多头自注意力机制”；并且在给词语编码时，除了语义信息，也加了这个词在上下文的位置信息。简单来说，这可以做到多维度抽取句子信息，最后把多层注意力模型和位置信息拼起来，编解码能力大幅提升。

这后面大家胆子就大了，BERT、GPT-1、2、3，再到 ChatGPT，一条线都出来了。

《晚点》：现在回看，这好像是一种挺自然的思路，为什么 2017 年才实现？

周明：第一，算力是真提高了。这种编码形式对算力要求极高，因为要搞这么多注意力，每个词的编码位都很多，神经网络层数也很多，这些都要耗费很大计算量。

第二是想象力增强了，这和算力提升也有关。以前一个头的注意力都不敢想，太费空间了。

算力、算法和数据之间是互动前进的：算力强了，可以想得更多，算法强了，又可以把数据处理效率提得更高。

《晚点》：对做 NLP 多年的人来说，Transformer 是一个石破天惊的颠覆式创新还是基于已有技术的渐进式创新？

周明：颠覆式创新。它的每一个部分过去可能都有人想到过，但把它变成一个体系，成为神经网络的基础，这肯定是颠覆式创新。

《晚点》：你曾经想到了其中的什么部分吗？

周明：编码，还有词跟词之间的相关度。也不能说是我想到的，我从 1985 年就开始做 NLP，当时就有人研究多特征编码，研究能不能不管词性、语种，都用统一的多维向量来编码？

《晚点》：但是这么多年来，你自己和其他人都没能实现这些设想。

周明：贫穷限制了想象力。

我们那时机器太小，整天想的是如何节省内存。假设真有人往那儿想，你就会说 stupid，一下把内存外存全吃了，怎么可能做出来？大模型是反过来的，想的是如何把算力充分调动起来，没那么在乎算力消耗。

而且过去我们只有皮毛和初步想法。Transformer 则是一种全方位、多语言、多模态的大一统编码精神，所有语种，包括程序代码都能做，因为编码机制是一样的。

Ilya 有底层创新能力，Sam 把集成创新做到极致

《晚点》：在 Transformer 基础上，OpenAI 做了什么？

周明：持续努力，把数据清洗、规模、参数量、训练速度……所有东西做到了极致。

《晚点》：Meta 的 AI 首席科学家杨乐昆（Yann LeCun）评价 ChatGPT “就底层技术而言，没什么创新”。

周明：他说的有一定道理。搞学术研究的人会说 ChatGPT 没什么了不起，它使用的技术点点滴滴散落在文献中，多少在别处用过。

但搞工程、产品的人会觉得 ChatGPT 很了不起。它最大的功绩是把各方面做到极致，是集成创新的典范。

中国的集成创新能力相对薄弱，我们在点上的、应用上的创新现在做得不错。

《晚点》：当年微软亚洲研究院孙剑指导下做的 ResNET 属于哪一类创新？

周明：它属于 fundamental 的底层创新。ResNET 的光芒至今照耀整个神经网络和 AI 领域，是微软亚研院的骄傲。

（*ResNET 主要解决深度过大的神经网络难以训练的问题，由何恺明、张祥雨、任少卿、孙剑于 2015 年底提出，论文被引用超 12 万次。“最强棋手”AlphaGo Zero 也用到这个技术。）

《晚点》：底层创新和集成创新，区别是什么？

周明：底层创新，算法从头到尾是自己提出来的。集成创新则像 “吸星大法”，集成所有优秀的算法、工程、界面、交互能力，甚至 PR 能力。

大模型领域，你可以理解为 Transformer 是底层创新，ChatGPT 是集成创新的集大成者。

《晚点》：上一次以计算机视觉为主的 AI 热潮中，中国科学家提出了 ResNET 这样的成果，现在看语言大模型，为什么从底层的 Transformer，到后来的 ChatGPT 都出现在美国？

周明：任何技术出现都有一定偶然性。

集成创新中国是比较薄弱，OpenAI 以外很多美国公司也薄弱。微软也帮 OpenAI 做了很多事，OpenAI 聪明地把微软的计算、资源、数据都用起来了。

《晚点》：那这个问题可以是，为什么是 OpenAI？

周明：世界上有几类人，有人就是要研究底层创新。有的是在底层创新上做应用，一般的应用是解决单项任务。还有的是做集成创新，把所有工作、应用、算法都在一个大平台上体现，形成里程碑。OpenAI 恰好集成创新做得非常好。

中国应用创新比较厉害，集成创新相对薄弱，底层创新有一些突破。

《晚点》：底层创新来自何处，比如第一个想到 Transformer 的人是怎么想到的？

周明：一是想象力，想象力又来自提问能力。

做应用创新的人不会去想 “怎么对语言更好地编码”，但能提出底层创新的人会想，这个问题不解决，后面的东西很难推；他看到了问题的全部，同时能找到突破点。

二是，做底层创新需要数学功底。

《晚点》：OpenAI 的成功给你什么启发？

周明：它跟微软是难得的天作之合。Sam 跟微软 CEO 纳德拉，跟马斯克、黄仁勋都有很好的私交，有信任。加上 Sam 看了很多创业项目，有战略定力，知道该往哪个方向走，再搭配一个首席科学家 Ilya，那个人就是很执着。

《晚点》：Ilya 难寻，还是 Sam 更难寻？

周明：中国有 Ilya，也有 Sam，但是这俩碰到一起不容易。中国也缺乏微软这样的公司。

Ilya 就是坚信某些技术能出奇迹。我们这个领域也有。

《晚点》：你觉得自己是哪类人才？

周明：我可能更像一个 architect，架构师。我有清晰的想法，能把不同人、资源架构起来，知道可以往哪走。但是让我写特别牛的算法，我写不出来。

澜舟的应用做得非常强了，模型、算法还算国内一流水平。我也看到有些创业团队，不懂底层的技术，就直接做集成，可能欲速则不达。

《晚点》：你们是国内最早做大模型开发和应用实践的公司之一，现在其他公司来挖人你怎么办？

周明：他们还没往我们这看。我们不注重个人英雄主义，我们每个人发挥自己的优势，不同的人互相支撑，能做出大项目。

大公司，包括新成立的公司，都在看国际人才。你在 OpenAI 干过，哪怕就是扫地的，现在身价都很高。OpenAI 的没找着，在微软、Google 干过也凑合，现在都这么找人。

《晚点》：他们去美国挖人是明智之举吗？

周明：不论在国内挖还是国外挖，单纯挖人都不是上策。多数人在一个公司里只做某一个螺丝钉，只对问题有局部了解，本来就是个兵，你指望他到你这儿做帅，你想想你公司会往哪儿走？

2C 更有雄心，但是 2B 更务实

《晚点》：你曾评价 OpenAI “雄心令人敬佩”，国内做 NLP 有些 “胆小”。什么是 “雄心”？什么是 “胆小”？

周明：OpenAI 从一开始就想做 AGI（通用人工智能），不鸣则已，一鸣惊人。国内外其他公司多数没这个雄心，更多是想着把机器翻译、搜索引擎等任务做好，不一定非要走到 AGI。

不过现在一些中国公司看到 OpenAI 的成功之后，雄心又太大了，认为我只要有钱，只要买得起机器，很快会达到或超越 ChatGPT。我觉得是不太可能的。

《晚点》：你自己也没想过 AGI？

周明：我以前认为做不出来，现在我也不敢说澜舟能做出来了，但有了这个 Vision（愿景）。有和没有区别很大：我们这一代也许能实现，也许实现不了，但大家每天都在逼近，要有这样的雄心。

《晚点》：你怎么定义 AGI？有人认为 AGI 已经来了。

周明：AGI 是一个递进过程，你原来只能做一个任务，后来变成 N 个任务、1 万个任务，都用一个平台实现。

1 万个任务是 AGI 吗？也不是，它可能一直往上涨，越前面的任务越容易被人用到，越往后的是越长尾的。

《晚点》：你这是从通用性角度定义 AGI，你并不考虑机器的认知或意识问题？

周明：我是站在生产力的角度，不是生产关系的角度。现在生产力都还没做出来。

《晚点》：想法挺务实。你们具体怎么做？

周明：我讲究两条腿走路，一个是 Vision，一个是 Stage（阶段）。Vision 是终极目标，每个阶段还有阶段目标，让公司有中间成果或实现收入。

所以我们既炼模型，同时也希望它能很快在某些领域落地，边炼边用，不能割裂，这二者存在互相反馈：炼模型时要考虑怎么用，这样会更聚焦，效率更高；用时要想好怎么和 “最后一公里” 结合。现在的创业团队里，同时有炼和用的能力的很少。

《晚点》：王慧文的想法也是 “大模型 + 应用”，他管这叫双轮驱动。

周明：这说明他真是干过大公司的。澜舟的优势是已经做了两年，吃了很多苦，我们过去的模型已经有落地经验，现在是做更大的模型去落地，我们多了一个 “反馈链”。

《晚点》：和这一批新公司不同，澜舟 2021 年初做的是一个 10 亿参数的模型，回头看这是不是一种相对胆小的选择？

周明：我刚出来创业时就想做大模型，可我调研了上百家单位，他们说你做大模型，我也用不起，你给我一个百亿或千亿参数的模型，我得买多少机器？中国央国企是要私有化部署的，我认为它们是中国 2B 最主要的客户。所以这两年，澜舟做轻量化是走务实的路线。

《晚点》：客户部署大模型的成本具体是多少？

周明：如果是训练千亿参数级大模型，追求训练速度，要上千块 A100，现在一块 A100 约 10 万元人民币，这是上亿元投入。如果接受训练得很慢很慢，我觉得最少用 128 块 A100，这也是上千万投入，而且我不确认能不能训练出来。

当然如果只是本地部署推理，则不需要那么多卡。推理就是模型训好了来用。千亿大模型要 8 到 16 块 A100，也是一二百万元的投入。如果这个模型支持的任务没那么重要，客户还是觉得不合算。所以当时只能做轻量化模型。

《晚点》：今年 3 月澜舟的孟子大模型发布会上，你们说接下来要做百亿、千亿参数的模型。

周明：2B 的需求分布是：80% 是轻量化模型能解决的任务，如机器翻译、信息收集、阅读理解等；还有 20% 的任务需要多轮对话、复杂语义理解或意图识别，比如客服、合同审核等，这只能大模型来做。我们以前不碰这 20%，即使它客单价更高。

前两年我们做的事是先拿 80% 的任务，积累能力，再逐步做更大的模型，去拿 20% 的大单。

《晚点》：ChatGPT 出来前，一定拿不到那 20% 的单？

周明：拿不到。你模型能力不够，客户也觉得你做不了。我要审时度势，作为初创团队，我得先靠 80% 的任务活着。

但 ChatGPT 一来，它教育了客户，客户想用了。我们原本的规划，加上技术的进步、客户的教育、同行的竞争，我们能力也更强了，万事俱备，我就应该做这个（千亿参数大模型）。

《晚点》：现在做百亿以上参数规模的大模型，企业客户会不会还是用不起？

周明：一是更大、更重要的任务有更大的预算；二是按照摩尔定律，机器每 18 个月性能高一倍，价格低一倍。当然现在中国是被美国限制了芯片。

《晚点》：你一开始就在调研企业客户，为什么不考虑做 2C？

周明：2C 可能成就伟大公司，2B 节奏慢，但是更务实。有 2C 志向的人，大概看不上 2B 志向的人。

但大模型 2C 在中国很难，我私下以为，可能是一条不归路。首先现在好多人没明白 C 和 B 的区别，他觉得我把 ChatGPT 抄出来，将来两条路全可以做。

实际上 2C 更需要 AGI，要把各种功能放在一个通用引擎上，不能翻译一个 App，写作一个 App，一堆 App。这就要把两类能力——听懂人话，即语言理解的基础能力，和做事，即解决各种任务的能力——放在一个模型里。相应地，模型参数规模必须大。ChatGPT 参数量已到了 1750 亿，未来还会更大。做 2C ，未来就是一个不断增加参数规模、数据量和机器的军备竞赛，可能一直被 OpenAI 压着走。

第二，国内 2C 很难直接找用户收到钱，而且监管比较严。

其实还有第三条路，就是 2B2C，类似 OpenAI 把 GPT 的能力嵌入微软的标准产品，如 Bing 或 Office 里。这条路得有机缘，要找好合作伙伴。

《晚点》：澜舟现在是重点 2B，考虑 2B2C，不碰 2C？

周明：我们也做 2C，但是是为了获客。2B2C，我们已和一家大型通信厂商合作，去服务它的客户。

《晚点》：未来更追求通用性的 2C 大模型会碾压更小的模型吗？

周明：在具体任务上，相对小的模型，加上更好的微调和特定领域的数据，会超越通用大模型。另外还有成本，对很多场景来说，客户需要便宜和够用。

《晚点》：如果把未来通用大模型做到公有云上再 2B，就可以平摊掉小任务的成本。

周明：央企国企的很多业务出于数据安全考量，一般不会用公有云，我认为这个形势大概未来十年不会变。

《晚点》：这给 2B 带来一个问题，你们能用客户数据帮助优化模型，形成数据飞轮吗？

周明：国内的行业数据飞轮效应很难建立，央国企的数据、训练出来的模型也不是你能带走的。当然这对所有公司都一样，大家都在一个起跑线。

人左右不了局势，只能适应局势。中国的 SaaS（软件即服务）没有美国普及。公有云和 SaaS 有一天可能会迸发，在这之前要积累和保留能力，等待未来的变化。

《晚点》：变化可能来自哪儿？