大模型赋能高智商劳动密集型产业，效率提升20倍

2023-06-08 10:06

风起AIGC

AIGC已经成为我们这个时代新的商业分水岭，引领着内容和创意的“寒武纪大爆发”。无论是前沿科技产业还是整个经济社会格局，都将因此产生巨大的变化。为了让创业者更好地拥抱这个时代，创业黑马将以中国AIGC第一服务平台为己任，通过走访多位业内知名企业家、投资人、专家学者和创业实践者，从软硬件平台视角、投资人视角、行业应用视角等维度进行系列报道，共话大模型时代新机会，展现产业新力量。本篇为第七篇。

本期的分享嘉宾是黑马天启CEO杨昕。黑马天启是创业黑马孵化的科创大模型子公司，旗下产品黑马天启科创大模型，是创业黑马利用多年行业知识积累、汇聚海量产业数据，基于科创云SaaS开发平台、Microsoft + Stanford开源技术以及360智脑支持，自主研发出的一款垂直应用于科创服务领域的大模型。

在6月7日的黑马AIGC主题系列直播第二季中，嘉宾围绕《黑马天启大模型赋能科技产业》主题进行了深度论述，主要探讨黑马天启科创大模型的建设过程、行业应用，以及在建设过程中得到的思考等。

以下为本次直播实录整理：

我先介绍一下黑马天启科创大模型的建设过程、行业应用，以及在建设过程中，我们因从事垂直行业大模型建设而得到的一些思考。

现在的这波AI浪潮是由数月之前的Chat GPT带起来的，特别是在今年的2、3月份， Chat GPT引领了本次AIGC全面的、百年不遇的技术革命。

在过去的5个月当中，各个厂商都陆续发布各种各样的大模型，但这些大模型都有一个共同的特点，就是面向全职全能的。这些大模型学习了全世界人类的所有知识、话题和信息，可以写代码、编剧本、绘画等，无论是从计算机视觉领域，还是从AIGC的内容生成领域，都有很卓越的建树。

但像黑马这样的企业——十年如一日地服务中小企业，在这个过程当中，我们思考的核心问题却是如何运用大模型来赋能行业、提升我们自身的服务效率。事实上，在“全职全能大模型”和“能为垂直行业赋能、让行业人效真正得以提高的模型”之间，我们确实做过一次重要的判断和取舍。但在经过审慎的判断之后，我们坚定地选择了后者，即我们通过垂直模型的建设，来真正解决行业、产业内部面临的挑战和问题。

通用人工智能大模型的到来，实际上也加速了我们垂直行业模型方面的建设。黑马有一个核心业务是科技创新服务业，我们也叫企业服务业务。

目前，科创服务行业在全国范围内大概是什么规模？据不完全统计，预计是超过100余万家机构和企业；而且在科创服务行业当中，其门类也非常广泛，包含了知识产权、科技项目咨询、财税服务、法律服务等，每个门类都凝结了大量的知识，都相当于一个垂直的专业级服务领域。这个专业服务的领域会跟我们的客户所在领域形成一次交叉，同时每两个领域形成一次交叉汇聚的时点，实际上就形成了千千万万的网格。

我们以知识产权行业为例，国家知识产权局数据显示，2021年的数据是2600亿，2022年则是3000亿的水平，每年大概有400亿的绝对增量。目前知识产业行业的从业人员大约是110万人，还不包含科技项目咨询、财税法律服务等门类。所以科创服务类/企业服务类市场，是一个典型的高智商劳动密集型行业，其市场广大、门类众多，且知识体系复杂、效率不高，是一个极度依赖专家、咨询师来为企业客户提供服务的行业。而从中我们也得出一个结论：它特别适合应用行业大模型来提升人效。

从本质上来说，本次的技术革命是我们通过模型来封装知识、封装数据，通过知识和数据带动自然语言技术的突破，从而实现了Chat GPT、实现了我们做的行业模型应用，使AIGC中的GC（generated content，即生成内容）得以实现。

我们从事的行业实际上也面临着诸多挑战。以科技项目咨询业务为例，我国的经济和产业政策都是由我们的政府主导，无论是资金类还是资质类，很多产业政策其实都是分期、分梯度、分批次地到达企业终端。比如从国家级的项目，到省、市、区，再到街道居委会等，每一个层次都有自己的产业政策。这种政策和项目通常都呈现出一个特点，就是再全国范围内都非常广泛，而且纵深很深。

一些全国性的项目，比如申报高新技术企业，申报时间就较为集中，每年6月、8月、10月这几个批次。在申报期间，企业可能会出现材料准备不齐全等问题，所以我们的服务机构也会在那几个时间段面临申报洪峰，案件量出现相应的挤压。由于我们服务的客户来自五湖四海，来自于不同行业的不同领域，从生物制药到冷链物流，从芯片到计算机，或是各种各样的农副产品……各种各样的行业都有，我们的咨询师其实很难在短时间之内快速掌握多个跨行业的知识，所以对咨询师的挑战也非常大，因为项目在申报过程当中还需要撰写大量的案件。

还是以科技项目咨询为例，我们服务一个客户，一个咨询师在通过整理各个方面的资料后，至少要写15天——这意味着在面临大量的用户时，效率和交付的天花板是一直存在的，而且对从业行业的咨询师而言也是不堪重负，因为在短时间内很难交付大量的咨询方案和文档工作。

但通过模型来进行重新梳理之后，我们将流程分成了六个步骤：第一步是客户现场咨询，第二步是客户资料整理，第三步是行业资料的详细梳理，第四是咨询方案的撰写，第五步是用户确认，第六步是完成服务。

按照传统服务流程，我们的中级咨询师至少也需要10-15天，初级咨询师则需要15-20天才能完成一个客户服务流程。而在模型赋能后，第二到第四步流程实际上都可以通过AI来进行提速，端到端的流程时间就可以从原来的10-15天提高到0.5-1天，整体效率提升15-20倍。

比如我的一个咨询师同事，原来他依靠个人的勤奋和行业知识的积累，每个月最多只能撰写8个客户所需的文件方案。5月份，通过模型的支持和自身经验的积累，他单月完成了20个客户的方案撰写和交互，而且还非常轻松。从中确实可以看到效率的极大提升。

除了撰写内容的效率得到提升，我们还可以完成一些相关内容的撰写。以科技项目咨询为例，我们研发了立项文件报告、高新技术产品文件说明、科技成果转化文件，还有组织管理文件等，类似文件类型我们支持20+个。因为我们在这个行业已深耕多年，也总结了相应的模板行话、套话，还帮助企业梳理好了稳妥的咨询架构，让申报老师可以很快抓住企业核心内容和重点标注的方法。一些关键的文件报告原来要写三天，现在可能几分钟就完成了，效果、速度都非常快。

截至5月末，我们已累计服务200+客户，完成了2000+文件的撰写。但实际上现在应该是更多了，因为我们现在每天大概有1000+文件在平台上得到相应的撰写和交付，效率得到了质的提升。

在启用了科创大模型之后，我们从6月初就开始全面进行公测，现在输入tianqi.ai就可以访问黑马天启的平台、自主完成注册，并马上拿到公测账号。我们也将这些测试的内容和平台部署，首批开放给我们的服务机构公司和合作伙伴。据不完全统计，今年大概已有100多个机构客户在我们的平台上批量完成了文件的撰写和项目的申报。

像黑马这样的企业和公司也可以做出大模型，我们是怎么做出来的？中国千千万万的中小企业是不是也可以建立起自己的模型？大模型是不是仅仅只是巨头的游戏呢？

我们的答案是比较肯定的，我相信不仅黑马可以，更多的中小企业、甚至每个行业其实都可以。我们的模型实际上是由几个核心因素组成的，一是我们的科创云SaaS开发平台，我们在这个平台上投入了三年，从几年前就已经有个百人的研发团队在不断开发和迭代，二是科创云，它也是一个知识产权的无形资产管理平台，我们在这个平台的基础之上看到了模型的突破，更重要的是知识的突破、带动自然语言技术能力上的突破，所以行业知识、特别是垂直行业的知识积累极为关键。

所以我们把知识和数据封装起来训练模型，包括1970年之后所有的专利数据、全国的商标数据和版权数据等，涵盖了80+省、市、区级政府网站的政策数据，还有1.6亿个工商注册数据，包含法人变更、注册数据，自主标注数据、申请成功的企业数据，以及一些期刊论文行业知识等。

三，在技术方面，我们除了开发平台之外，还吸收了一些开源技术中非常好的模型架构和方式方法，主要是来源于两个方面：一个是微软，我们吸收的主要是并行计算和 Zero shot内存管理技术，以及斯坦福的一些模型架构上创新。另一个是360实验技术专家给了我们很多关键技术知识，360的智脑在搭建过程当中跟我们也完成了一些支持和协同。所以大家才能在今天看到天启大模型的成功应用。

在建立模型的时候，我们的建设宗旨叫“知识为先，能力为本”。我们将核心知识分成两部分，一个是通识知识，另一个是行业知识。通识知识刚才已经介绍过了，而关于行业知识我们是这样选择的：每个行业都具备独特性，黑马在服务的行业当中，一些战略性新兴产业比如工业、4G专精特新智能物流、现代物流等产业，实际上偏多，我们对于这些产业当中的上下游和关键概念、核心知识也相对比较了解。同时在这方面咨询师的储备也比较多，所以我们将这些知识作为这次模型当中的核心内容和核心数据。

在能力建设上方面，其实我们做了大胆的判断和取舍。做人工智能开发、特别是模型开发的同行都知道，如果技术路线选错了，损失很可能是巨大的，不但浪费了很多时间，还可能浪费很多算力、资金。所以我们在做这方面判断的时候，我们就将多模态当中的比如绘画复杂的逻辑推理等能力建设放弃了，反而聚焦在对我们行业和文件咨询、知识赋能有用的能力上，核心就是语义的理解，还有知识的总结、文档内容的生成。

我们还在模型的学习方面进一步做了规范化、标准化、流程化，主要就是为了预训练微调，强化学习和推理发现。标准化等4个步骤，可以更多、更快地完成任务模型上的训练，从而避免了类似千亿级大模型一次训练就花费几百万、上千万电费的情况出现。

我们在能力建设上也做了一个关键的判断，在整个模型架构上做了分离。大家都知道现在在AIGC领域，几乎每周都会发生重大变化，每周都会有新的问题产生，有新的问题得到解决，所以我们今天所涉及的架构也是在不断的进化和演进的过程当中。

在6月份这个节点上，大家看到的是我们整体模型的一个快照，但它还在进一步的进化过程当中，我们主要的设计思想实际上不再是一个大而全的模型，而是多层次的模型架构。机械模型在科创大模型当中主要负责知识封装和逻辑推理，我们在此基础之上又做了任务模型，就是专门为特定任务而做，通过知识蒸馏的方式，将大模型里面的知识再蒸馏出来，然后再做小范围的训练，以降低模型胡说八道的概率，从而进一步完成高新技术企业、专精特新企业的撰写需求。中间我们还有一个 AI混合引擎，就是AI MaaS，主要做对话合规，包括人机对齐等关键方式，从而实现了具体应用和模型层的分离，还有关键知识的安全管理。

以下是一个例子：