大模型赋能高智商劳动密集型产业,效率提升20倍
风起AIGC
AIGC已经成为我们这个时代新的商业分水岭,引领着内容和创意的“寒武纪大爆发”。无论是前沿科技产业还是整个经济社会格局,都将因此产生巨大的变化。为了让创业者更好地拥抱这个时代,创业黑马将以中国AIGC第一服务平台为己任,通过走访多位业内知名企业家、投资人、专家学者和创业实践者,从软硬件平台视角、投资人视角、行业应用视角等维度进行系列报道,共话大模型时代新机会,展现产业新力量。本篇为第七篇。
本期的分享嘉宾是黑马天启CEO杨昕。黑马天启是创业黑马孵化的科创大模型子公司,旗下产品黑马天启科创大模型,是创业黑马利用多年行业知识积累、汇聚海量产业数据,基于科创云SaaS开发平台、Microsoft + Stanford开源技术以及360智脑支持,自主研发出的一款垂直应用于科创服务领域的大模型。
在6月7日的黑马AIGC主题系列直播第二季中,嘉宾围绕《黑马天启大模型赋能科技产业》主题进行了深度论述,主要探讨黑马天启科创大模型的建设过程、行业应用,以及在建设过程中得到的思考等。
以下为本次直播实录整理:
我先介绍一下黑马天启科创大模型的建设过程、行业应用,以及在建设过程中,我们因从事垂直行业大模型建设而得到的一些思考。
现在的这波AI浪潮是由数月之前的Chat GPT带起来的,特别是在今年的2、3月份, Chat GPT引领了本次AIGC全面的、百年不遇的技术革命。
在过去的5个月当中,各个厂商都陆续发布各种各样的大模型,但这些大模型都有一个共同的特点,就是面向全职全能的。这些大模型学习了全世界人类的所有知识、话题和信息,可以写代码、编剧本、绘画等,无论是从计算机视觉领域,还是从AIGC的内容生成领域,都有很卓越的建树。
但像黑马这样的企业——十年如一日地服务中小企业,在这个过程当中,我们思考的核心问题却是如何运用大模型来赋能行业、提升我们自身的服务效率。事实上,在“全职全能大模型”和“能为垂直行业赋能、让行业人效真正得以提高的模型”之间,我们确实做过一次重要的判断和取舍。但在经过审慎的判断之后,我们坚定地选择了后者,即我们通过垂直模型的建设,来真正解决行业、产业内部面临的挑战和问题。
通用人工智能大模型的到来,实际上也加速了我们垂直行业模型方面的建设。黑马有一个核心业务是科技创新服务业,我们也叫企业服务业务。
目前,科创服务行业在全国范围内大概是什么规模?据不完全统计,预计是超过100余万家机构和企业;而且在科创服务行业当中,其门类也非常广泛,包含了知识产权、科技项目咨询、财税服务、法律服务等,每个门类都凝结了大量的知识,都相当于一个垂直的专业级服务领域。这个专业服务的领域会跟我们的客户所在领域形成一次交叉,同时每两个领域形成一次交叉汇聚的时点,实际上就形成了千千万万的网格。
我们以知识产权行业为例,国家知识产权局数据显示,2021年的数据是2600亿,2022年则是3000亿的水平,每年大概有400亿的绝对增量。目前知识产业行业的从业人员大约是110万人,还不包含科技项目咨询、财税法律服务等门类。所以科创服务类/企业服务类市场,是一个典型的高智商劳动密集型行业,其市场广大、门类众多,且知识体系复杂、效率不高,是一个极度依赖专家、咨询师来为企业客户提供服务的行业。而从中我们也得出一个结论:它特别适合应用行业大模型来提升人效。
从本质上来说,本次的技术革命是我们通过模型来封装知识、封装数据,通过知识和数据带动自然语言技术的突破,从而实现了Chat GPT、实现了我们做的行业模型应用,使AIGC中的GC(generated content,即生成内容)得以实现。
我们从事的行业实际上也面临着诸多挑战。以科技项目咨询业务为例,我国的经济和产业政策都是由我们的政府主导,无论是资金类还是资质类,很多产业政策其实都是分期、分梯度、分批次地到达企业终端。比如从国家级的项目,到省、市、区,再到街道居委会等,每一个层次都有自己的产业政策。这种政策和项目通常都呈现出一个特点,就是再全国范围内都非常广泛,而且纵深很深。
一些全国性的项目,比如申报高新技术企业,申报时间就较为集中,每年6月、8月、10月这几个批次。在申报期间,企业可能会出现材料准备不齐全等问题,所以我们的服务机构也会在那几个时间段面临申报洪峰,案件量出现相应的挤压。由于我们服务的客户来自五湖四海,来自于不同行业的不同领域,从生物制药到冷链物流,从芯片到计算机,或是各种各样的农副产品……各种各样的行业都有,我们的咨询师其实很难在短时间之内快速掌握多个跨行业的知识,所以对咨询师的挑战也非常大,因为项目在申报过程当中还需要撰写大量的案件。
还是以科技项目咨询为例,我们服务一个客户,一个咨询师在通过整理各个方面的资料后,至少要写15天——这意味着在面临大量的用户时,效率和交付的天花板是一直存在的,而且对从业行业的咨询师而言也是不堪重负,因为在短时间内很难交付大量的咨询方案和文档工作。
但通过模型来进行重新梳理之后,我们将流程分成了六个步骤:第一步是客户现场咨询,第二步是客户资料整理,第三步是行业资料的详细梳理,第四是咨询方案的撰写,第五步是用户确认,第六步是完成服务。
按照传统服务流程,我们的中级咨询师至少也需要10-15天,初级咨询师则需要15-20天才能完成一个客户服务流程。而在模型赋能后,第二到第四步流程实际上都可以通过AI来进行提速,端到端的流程时间就可以从原来的10-15天提高到0.5-1天,整体效率提升15-20倍。
比如我的一个咨询师同事,原来他依靠个人的勤奋和行业知识的积累,每个月最多只能撰写8个客户所需的文件方案。5月份,通过模型的支持和自身经验的积累,他单月完成了20个客户的方案撰写和交互,而且还非常轻松。从中确实可以看到效率的极大提升。
除了撰写内容的效率得到提升,我们还可以完成一些相关内容的撰写。以科技项目咨询为例,我们研发了立项文件报告、高新技术产品文件说明、科技成果转化文件,还有组织管理文件等,类似文件类型我们支持20+个。因为我们在这个行业已深耕多年,也总结了相应的模板行话、套话,还帮助企业梳理好了稳妥的咨询架构,让申报老师可以很快抓住企业核心内容和重点标注的方法。一些关键的文件报告原来要写三天,现在可能几分钟就完成了,效果、速度都非常快。
截至5月末,我们已累计服务200+客户,完成了2000+文件的撰写。但实际上现在应该是更多了,因为我们现在每天大概有1000+文件在平台上得到相应的撰写和交付,效率得到了质的提升。
在启用了科创大模型之后,我们从6月初就开始全面进行公测,现在输入tianqi.ai就可以访问黑马天启的平台、自主完成注册,并马上拿到公测账号。我们也将这些测试的内容和平台部署,首批开放给我们的服务机构公司和合作伙伴。据不完全统计,今年大概已有100多个机构客户在我们的平台上批量完成了文件的撰写和项目的申报。
像黑马这样的企业和公司也可以做出大模型,我们是怎么做出来的?中国千千万万的中小企业是不是也可以建立起自己的模型?大模型是不是仅仅只是巨头的游戏呢?
我们的答案是比较肯定的,我相信不仅黑马可以,更多的中小企业、甚至每个行业其实都可以。我们的模型实际上是由几个核心因素组成的,一是我们的科创云SaaS开发平台,我们在这个平台上投入了三年,从几年前就已经有个百人的研发团队在不断开发和迭代,二是科创云,它也是一个知识产权的无形资产管理平台,我们在这个平台的基础之上看到了模型的突破,更重要的是知识的突破、带动自然语言技术能力上的突破,所以行业知识、特别是垂直行业的知识积累极为关键。
所以我们把知识和数据封装起来训练模型,包括1970年之后所有的专利数据、全国的商标数据和版权数据等,涵盖了80+省、市、区级政府网站的政策数据,还有1.6亿个工商注册数据,包含法人变更、注册数据,自主标注数据、申请成功的企业数据,以及一些期刊论文行业知识等。
三,在技术方面,我们除了开发平台之外,还吸收了一些开源技术中非常好的模型架构和方式方法,主要是来源于两个方面:一个是微软,我们吸收的主要是并行计算和 Zero shot内存管理技术,以及斯坦福的一些模型架构上创新。另一个是360实验技术专家给了我们很多关键技术知识,360的智脑在搭建过程当中跟我们也完成了一些支持和协同。所以大家才能在今天看到天启大模型的成功应用。
在建立模型的时候,我们的建设宗旨叫“知识为先,能力为本”。我们将核心知识分成两部分,一个是通识知识,另一个是行业知识。通识知识刚才已经介绍过了,而关于行业知识我们是这样选择的:每个行业都具备独特性,黑马在服务的行业当中,一些战略性新兴产业比如工业、4G专精特新智能物流、现代物流等产业,实际上偏多,我们对于这些产业当中的上下游和关键概念、核心知识也相对比较了解。同时在这方面咨询师的储备也比较多,所以我们将这些知识作为这次模型当中的核心内容和核心数据。
在能力建设上方面,其实我们做了大胆的判断和取舍。做人工智能开发、特别是模型开发的同行都知道,如果技术路线选错了,损失很可能是巨大的,不但浪费了很多时间,还可能浪费很多算力、资金。所以我们在做这方面判断的时候,我们就将多模态当中的比如绘画复杂的逻辑推理等能力建设放弃了,反而聚焦在对我们行业和文件咨询、知识赋能有用的能力上,核心就是语义的理解,还有知识的总结、文档内容的生成。
我们还在模型的学习方面进一步做了规范化、标准化、流程化,主要就是为了预训练微调,强化学习和推理发现。标准化等4个步骤,可以更多、更快地完成任务模型上的训练,从而避免了类似千亿级大模型一次训练就花费几百万、上千万电费的情况出现。
我们在能力建设上也做了一个关键的判断,在整个模型架构上做了分离。大家都知道现在在AIGC领域,几乎每周都会发生重大变化,每周都会有新的问题产生,有新的问题得到解决,所以我们今天所涉及的架构也是在不断的进化和演进的过程当中。
在6月份这个节点上,大家看到的是我们整体模型的一个快照,但它还在进一步的进化过程当中,我们主要的设计思想实际上不再是一个大而全的模型,而是多层次的模型架构。机械模型在科创大模型当中主要负责知识封装和逻辑推理,我们在此基础之上又做了任务模型,就是专门为特定任务而做,通过知识蒸馏的方式,将大模型里面的知识再蒸馏出来,然后再做小范围的训练,以降低模型胡说八道的概率,从而进一步完成高新技术企业、专精特新企业的撰写需求。中间我们还有一个 AI混合引擎,就是AI MaaS,主要做对话合规,包括人机对齐等关键方式,从而实现了具体应用和模型层的分离,还有关键知识的安全管理。
以下是一个例子:
大家也可以登录tianqi.ai来做全面的公测和体会。在做模型过程当中,我们也有一个强烈的体会,借用微软CEO的一句话:小公司在AI领域中也可以赢得竞争;几百人的团队,也可以赢得竞争、也能成事儿。
本次掀起技术革命的open AI,起步时也是20+个人,现在有可能是90+人。再看中国的中小企业,大部分也是小规企业,所以我们是不是也可以通过这种先进技术来改造我们的行业、提高我们效率?我相信这个答案是肯定的。
黑马天启的公司愿景就是为细分产业打造行业大模型,我们也愿意将这些技术进一步开放,跟我们千千万万的中小企业共同进化,更好地通过模型技术、AIGC的核心能力来赋能行业,加快中小企业的发展。
更多精彩内容,尽在i黑马视频号
关注黑马传播矩阵,get更多精彩内容
↓↓↓
微信扫码关注该文公众号作者