姚前：行业大模型建设的若干思考

2024-03-29 11:03

行业大模型建设的总体原则应坚持统分结合。“统”指的是统筹规划和管理；“分”指的是行业机构能够分工细化的任务场景

文｜姚前

编辑｜张威

2022年底，OpenAI（美国人工智能研究公司）发布的大模型ChatGPT（对话生成式预训练大模型）引发了广泛关注。在“大模型+大数据+大算力”的加持下，ChatGPT能够通过自然语言交互完成多种任务，具备了多场景、多用途、跨学科的任务处理能力。

以ChatGPT为代表的大模型技术可以在经济、法律、社会等众多领域发挥重要作用。大模型技术被认为很可能像操作系统一样，成为未来人工智能领域的关键基础设施。

国内外大模型现状

目前，国内外出现截然不同的发展趋势：一方面，国外闭源领域以OpenAI的ChatGPT为主导；在开源领域，Meta（脸书的母公司）发布了以LLaMA系列为主的模型。大模型竞争焦点主要在于如何开发原生应用。另一方面，国内呈现“百模大战”，各种大模型如雨后春笋般涌现。国内外大模型各有其独特之处，共同推动人工智能领域的多元化发展。

国外大模型发展现状。ChatGPT经过三次重大升级，先后演进为更快、更准、更长上下文的GPT4（OpenAI推出的大模型4.0版本）和GPT4-turbo（GPT4的升级版本）。近期，OpenAI又推出文生视频大模型Sora。此外，OpenAI还持续推进插件和应用市场生态建设，GPT Store（GPT大模型的应用商店）将助力大模型实现更广泛的应用。谷歌连续发布Gemini、Gemma大模型，全面覆盖开源和闭源方向，其中开源大模型系列Gemma，分为2B和7B两种参数版本，2B版本甚至可直接在笔记本电脑上运行。垂直领域方面，BloombergGPT基于海量金融数据，实现比通用大模型更好的专业能力。

国内大模型发展现状。国内互联网和大型科技公司纷纷研发各自的中文大模型，如百度文心一言、阿里通义千问、腾讯混元大模型、智谱ChatGLM和科大讯飞星火大模型等。这些模型在处理中文任务的能力上都已经达到或超过了GPT3.5的水平，但距离GPT4尚有一定差距。

国内大模型支持私有化部署，但由于算力限制，一般B端用户只部署参数体量较小的大模型，如智谱的ChatGLM-6B模型。阿里通义千问72B大模型的开源，使得国产大模型在私有场景里具备了一定的涌现能力。另外，在金融等垂直领域，专业大模型也如雨后春笋般涌现，包括度小满的轩辕大模型、蚂蚁金服的AntFinGLM以及恒生电子的LightGPT等。

行业大模型的必要性

以ChatGPT为代表的通用大模型，作为技术底座在多个任务和领域上均表现出较好的性能。但通用大模型的构建和训练成本通常很高，且由于缺乏专业知识与行业数据，并不能精准解决某个行业或企业的特定需求。为更好解决特定行业问题，垂直领域大模型应运而生。垂直领域大模型可以支持大模型新技术在行业内的落地，促进行业智能化转型升级。因此，探索构建行业大模型在当前数智化转型的背景下，显得尤为迫切和必要。

传统的部署模式如公有云、私有云以及混合云模式都存在一定的局限性。公有云模式可能受制于安全合规性、灵活性等因素，难以完全满足行业机构的定制化需求；私有云模式虽然强调数据安全与隐私保护，但同时也带来了极高的建设和维护成本，特别是对于预算有限的机构来说，可能不是最优选择；混合云模式尝试将两者结合，但实施复杂，对于行业机构来说也可能存在一定的技术难度。

大模型需要在行业特定任务上打磨专业能力，达到业内认可的服务质量及成效。垂直领域对大模型的准确性和效果要求极高，需要大模型能够对复杂的行业数据进行准确的学习、预测和分析，以支持决策和风险管理。

概而言之，构建行业大模型基座对于行业机构来说，不仅能够解决传统部署模式的局限性，同时也能够提供合适的投入产出、合理的商业模式和具备专业水准的大模型服务能力。此外，行业机构可以基于行业大模型，结合私有语料，通过二次训练和微调的方式形成自身特色的私有大模型。

行业大模型的参考路径

打造行业大模型，高效的工具与流水线化加工扮演着至关重要的角色，包括语料收集与治理、基座模型选择与预训练、模型微调、模型评测与优化等。一般可基于MaaS（Model-as-a-Service，模型即服务）平台构建及部署，MaaS平台提供了一整套大模型服务工具链和开放平台，围绕模型的生命周期提供各种产品和技术服务。

（一）语料收集与治理

针对行业大模型，收集大规模高质量的行业专用语料，开展语料治理，包括数据清洗、格式转换、数据标签化等。

（二）行业大模型的预训练

根据业务需求，选择合适的模型框架体系，利用通用语料，结合行业专用语料训练，使其具备通识能力和行业语言理解能力。行业大模型的预训练过程，需要对大规模的行业无监督数据进行自监督训练和有监督调优。

（三）模型微调

基于预训练的行业大模型，行业管理部门、经营机构等可以使用私有语料开展模型微调。目前行业大模型常用的精调算法包括有监督精调和参数高效精调等。通过模型微调，行业机构即使在算力资源受限的情况下，也可以利用已预训练好的大模型迅速适配特定专业领域的任务，实现高效的迁移学习。微调技术包括prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA等。

（四）模型对齐

在大模型训练时引入意识形态、公序良俗等价值观对齐语料的作用是，确保模型在实际运用中能够有效识别和过滤有害信息，构建更安全、更负责任的大模型，确保技术应用与社会道德及法律法规相一致。通过将负面标签语料、价值观对齐语料纳入训练集，模型会学习到哪些内容是不合适的，从而在用户与模型交互时能够识别出潜在的负面意图或请求，并采取相应的处理措施，如警告、拒绝回应或报告给后台人员。

（五）模型评测与优化

定期评测模型的性能，并根据评测结果进行优化，涉及调整参数、使用不同的训练策略或引入提示词工程等。从技术角度分析，大模型的进化依靠人工反馈的强化学习，其采用的数据标注与过去那种用低成本劳动力完成的简单数据标注工作有所不同，需要专业的人士来写提示词，针对相应的问题和指令，给出符合人类逻辑与表达的高质量答案。但由于人工与机器的交互存在一定的隔阂，比较理想的模式是通过模型之间的交互来进行强化学习，即依靠模型反馈的强化学习。

评测体系亟待构建

现有的大模型评测主要来自科研院所和商业公司等对外发布的论文或报告。这些评测报告着眼于通用大模型的能力和效果，对垂直领域特别是行业的细分业务场景，其评测能力仍有不足。因此，亟需构建行业大模型评测体系。

面向大模型“建、用、管”的产业需求，从大模型的开发能力、功能性能、运营能力和安全可信等方面来构建行业大模型评测体系。评测指标应该基于行业的专业知识和业务场景，涵盖上述各方面内容。此外，还应考虑模型对专业领域术语和概念的理解程度，以及对相关法律法规和合规要求的遵循。

根据构建的评测指标体系，结合实际应用场景，大模型评测可采用人工评测和自动评测。人工评测是通过专家团队对大模型进行实际应用场景的测试和评估。这种评测方法侧重于模型的实际效果和用户体验。自动评测是使用预设的评测算法和统计模型对大模型进行评测。这种评测方法侧重于模型的性能准确性、稳定性和高效性。综合实际应用场景，可以采用结合人工评测和自动评测的混合评测方法。

行业大模型建设思路

构建行业大模型意义重大，考虑到建设投入资金较高，涉及数据安全和网络安全，需要行业管理部门统筹规划，按照“共建共享、统分结合、提质增效、稳妥推进”的建设原则，协调行业核心机构、经营机构、信息技术服务商等共同推动行业大模型高质量建设。

集中行业力量，以共建共享的方式建设基于大模型的公共基础设施，可以有效整合行业算力、数据等资源，防止重复建设，提高建设和使用效率。行业大模型以基础设施方式赋能行业监管、市场发展，助力提升行业数字化、智能化水平。

行业大模型建设的总体原则应坚持统分结合。“统”指的是统筹规划和管理，如统筹行业大模型建设规划，统筹管理算力资源、数据资源、技术栈规范、数据安全规范等；“分”指的是行业机构能够分工细化的任务场景，不同机构可以根据自身需求和业务场景，基于行业大模型公共基础设施开展自身业务场景应用的开发工作。

创新技术的发展离不开标准的推动，行业大模型标准体系的建设，对于加速大模型与行业应用融合，促进产业向标准化、合规化、规模化方向发展，具有重要意义。

一是大模型数据标准。通过梳理相关数据资产，形成通用语料、行业专用语料，与行业微调指令集相结合，覆盖数据安全规范、数据合规清洗、数据质量提升、训练数据集构建等一系列工作，形成行业大模型数据标准和规范。

二是大模型安全标准。行业大模型安全标准主要分为技术可控与业务可用两大维度。其中，技术可控部分重点围绕数据可信、算法模型可信和基础设施可信三个维度展开。业务可用部分可围绕应用可控、业务设计可信两个维度展开。

三是大模型运营标准。行业大模型运营阶段，可从数据工程、模型调优、模型交付、服务运营、平台能力、生态扩展能力等方面构建标准体系，提升模型的可复用性，提高开发、运维效率。

(作者为证监会科技监管司司长；本文首发于2024年3月25日出版的《财经》杂志)

责编 | 张雨菲

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章