OWL🦉：云智慧智能研究院联合北航提出智能运维（AIOps）大语言模型

科技

2023-10-09 05:10

本篇文章为大家介绍由云智慧智能研究院和北航合作的智能运维（AIOps）大语言模型，Owl: A Large Language Model for IT Operations（猫头鹰：用于 IT 运维的大型语言模型）。

论文链接：

https://arxiv.org/abs/2309.09298

Repo链接：

https://github.com/HC-Guo/Owl

Introduction

随着 IT 业务的快速发展, 在实际应用中有效管理和分析大量数据变得越来越重要。自然语言处理（NLP）技术已在各种任务中显示出非凡的能力，包括命名实体识别、机器翻译等。最近，大型语言模型（LLM）在各种 NLP 下游任务中取得了显著的改进。然而，目前还缺乏用于智能运维（AIOps）的专门 LLM。

在本文中，我们将介绍一种大型语言模型 Owl，它是在收集的 Owl-Instruct 数据基础上训练而成的大型语言模型。本文提出了 Mixture-of-Adapter strategy 策略，以提高不同子领域或任务的微调效果。此外，由于缺乏智能运维领域的大语言模型的 Benchmark，本文建立了 Owl-Bench 测评基准，Owl 和其他量级的模型在 Owl-bench 和其他 IT 相关的基准上进行了评估。

实验表明，Owl 的性能超过了现有开源模型。此外，我们还希望我们的研究结果能提供更多的启示，专业化的大型语言模型将大大提高细分领域中与 IT 相关的任务的效率、准确性和理解能力，最终推动 IT 智能运维领域的发展。从而利用专门的 LLM 彻底改变 IT 运维领域（AIOps）。

Owl-Instruct Construction

▲ 图1: 建立Owl-Instruct和训练Owl的流程

第一步：种子数据搜集

作者聘请 IT 运营和维护领域的专家，精心设计输入和输出序列以及综合说明。这些内容涵盖了广泛的来自运维（O&M）领域九个常见领域的数据：信息安全、应用程序、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库。在每个领域中，都包含了不同的任务，例如运维知识问答、部署、监控、故障诊断、性能优化、日志分析、脚本编写、备份和恢复等。最终作者得到了一个由 2,000 个单轮和 1,000 个多轮对话的种子数据实例组成的语料库。

第二步：数据扩充

对于单轮数据，我们借鉴 Self-Instruct 的方法，最终产生了 9118 条数据。对于多轮对话数据，我们借鉴 Baize 中阐明的方法，最终得到 8,740 条多轮对话数据。

第三步：数据质量

为了保持严格的数据质量标准，作者将 GPT-4 评分与细致的人工验证相结合。这种双重验证流程可确保生成数据的完整性和可靠性，同时提高数据的整体质量。在利用 GPT-4 进行评分时，作者针对数据集精心设计了特定的提示。这些提示使 GPT-4 能够根据预定义的质量标准对生成的数据进行评估和评分，能够迅速识别并过滤低质量的数据实例。

与此同时，数据还经过严格的人工验证。由专家组成的审核团队会对每个数据条目进行深入评估。这一人工检查过程需要对内容、连贯性以及与特定领域知识的一致性进行彻底检查。

Owl-Bench Construction

在运维（Operations and Maintenance，O/M）领域，由于缺乏专门用于评估大型语言模型性能的基准，在有效评估和比较该领域大语言模型的能力方面存在严重不足。

为了弥补这一不足，作者构建了一个双语基准——Owl-Bench，它由两个不同的部分组成：由 317 个条目组成的问答部分，和由 1000 个问题组成的多选部分。作者涵盖了该领域的众多现实工业场景，确保 Owl-Bench 能够展现出多样性。测评集的收集过程包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。这些数据都是未经过类 GPT 模型生成的，并预处理成问答题和选择题的形式。

▲ 图2：根据数据集词频生成的词云

Experiment

4.1 Owl-Bench实验结果

作者首先展现了 Owl-bench 的实验结果，包括问答题和选择题的结果。实验结果都证明了 Owl 相关生态的有效性。

▲ 图3：问答题pairwise的结果, 以GPT4作为评测

▲ 图4：选择题zero-shot得分雷达图

运维领域下游任务：

为了验证 Owl 的泛化性，作者在运维相关下游任务进行了测试，作者选取了两个典型任务（日志解析、日志异常检测）进行了测试。对于这两个典型任务，作者设计了特定的 prompt，相关实验证实了 Owl 的有效性。

▲ 图5：日志解析基准测试结果

▲ 图6：日志异常检测基准测试结果

Conclusion

在本文中，作者介绍了一个智能运维（AIOps）大型语言模型 Owl。作者建立了 Owl-instruct 数据集来提高模型的领域理解能力，并在建立的 Owl-Bench 和 IT 相关 Benchmark 上进行测试。这是作者用 LLM 推动 IT 智能运维领域发展的一次有效尝试。为推动开源社区的发展，相关微调和 benchmark 数据也将一并开源，敬请期待。

更多阅读