Redian新闻
>
OWL🦉:云智慧智能研究院联合北航提出智能运维(AIOps)大语言模型

OWL🦉:云智慧智能研究院联合北航提出智能运维(AIOps)大语言模型

科技


本篇文章为大家介绍由云智慧智能研究院和北航合作的智能运维(AIOps)大语言模型 ,Owl: A Large Language Model for IT Operations(猫头鹰:用于 IT 运维的大型语言模型)。

论文链接:

https://arxiv.org/abs/2309.09298

Repo链接:

https://github.com/HC-Guo/Owl




Introduction


随着 IT 业务的快速发展, 在实际应用中有效管理和分析大量数据变得越来越重要。自然语言处理(NLP)技术已在各种任务中显示出非凡的能力,包括命名实体识别、机器翻译等。最近,大型语言模型(LLM)在各种 NLP 下游任务中取得了显著的改进。然而,目前还缺乏用于智能运维(AIOps)的专门 LLM。


在本文中,我们将介绍一种大型语言模型 Owl,它是在收集的 Owl-Instruct 数据基础上训练而成的大型语言模型。本文提出了 Mixture-of-Adapter strategy 策略,以提高不同子领域或任务的微调效果。此外,由于缺乏智能运维领域的大语言模型的 Benchmark,本文建立了 Owl-Bench 测评基准,Owl 和其他量级的模型在 Owl-bench 和其他 IT 相关的基准上进行了评估。


实验表明,Owl 的性能超过了现有开源模型。此外,我们还希望我们的研究结果能提供更多的启示,专业化的大型语言模型将大大提高细分领域中与 IT 相关的任务的效率、准确性和理解能力,最终推动 IT 智能运维领域的发展。从而利用专门的 LLM 彻底改变 IT 运维领域(AIOps)。




Owl-Instruct Construction


▲ 图1: 建立Owl-Instruct和训练Owl的流程


第一步:种子数据搜集


作者聘请 IT 运营和维护领域的专家,精心设计输入和输出序列以及综合说明。这些内容涵盖了广泛的来自运维(O&M)领域九个常见领域的数据:信息安全、应用程序、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库。在每个领域中,都包含了不同的任务,例如运维知识问答、部署、监控、故障诊断、性能优化、日志分析、脚本编写、备份和恢复等。最终作者得到了一个由 2,000 个单轮和 1,000 个多轮对话的种子数据实例组成的语料库。


第二步:数据扩充


对于单轮数据,我们借鉴 Self-Instruct 的方法,最终产生了 9118 条数据。对于多轮对话数据,我们借鉴 Baize 中阐明的方法,最终得到 8,740 条多轮对话数据。


第三步:数据质量


为了保持严格的数据质量标准,作者将 GPT-4 评分与细致的人工验证相结合。这种双重验证流程可确保生成数据的完整性和可靠性,同时提高数据的整体质量。在利用 GPT-4 进行评分时,作者针对数据集精心设计了特定的提示。这些提示使 GPT-4 能够根据预定义的质量标准对生成的数据进行评估和评分,能够迅速识别并过滤低质量的数据实例。


与此同时,数据还经过严格的人工验证。由专家组成的审核团队会对每个数据条目进行深入评估。这一人工检查过程需要对内容、连贯性以及与特定领域知识的一致性进行彻底检查。




Owl-Bench Construction


在运维(Operations and Maintenance,O/M)领域,由于缺乏专门用于评估大型语言模型性能的基准,在有效评估和比较该领域大语言模型的能力方面存在严重不足。


为了弥补这一不足,作者构建了一个双语基准——Owl-Bench,它由两个不同的部分组成:由 317 个条目组成的问答部分,和由 1000 个问题组成的多选部分。作者涵盖了该领域的众多现实工业场景,确保 Owl-Bench 能够展现出多样性。测评集的收集过程包括信息安全、应用、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库这九个不同的子领域。这些数据都是未经过类 GPT 模型生成的,并预处理成问答题和选择题的形式。

▲ 图2:根据数据集词频生成的词云




Experiment


4.1 Owl-Bench实验结果


作者首先展现了 Owl-bench 的实验结果,包括问答题和选择题的结果。实验结果都证明了 Owl 相关生态的有效性。

▲ 图3:问答题pairwise的结果, 以GPT4作为评测

▲ 图4:选择题zero-shot得分雷达图


运维领域下游任务:


为了验证 Owl 的泛化性,作者在运维相关下游任务进行了测试,作者选取了两个典型任务(日志解析、日志异常检测)进行了测试。对于这两个典型任务,作者设计了特定的 prompt,相关实验证实了 Owl 的有效性。


▲ 图5:日志解析基准测试结果


▲ 图6:日志异常检测基准测试结果




Conclusion


在本文中,作者介绍了一个智能运维(AIOps)大型语言模型 Owl。作者建立了 Owl-instruct 数据集来提高模型的领域理解能力,并在建立的 Owl-Bench 和 IT 相关 Benchmark 上进行测试。这是作者用 LLM 推动 IT 智能运维领域发展的一次有效尝试。为推动开源社区的发展,相关微调和 benchmark 数据也将一并开源,敬请期待。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型吹尽黄沙不见金(七十四):暗示OpenAI科学家Andrej Karpathy力荐,23年必读的大语言模型论文清单北京/深圳内推 | 腾讯游戏AI大语言模型团队招聘LLM算法工程师/研究员「天创机器人」完成超亿元C轮融资 ,加速工业智能运维落地应用|早起看早期微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术今晚直播 | ACL 2023原作解读:研究评测与提升大语言模型时间推理能力GitHub 基于大语言模型构建 Copilot 的经验和教训《天凉好个秋》&《江南烟雨路》清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键炸了!!!亚马逊40亿美元投资大语言模型公司Anthropic。。。文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型福建省人民医院升级新一代智能运维,打造数字化转型底座超越 GPT-4!加州大学伯克利分校与微软研究院合作开源大型语言模型 Gorilla大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友大语言模型真能“理解”语言吗?视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑全面的中文大语言模型评测来啦!香港中文大学研究团队发布解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型他刚在我们去的冰川失踪去世了ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成让天下没有难做的开发和运维,DevOps终于有了专属大模型,蚂蚁和北大联合发布「天创机器人」完成超亿元C轮融资 ,加速工业智能运维落地应用|36氪首发5133 血壮山河之武汉会战 信罗战役 6MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间双重国籍的退休生活深圳内推 | 华为诺亚方舟语音语义实验室招聘大语言模型研究实习生ICLR'24 大语言模型智能体最新研究进展对话清华大学人工智能研究院朱军:火爆的AI大模型,暗藏哪些安全风险?苹果正利用大语言模型改造 Siri / Copilot 或将引入 Win 10 系统 / 南航称系统bug所售低价票有效
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。