挑战 Transformer 霸权？ Yan 架构竟以半价成本实现百万级参数大模型

2024-01-28 02:01

作者 | 李忠良

1 月 24 日，岩芯数智正式发布自研大模型“Yan 模型”。Yan 模型采用非 Transformer 架构，为非 Attention 机制的通用自然语言大模型。据了解，该大模型有相较于同等参数 Transformer 的 7 倍训练效率、5 倍推理吞吐和 3 倍记忆能力。

昨日，在 ROCK AI 大模型发布会上，Yan 大模型展示了其在人工智能领域的一系列创新和优势。该模型在多个方面表现出超越当前 Transformer 技术的潜力。

首先，Yan 大模型在训练效率方面显示出惊人的成绩，据称比同等参数的 Transformer 提高了 7 倍。这意味着在更短的时间内，Yan 可以处理和学习更多的数据，这对于加快 AI 模型的发展至关重要。其次，它的推理吞吐量是 Transformer 的 5 倍，这使得处理实时数据和复杂任务变得更加高效。最引人注目的是，它拥有 3 倍于 Transformer 的记忆能力，这可能为处理大规模数据集和复杂的 AI 任务提供了全新的途径。

尽管 Yan 大模型是否会开源还有待确定，但其合作者已经可以免费使用这一架构，这无疑将促进技术的快速应用和发展。值得一提的是，基于 Yan 架构，仅需投入同等规模 Transformer 架构成本的 50% 甚至更低，就可以拥有百万参数级的大模型。

Transformer 架构的局限性

作为当前 AI 领域的一个基石，Transformer 的设计和性能已经在各种任务中被广泛验证。Transformer 是基于注意力机制的神经网络架构，现今在人工智能领域占据主导地位。它能够有效处理序列数据，极大提高翻译、识别等任务的效果。

全球人工智能热潮的许多主要模型和产品，如 GPT、LLAMA、PaLM 等，都是基于 Transformer 构建的。其通用性显著，虽最初设计用于语言翻译，但现也推动计算机视觉、机器人学、计算生物学等领域的发展。Transformer 的核心在于快速捕捉输入内容各部分间的相互作用，适用于处理句子中的片段、音乐中的音符、图像中的像素、蛋白质的部分等各种任务。

Transformer 的概念最早出现在谷歌研究人员 2017 年的论文《Attention is All You Need》中，这篇论文在短短 5 年内被引用了 3.8 万余次。它是编码器 - 解码器模型的一个特例，2-3 年前开始流行。在此之前，注意力机制只是模型的一部分，基于 LSTM（长短期记忆）和其他 RNN（循环神经网络）变体。

Transformers 的关键见解在于，注意力可以作为推导输入和输出之间依赖关系的唯一机制。

Transformer 的突破在于其对注意力的独特运用。它使模型在处理单词时能够关注与该单词密切相关的其他单词。在《Attention is All You Need》发表前，语言 AI 领域先进技术是 RNN，它按顺序处理数据，但在表达单词间远距离依赖关系时存在局限。注意力机制使模型无视距离，考虑单词间的关系，确定哪些单词和短语更值得关注。谷歌团队的突破在于完全舍弃 RNN，仅用 Attention 进行语言建模。

注意力机制最初在计算机视觉中提出，重点关注特定区域，忽略无关图像区域。它实现了语言处理的并行化，同时分析文本中的所有单词，而非顺序分析。Transformer 的并行化带来了更全面、准确的文本理解，以及高于 RNN 的计算效率和可扩展性。现代基于 Transformer 的模型以其规模为特点，能在更大的数据集上训练，使用更多参数。

尽管 Transformer 非常强大和通用，技术领域仍在寻求更高效、先进的解决方案来应对新挑战和需求。

尽管 Transformer 模型在人工智能领域取得了显著成就，但它们存在一些局限性，这促使研究者寻找更优的模型架构。Transformer 的主要局限性包括：

参数数量庞大：Transformer 模型通常含有数百万到数十亿个参数，需要大量数据进行训练，以及昂贵的计算资源，包括高性能的 GPU 或 TPU。
高昂的计算成本：标准 Transformer 模型在处理长序列时，其自注意力机制的时间和空间复杂度呈二次方增长。随着输入序列长度的增加，计算资源和时间需求成指数级增长。同时，由于参数众多和复杂的层间交互，模型在训练和推理时还需要大量内存。
长序列处理困难：Transformer 架构与序列长度呈二次方关系，处理更长的序列时，内存和计算需求急剧增加，使得处理长序列变得困难。

国内首个非 Attention 机制大模型——Yan 模型

面对 Transformer 模型在处理大参数量、高计算成本和长序列困难方面的局限性，科技界迫切寻求更高效的解决方案。这些挑战促使岩芯数智研发团队开创性地开发了 Yan 模型，一个基于非 Attention 机制的创新架构。在 ROCK AI 大模型发布会上，刘凡平详细介绍了 Yan 模型的独特优势和技术进步。

他指出，Yan 架构与 OpenAI 的 GPT 系列、Meta 的 LLaMa 系列和 Google 的 PaLM 系列等基于 Transformer 架构的模型截然不同，是一种完全独立研发的新一代技术，拥有自主知识产权。

Yan 架构的主要优势在于其训练效率和资源消耗方面的显著改进。刘凡平提到，Yan 架构的训练效率是传统 Transformer 架构的 7 倍，这大大缩短了开发周期，并显著降低了成本。这对资源有限的创业公司和中小企业尤其有利。

此外，Yan 架构在保持高效能的同时，具有高推理吞吐量的特点，能够支持更多用户的同时使用。刘凡平还强调了 Yan 架构对数据隐私的重视，支持 100% 私有化部署，这对注重数据安全的企业至关重要。

他提到，Yan 架构能够在不同平台上运行，包括大型服务器和普通消费级 CPU，这增加了其在不同规模和类型企业中的应用范围。同时，Yan 在减少大模型幻觉问题方面也取得了进展，通过增强记忆能力，提高了问题回答的准确性。

在刘凡平的介绍之后，岩芯数智 CTO 杨华对 Yan 架构进行了进一步的阐释。

杨华表示，Yan 架构不依赖于传统的注意力机制或 RNN 等序列模型。通过采用线性自然语言关联特征表示、特征关联函数和记忆算子，Yan 实现了计算复杂度的显著降低和特征表达能力的增强。Yan 通过多层叠加提高网络深度，优化了模型的学习和生成复杂信息特征的能力，从而在推理效率上取得显著提升，同时大幅降低了推理成本。

杨华还介绍了基于 Yan 架构的不同参数规模的语言模型，包括 13 亿、70 亿、480 亿参数量的模型，并强调了在大规模语料上的训练过程和方法。在性能对比中，Yan 在训练效率、推理吞吐量、资源消耗和记忆能力等多个维度上均优于传统 Transformer 模型。通过应用示例，如机器翻译、古诗续写和问答系统，Yan 展示了其实际运行能力，特别是在常规消费级 CPU 设备上的流畅运行能力。

随着发布会的结束，这些技术介绍和展示吸引了与会者的极大关注，引发了大家的广泛讨论。在随后的深入采访中，刘凡平表示，Yan 模型的设计旨在满足中小企业和大型企业合作伙伴的多样化需求。这一模型以其高效、灵活且成本效益高的特点，已经在多个行业中获得了广泛的关注和应用。

刘凡平强调，Yan 模型深受多个合作伙伴的青睐，这些合作伙伴参与了与模型相关的会议，并对其表现出浓厚的兴趣；对于中小型企业而言，Yan 模型提供了一种相对低成本的技术解决方案。它通过优化模型架构，不仅提高了训练和推理的效率，还降低了客户的总体项目成本。

此外，刘凡平也谈到，Yan 模型对于离线应用场景也具有重要意义。它能够在端侧运行，支持断网情况下的应用，这对于教育等领域尤为关键。在这些领域中，Yan 模型能够为用户提供不依赖于网络环境的稳定和高效服务。在金融和制造业领域，Yan 模型可以以低成本的方式提供智能客服解决方案，优化供应商管理和高效处理内部数据等，从而提升用户体验和运营效率。

Yan 架构的潜力与挑战

从技术介绍来看，Yan 架构无疑展示了许多潜在优势，例如其在训练效率、资源消耗、推理吞吐量以及对数据隐私的重视上的显著进步。

然而，正如历史上许多技术革新所展示的，一定程度的技术优势并不总是能够直接转化为实际应用中的成功。因此，对于 Yan 架构来说，下一步至关重要的是经受市场和行业专家的实际测试和验证。这不仅是对其技术创新的检验，也是对其在实际应用环境中可行性的考量。

我们期待看到更多来自不同背景和专业领域的专家对 Yan 架构进行深入分析和实际应用测试。进一步的，对于 Yan 架构来说，吸引和鼓励更广泛的行业参与至关重要。是否能够激发开发者、创业公司和大型企业的兴趣，将是衡量其市场潜力的关键。

点击底部阅读原文访问 InfoQ 官网，获取更多精彩内容！

贾扬清新作被某印度创始人内涵借鉴，懒得纠缠：巧了，正准备开源，GitHub 见

被严重宕机坑惨了！多家公司向这个已经存在10年却“鲜为人知”的架构迁移

Apache 顶级项目 MXNet 退役！大神李沐创办、亚马逊首选深度学习框架如何从大厂“宠儿”到落入“冷宫”？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章