腾讯云自研存储解决方案,全面支持AIGC
关注飞总聊IT,了解IT行业的方方面面。
从ChatGPT开始,全球的AIGC狂潮,极大地改变了整个人工智能生态。大语言模型的不仅仅让很多行业出现了颠覆式创新,基于大语言模型的各种商业应用也开始影响我们每个人。
新的AIGC的发展,对数据的需求也有了更高的要求。大语言模型需要大量的数据进行训练,微调,优化,才能够有效的生产包括文本,图片,适配在内的内容。而这,也对存储提出了更高的要求。
通常,在一个典型的AIGC业务处理流程里,按照顺序,我们对数据的使用大致分为如下的步骤:数据采集、数据清洗、训练、推理、内容治理等步骤,每个步骤都对存储有不同的需求,如下图所示:
在AIGC业务的不同阶段,对数据存储的要求也是有所不同的。
数据的采集阶段,主要是从互联网公网上抓取海量数据,数据量在PB级别,对象存储是一个好的选择。这就需要有全球公网接入能力,海量弹性存储,多样化的传输通道。
数据清洗,大部分情况下是通过大数据引擎,比如Spark等进行,需要支持HDFS的文件接口,对读和顺序写的性能都有要求。
对大语言模型的训练,往往需要读取清洗好的数据,生成向量化数据集,向量化的数据集在大语言模型中迭代,通常数据量应该在10-100TB。目前训练阶段的文件访问接口主要需要支持POSIX语义,要能够提供大量的写带宽和高性能的读OPS。
大语言模型上线服务推理阶段,要求快速加载模型,并针对输入的变量推理出结果,有些场景,模型可以加载常驻内存。文件访问需要支持POSIX语义,对读带宽要求很高。
腾讯云自研了新一代对象存储引擎YottaStore,为AIGC业务整个流程提供了稳定可靠的海量分布式存储平台。
首先,腾讯云的对象存储COS在全球提供了几十个数据中心的接入点,支持多地域的便捷公网接入能力。COS支持通过腾讯自研的全球骨干网,提供稳定的内网数据传输通道,支持数据全球传输。
这些能力对于AIGC业务的数据采集就非常的重要了。
大语言模型训练数据,不但需要采集中文互联网的数据,也需要大量采集英文互联网的数据。数据类型不仅仅有文本,还有图片、视频、语音。数据集需要跨境跨机房交换和存储。腾讯云对象存储所能提供的能力,是数据采集必不可少的。
原始数据集的存储,一方面需要弹性分配资源,另外一方面要保证数据可以随时访问,不丢数据。
在海量公网数据库的存储压力和连续访问的服务压力情况下。腾讯云自研的对象存储引擎 YottaStore,在数据接入层和存储引擎层提供了多种业内领先的技术手段,保障了对象存储服务在提供超大规模服务的同时,可以做到高可用、高可靠。
在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持不同运营商、多种线路的公网接入节点,并提供丰富的流量均衡策略;同时无状态的特性,可以做到无感的扩缩容节点,在流量突增需要增加节点,或者监测到故障需要剔除节点时,都能实现快速横向伸缩。
在存储引擎层面,腾讯云提供了原生多 AZ 的特性,支持任意机型硬件、任意冗余模式的存储;同时通过元数据分级存储等方式,单集群可以扩展到百 EB 级别,实现超大规模的集群管理。
AIGC的数据清理,通常需要通过Flink和Spark等数据分析框架。而大语言模型的训练和推理,则需要支持POSIX语义。
腾讯云的对象存储COS全面兼容S3协议,能够在大部分兼容S3的应用中直接使用COS服务。使用包括Flink和Spark等数据分析框架进行数据清理自然也不是什么问题。
为了更好地支持大语言模型的训练和推理,腾讯云基于稳定可靠的COS基础存储服务,推出了业内首创的GooseFS数据湖三层加速体系,该加速体系基于数据加速器GooseFS、元数据加速器和COS加速器,构建了高效的数据湖存储方案,以促进数据要素的快速流转。
GooseFS 三级加速方案可以将训练数据加载到GPU内存、本地盘或者可用区全闪存储集群等不同级别的缓存中,缩短IO路径,提升数据访问性能。
相比起从对象存储COS中直接读取,GooseFS可以提供亚毫秒级的数据访问延迟、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗和训练的效率。
针对大模型的Checkpoint写入场景,腾讯云还提供了GooseFSx这一全兼容POSIX语义的高性能存储服务,提供高速的数据写入能力。
通过深耕软硬件的技术优化,腾讯云对象存储可以持续为大模型提供领先的存储服务。
除了对象存储COS产品以外,数据万象产品在AIGC场景中也起到了举足轻重的作用。
数据万象包括了对文档文件、图片、音频和视频的处理,以及基于AI智能的多种数据处理服务。通过这些能力,数据万象面向AIGC场景,提供了一站式的数据处理以及内容审核的服务。
数据万象产品近期发布的MetaInsight对AIGC业务尤其重要。MetaInsight是基于AI大模型和向量数据库,为用户提供对全媒体类型进行跨模态的检索能力,从而可以更深入更高效的挖掘数据的内容价值。
MetaInsight服务有三个重要的特点:
第一,跨模态高效检索。MetaInsight采用多模态检索结合结构化标签的产品架构,支持以文搜图、以图搜图、以文搜视频、以视频搜视频、以文本搜音频等多种数据检索的手段,并支持对对象元信息的高效查询和统计分析,可以帮助用户快速、准确地找到所需的数据类型,大大提高了数据的可发现性,提升用户体验、研发效能。
第二,覆盖全面。覆盖多行业全媒体文件类型,对经过授权的商业数据以及自有业务数据进行预处理抽取,通过机器翻译,模型清洗,图文配对,交叉验证等处理工作,收集整理了数百万条中文文本-图像数据,并使用自研检索引擎完成多模态特征效果验证工作。当前已覆盖上千个细分场景,用户可根据业务场景挑选预置模板,快速搭建检索应用,从而实现最大化释放内容价值。
第三,高性能。可以在毫秒级延时的情况下,实现千亿级数据的查询。并实现了95%以上的召回率。
MetaInsight服务为企业的AIGC业务提供了极具价值的服务。
AGI时代需要怎样的全栈数据管理新范式?
点击阅读原文领取《腾讯云工具指南》,
了解IDC专家数据洞察,各行业头部客户实战案例经验,
期待对您企业数据管理有帮助!
微信扫码关注该文公众号作者