终于搞懂了如何构建自己的 AI 助理

2023-06-01 03:06

这一年 AIGC 健步如飞，想跟上这波时代的浪潮，少不了要面对模型训练中的两大难点：原始训练数据量大，训练结果精度要求高。

换句话说，如何高效、安全地完成数据和 AI 处理任务，是横在每一个开发者面前的问题。

前几天，我参加了最新一期的腾讯技术开放日 Techo Day 的线上活动，有了不少新感受。

Serverless 和数据湖

数据湖像一个魔法池塘，你可以收集和存储大量的数据在其中，数据湖可以保存各种格式和类型的数据，包括结构化数据、非结构化数据、半结构化数据等等。并在需要的时候快速地进行处理和分析。就像湖里的鱼，有的是鲤鱼、有的是鲑鱼、有的是鲨鱼，总之各式各样的。

而 Serverless 就像是一个魔法师，它可以让你在无需管理服务器的情况下，编写和部署应用程序。你只需要告诉它你想要做什么，然后它就会自动完成所有的魔法操作，让你可以专注于业务逻辑和创新。

当 Serverless 魔法施加到数据湖的时候，你便可以高弹性、高效率的方式将数据入湖、格式转换、数据压缩、数据加密，使得数据可以在多种数据源和目的地之间自由游走。

AIGC 业务的场景和需求痛点

最新一期的《腾讯云工具指南》，里面有详细解读 Serverless 数据湖存储在 AIGC 场景里的架构与落地的全方位内容，干货满满。

下面让我们展开来说说——

随着前几年人工智能的火爆，你可能经常能听到机器学习、深度学习这样的新名词，但这对于非业内人来说感觉很遥远，看似对自己的工作产生不了太大影响。

在此之前内容的创作全靠 UGC（用户生成内容），这样虽然能发挥用户的创造性，但效率低下。其实很多工作都是有规律可循，所以又发展到了 CGC（计算机生成内容），这带来了效率提高，但创新性很低。

而现在，随着机器学习、深度学习、自然语言生成技术为基石的 AIGC 的出现，你可以用 AI 自动帮你写一封柳永风格的情书；文字生成图片、音频、视频等创造性的内容；也可以用来分析用户行为，提高营销效果。甚至可以帮你押一波彩票啥的，它就像一个智能的助理！于是大家都开始感叹：原来 AI 还可以这么玩啊！

要想让 AI 更加智能，就需要给它投喂海量高质量知识，这点如何保证呢？数据湖在机器学习和 GPU 训练各个阶段都发挥着重要作用。从各种数据源中收集到五花八门、格式各异的原始未加工数据（Raw Data）需要统一存储，避免数据分散重复难以管理。清洗、转换、训练、存储又需要 GPU 和高性能存储的加持，所以对存储的吞吐量也有极高的要求。

既然内容是 AI 生成的，就可能会出现涉政、涉 H、涉恐结果的输出，如何把控风险，免被约去喝茶，还需要做很多内容审核的工作。花了高成本训练生成的内容，如何管理才能便于内容的重利用和在企业之间分发，也需要综合考虑。

腾讯云存储 AIGC 解决方案

数据集下载与预处理

当我们谈论机器学习模型的训练，就像是在谈论一个小孩子的成长，需要给他提供足够的营养和教育。在机器学习中，数据集就像是小孩子的食物，它们需要具有丰富性、代表性和可靠性，才能够让模型变得更加聪明和具有更好的预测能力。

通常数据的来源是多样化的，包括国内外公开数据，私有消息队列，关系型数据库等中间件中已有的数据。

由于国内某些限制，往往我们无法获取到足够的高质量数据集，因此，我们需要去国外的网站上拉取数据集，以获取更加全面、高质量的数据集。

当然，这也需要遵守相关法规和规定，避免产生其他风险。

但是，下载大规模的数据集需要耗费大量的时间和带宽资源，而且经常会遇到各种网络原因，使得效率低下。

要知道，随着去年 OpenAI 推出 ChatGPT，各独角兽大厂、垂直领域内企业都纷沓而至，蓄势待发准备在 AI 领域分一杯羹。所以每个环节的效率都提高，最后才可能脱颖而出。

数据遍布在不同的地理位置，要尽可能在离数据源较近的地方下载然后处理，如何做到就近处理，这就依赖全球多地域都分布了具备 TB 级公网带宽的计算存储资源。所以这种规模的玩家，不是大厂还真的玩不转。

对于上述涉及到的所有数据入湖、数据处理、数据出湖各阶段组件，都可以通过云原生和 Serverless 的方式高弹性灵活扩展。

加速数据训练过程

将 AI 用在不同领域内，对训练的性能有着不同的要求。

COS 是一种对象存储服务，可以作为数据的底座，它就像是一个大仓库，可以存放所有的数据。而 GooseFS 分布式文件系统，可以作为 COS 的加速层，提供快速的数据访问服务，让数据处理更加高效。GooseFS 可以针对不同领域内的场景，配置不同级别的缓存，加速训练效率。

在自动驾驶领域，需要大量的数据来进行训练和优化，以提高自动驾驶的准确性和稳定性。举个例子来说，如果你是一辆自动驾驶汽车，你需要学习如何识别道路标志、识别障碍物、判断交通信号灯、规划路径等各种技能，这些都需要大量的数据来进行训练和优化。而且，由于每个地区的交通规则和道路情况都有所不同，所以需要收集大量的数据来进行训练和优化。

如果自动驾驶汽车只有几个数据点来进行训练，那么它可能会像一个新手司机一样，经常迷路、闯红灯、撞车等，这可不是我们想要的结果。所以，为了让自动驾驶汽车变得更加可靠和安全，就需要大量的数据来进行训练和优化，这就需要大量的算力和存储空间来支持。

GooseFS 可以通过构建全闪缓存系统，满足自动驾驶领域海量数据的训练需求。这个全闪缓存系统是由独立的存储集群构建而成，可以提供高速的数据读取和写入，大大提高了训练效率。

而在图像生成领域。例如 Stable Diffusion，它的训练目标是图像分类和图像生成。虽然图像数据量也很大，但是相比于自动驾驶领域的数据量，它的数据集要小很多。

GooseFS 使用 GPU 节点配备的 NVMESSD 作为缓存介质，结合上百台规模，可以构建成 PB 量级的统一命名缓存空间，满足图片训练数据集的缓存需求。

而 ChatGPT3.5 是一种基于自然语言处理的模型，它的训练目标是生成自然语言文本。虽然自然语言数据量很大，但是相比于自动驾驶领域的数据量，它的数据集要小很多。

针对这个量级的训练数据，可以基于 GPU 节点的内存，构建一个 MEM-Based Global Cache，每个 GPU 节点只需要提供部分内存，整个 GPU 训练集群就可以构建数十 TB 的缓存空间，训练数据集通过内存缓存后，既可大幅提升数据访问效率。

所以，不同的模型和领域需要不同的数据量来进行训练和优化，这就需要我们根据实际情况来进行选择。相比起从对象存储 COS 中直接读取，可以提升数十倍数据访问速度。

全方位审核推理过程

内容的合规主要包括了数据源、用户问题、AI 生成的答案。

依稀记得前几年，某视频平台出现了一些涉及未成年人的不良内容，引起了广泛关注。如果当时这些平台有较为完善的内容审核系统，就可以及时发现并删除这些不良内容。

但内容又有文字、图片、音视频等，如果只进行关键词审核，很难识别这些内容。通过 OCR 技术，可以对图片或视频中的文字进行识别审核。

有时用户会使用含有歧义或隐喻的语言发布违规内容，如谩骂、歧视等。如果只进行关键词审核，很难识别这些内容。但是，通过上下文语义审核，可以根据上下文语境，识别和处理这些违规内容。

道高一尺魔高一丈，技术之间的对抗，攻守双方，只要增高对方攻击成本就算胜出。

数据万象已经提供了多个预设的审核模板，包括色情、政治、广告、暴力等多个场景和类型，这些预设模板都是基于强大的 AI 技术和丰富的数据资源，可以快速、准确地识别违规内容，同时针对 AIGC 场景，数据万象也定制了专用模型和策略。

举个栗子，当用户上传一张图片时，数据万象会自动进行内容审核。如果图片中包含色情内容，审核结果将会被标记为违规，同时提供违规描述和违规截图，方便用户进行修正。

当然，如果用户需要定制化审核规则，也可以根据自己的业务需求和风险等级，制定不同的审核策略。这些定制化审核规则可以设置审核类型、审核场景、审核阈值等内容，提高审核效率和准确性。

数据万象的审核机制就像一位“安检员”，为用户和公司保驾护航，让上传的内容更加安全合规。

管理推理结果

内容管理的必要性在于，AI 生成的内容往往存在质量不一、真实性不足、版权问题等多种问题，需要进行管理和控制，保护用户和公司的利益。

以一家互联网教育公司为例，该公司提供在线教育服务，需要大量的教育内容来支持其业务。为了提高教育内容的质量和效果，该公司使用了 AI 生成内容的技术，生成了大量的教育文章、视频和音频。在这种情况下，内容管理非常必要，包括以下几个方面：

● 内容修改：对通过 AI 生成的内容进行修改，提高内容的质量和可读性。例如，对生成的文章进行删减、改写、排版等，以提高文章的可读性。

● 内容保护：保护 AI 生成的内容的版权和知识产权，防止其他人进行侵权和抄袭。例如，采用数字水印等技术，对教育内容进行保护。

● 内容分发：将 AI 生成的内容分发到不同的平台和渠道，提高内容的曝光和传播效果。例如，将教育视频发布到视频网站、将教育文章发布到博客等。

通过内容管理，可以对通过 AI 生成的教育内容进行有效的控制和管理，提高内容的质量和可信度。

腾讯云企业网盘结合数据万象这种云原生和 serverless 的数据处理能力，如图像压缩、版权保护、智能化标签、以图搜图等，提供一体化办公生态，轻松和腾讯云已有办公体系构建智能化办公体验。

提供和 Windows 本地操作同样的体验，支持协同办公、移动办公以及公有云、私有云灵活部署等功能，提高协同工作效率。

结语

腾讯云拥有强大的 GPU 算力，这就像是一台超级计算机，帮助用户快速处理复杂的数据和 AI 任务。

高性能存储解决方案使得数据传输速度快，帮助用户快速获取和传输数据，减少等待时间。

另外，腾讯云还提供了完善的内容审核和管理工具，可以帮助用户保障数据的安全和合规性，让用户更加放心地使用腾讯云的服务。

在云原生和 Serverless 的加持下，用户不需要担心服务器的配置和管理，可以专注于数据和 AI 处理任务。帮助用户省去很多烦恼。

总而言之，腾讯云在 AIGC 场景下的算力、性能、内容审核和管理都是行业内标杆，可以帮助企业更加高效、安全地完成数据和 AI 处理任务。

其实关于 AIGC 的解决方案，想要了解更多，可以看看最新一期的《腾讯云工具指南》。

这份指南尤其推荐给对「Serverless架构的资源平衡管理」感兴趣的同学，全程聚焦，不仅分享了使用 TKE 超级节点实现访问控制安全，还有使用 TDSQL-C Serverless 服务发挥数据库极致弹性等等内容，感兴趣的同学可以点击下方图片下载了解。

当然了，大家还可以点击左下角的「阅读原文」获取，不多说了，小伙伴们可以开始学习啦。

👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章