Redian新闻
>
终于搞懂了如何构建自己的 AI 助理

终于搞懂了如何构建自己的 AI 助理

科技

这一年 AIGC 健步如飞,想跟上这波时代的浪潮,少不了要面对模型训练中的两大难点:原始训练数据量大,训练结果精度要求高。

换句话说,如何高效、安全地完成数据和 AI 处理任务,是横在每一个开发者面前的问题。

前几天,我参加了最新一期的腾讯技术开放日 Techo Day 的线上活动,有了不少新感受。

Serverless 和数据湖

数据湖像一个魔法池塘,你可以收集和存储大量的数据在其中,数据湖可以保存各种格式和类型的数据,包括结构化数据、非结构化数据、半结构化数据等等。并在需要的时候快速地进行处理和分析。就像湖里的鱼,有的是鲤鱼、有的是鲑鱼、有的是鲨鱼,总之各式各样的。

而 Serverless 就像是一个魔法师,它可以让你在无需管理服务器的情况下,编写和部署应用程序。你只需要告诉它你想要做什么,然后它就会自动完成所有的魔法操作,让你可以专注于业务逻辑和创新。

当 Serverless 魔法施加到数据湖的时候,你便可以高弹性、高效率的方式将数据入湖、格式转换、数据压缩、数据加密,使得数据可以在多种数据源和目的地之间自由游走。

AIGC 业务的场景和需求痛点

最新一期的《腾讯云工具指南》,里面有详细解读 Serverless 数据湖存储在 AIGC 场景里的架构与落地的全方位内容,干货满满。

下面让我们展开来说说——

随着前几年人工智能的火爆,你可能经常能听到机器学习、深度学习这样的新名词,但这对于非业内人来说感觉很遥远,看似对自己的工作产生不了太大影响。

在此之前内容的创作全靠 UGC(用户生成内容),这样虽然能发挥用户的创造性,但效率低下。其实很多工作都是有规律可循,所以又发展到了 CGC(计算机生成内容),这带来了效率提高,但创新性很低。

而现在,随着机器学习、深度学习、自然语言生成技术为基石的 AIGC 的出现,你可以用 AI 自动帮你写一封柳永风格的情书;文字生成图片、音频、视频等创造性的内容;也可以用来分析用户行为,提高营销效果。甚至可以帮你押一波彩票啥的,它就像一个智能的助理!于是大家都开始感叹:原来 AI 还可以这么玩啊!

要想让 AI 更加智能,就需要给它投喂海量高质量知识,这点如何保证呢?数据湖在机器学习和 GPU 训练各个阶段都发挥着重要作用。从各种数据源中收集到五花八门、格式各异的原始未加工数据(Raw Data)需要统一存储,避免数据分散重复难以管理。清洗、转换、训练、存储又需要 GPU 和 高性能存储的加持,所以对存储的吞吐量也有极高的要求。

既然内容是 AI 生成的,就可能会出现涉政、涉 H、涉恐结果的输出,如何把控风险,免被约去喝茶,还需要做很多内容审核的工作。花了高成本训练生成的内容,如何管理才能便于内容的重利用和在企业之间分发,也需要综合考虑。

腾讯云存储 AIGC 解决方案

数据集下载与预处理

当我们谈论机器学习模型的训练,就像是在谈论一个小孩子的成长,需要给他提供足够的营养和教育。在机器学习中,数据集就像是小孩子的食物,它们需要具有丰富性、代表性和可靠性,才能够让模型变得更加聪明和具有更好的预测能力。

通常数据的来源是多样化的,包括国内外公开数据,私有消息队列,关系型数据库等中间件中已有的数据。

由于国内某些限制,往往我们无法获取到足够的高质量数据集,因此,我们需要去国外的网站上拉取数据集,以获取更加全面、高质量的数据集。

当然,这也需要遵守相关法规和规定,避免产生其他风险。

但是,下载大规模的数据集需要耗费大量的时间和带宽资源,而且经常会遇到各种网络原因,使得效率低下。

要知道,随着去年 OpenAI 推出 ChatGPT,各独角兽大厂、垂直领域内企业都纷沓而至,蓄势待发准备在 AI 领域分一杯羹。所以每个环节的效率都提高,最后才可能脱颖而出。

数据遍布在不同的地理位置,要尽可能在离数据源较近的地方下载然后处理,如何做到就近处理,这就依赖全球多地域都分布了具备 TB 级公网带宽的计算存储资源。所以这种规模的玩家,不是大厂还真的玩不转。

对于上述涉及到的所有数据入湖、数据处理、数据出湖各阶段组件,都可以通过云原生和 Serverless 的方式高弹性灵活扩展。

加速数据训练过程

将 AI 用在不同领域内,对训练的性能有着不同的要求。

COS 是一种对象存储服务,可以作为数据的底座,它就像是一个大仓库,可以存放所有的数据。而 GooseFS 分布式文件系统,可以作为 COS 的加速层,提供快速的数据访问服务,让数据处理更加高效。GooseFS 可以针对不同领域内的场景,配置不同级别的缓存,加速训练效率。

在自动驾驶领域,需要大量的数据来进行训练和优化,以提高自动驾驶的准确性和稳定性。举个例子来说,如果你是一辆自动驾驶汽车,你需要学习如何识别道路标志、识别障碍物、判断交通信号灯、规划路径等各种技能,这些都需要大量的数据来进行训练和优化。而且,由于每个地区的交通规则和道路情况都有所不同,所以需要收集大量的数据来进行训练和优化。

如果自动驾驶汽车只有几个数据点来进行训练,那么它可能会像一个新手司机一样,经常迷路、闯红灯、撞车等,这可不是我们想要的结果。所以,为了让自动驾驶汽车变得更加可靠和安全,就需要大量的数据来进行训练和优化,这就需要大量的算力和存储空间来支持。

GooseFS 可以通过构建全闪缓存系统,满足自动驾驶领域海量数据的训练需求。这个全闪缓存系统是由独立的存储集群构建而成,可以提供高速的数据读取和写入,大大提高了训练效率。

而在图像生成领域。例如 Stable Diffusion,它的训练目标是图像分类和图像生成。虽然图像数据量也很大,但是相比于自动驾驶领域的数据量,它的数据集要小很多。

GooseFS 使用 GPU 节点配备的 NVMESSD 作为缓存介质,结合上百台规模,可以构建成 PB 量级的统一命名缓存空间,满足图片训练数据集的缓存需求。

而 ChatGPT3.5 是一种基于自然语言处理的模型,它的训练目标是生成自然语言文本。虽然自然语言数据量很大,但是相比于自动驾驶领域的数据量,它的数据集要小很多。

针对这个量级的训练数据,可以基于 GPU 节点的内存,构建一个 MEM-Based Global Cache,每个 GPU 节点只需要提供部分内存,整个 GPU 训练集群就可以构建数十 TB 的缓存空间,训练数据集通过内存缓存后,既可大幅提升数据访问效率。

所以,不同的模型和领域需要不同的数据量来进行训练和优化,这就需要我们根据实际情况来进行选择。相比起从对象存储 COS 中直接读取,可以提升数十倍数据访问速度。

全方位审核推理过程

内容的合规主要包括了数据源、用户问题、AI 生成的答案。

依稀记得前几年,某视频平台出现了一些涉及未成年人的不良内容,引起了广泛关注。如果当时这些平台有较为完善的内容审核系统,就可以及时发现并删除这些不良内容。

但内容又有文字、图片、音视频等,如果只进行关键词审核,很难识别这些内容。通过 OCR 技术,可以对图片或视频中的文字进行识别审核。

有时用户会使用含有歧义或隐喻的语言发布违规内容,如谩骂、歧视等。如果只进行关键词审核,很难识别这些内容。但是,通过上下文语义审核,可以根据上下文语境,识别和处理这些违规内容。

道高一尺魔高一丈,技术之间的对抗,攻守双方,只要增高对方攻击成本就算胜出。

数据万象已经提供了多个预设的审核模板,包括色情、政治、广告、暴力等多个场景和类型,这些预设模板都是基于强大的 AI 技术和丰富的数据资源,可以快速、准确地识别违规内容,同时针对 AIGC 场景,数据万象也定制了专用模型和策略。

举个栗子,当用户上传一张图片时,数据万象会自动进行内容审核。如果图片中包含色情内容,审核结果将会被标记为违规,同时提供违规描述和违规截图,方便用户进行修正。

当然,如果用户需要定制化审核规则,也可以根据自己的业务需求和风险等级,制定不同的审核策略。这些定制化审核规则可以设置审核类型、审核场景、审核阈值等内容,提高审核效率和准确性。

数据万象的审核机制就像一位“安检员”,为用户和公司保驾护航,让上传的内容更加安全合规。

管理推理结果

内容管理的必要性在于,AI 生成的内容往往存在质量不一、真实性不足、版权问题等多种问题,需要进行管理和控制,保护用户和公司的利益。

以一家互联网教育公司为例,该公司提供在线教育服务,需要大量的教育内容来支持其业务。为了提高教育内容的质量和效果,该公司使用了 AI 生成内容的技术,生成了大量的教育文章、视频和音频。在这种情况下,内容管理非常必要,包括以下几个方面:

● 内容修改:对通过 AI 生成的内容进行修改,提高内容的质量和可读性。例如,对生成的文章进行删减、改写、排版等,以提高文章的可读性。

● 内容保护:保护 AI 生成的内容的版权和知识产权,防止其他人进行侵权和抄袭。例如,采用数字水印等技术,对教育内容进行保护。

● 内容分发:将 AI 生成的内容分发到不同的平台和渠道,提高内容的曝光和传播效果。例如,将教育视频发布到视频网站、将教育文章发布到博客等。

通过内容管理,可以对通过 AI 生成的教育内容进行有效的控制和管理,提高内容的质量和可信度。

腾讯云企业网盘结合数据万象这种云原生和 serverless 的数据处理能力,如图像压缩、版权保护、智能化标签、以图搜图等,提供一体化办公生态,轻松和腾讯云已有办公体系构建智能化办公体验。

提供和 Windows 本地操作同样的体验,支持协同办公、移动办公以及公有云、私有云灵活部署等功能,提高协同工作效率。

结语

腾讯云拥有强大的 GPU 算力,这就像是一台超级计算机,帮助用户快速处理复杂的数据和 AI 任务。

高性能存储解决方案使得数据传输速度快,帮助用户快速获取和传输数据,减少等待时间。

另外,腾讯云还提供了完善的内容审核和管理工具,可以帮助用户保障数据的安全和合规性,让用户更加放心地使用腾讯云的服务。

在云原生和 Serverless 的加持下,用户不需要担心服务器的配置和管理,可以专注于数据和 AI 处理任务。帮助用户省去很多烦恼。

总而言之,腾讯云在 AIGC 场景下的算力、性能、内容审核和管理都是行业内标杆,可以帮助企业更加高效、安全地完成数据和 AI 处理任务。

其实关于 AIGC 的解决方案,想要了解更多,可以看看最新一期的《腾讯云工具指南》。

这份指南尤其推荐给对「Serverless架构的资源平衡管理」感兴趣的同学,全程聚焦,不仅分享了使用 TKE 超级节点实现访问控制安全,还有使用 TDSQL-C Serverless 服务发挥数据库极致弹性等等内容,感兴趣的同学可以点击下方图片下载了解。

当然了,大家还可以点击左下角的「阅读原文」获取,不多说了,小伙伴们可以开始学习啦。

👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型“战火”蔓延至保险科技行业,企业如何构建核心竞争力?[摩托] 也许是我的最后一台摩托——凯旋bobber终于搞定读懂了经济周期,你就读懂了当下从0到1构建自己的mini-ChatGPT开源方案“走不通”!运维一百多应用系统,广州银行信用卡中心如何构建自动化实践如何基于Llama 2搭建自己的大模型?8月26日,4位技术大牛手把手教你湾区7座跨湾大桥又双叒要涨价!市府:终于搞到钱给BART当我们开始整理自己的家,实际上是整理自己的人生自学法语一个月,我终于搞明白了孩子英语启蒙时的疑惑 (附两娃三月书单)美元霸权,天下苦之久也【吃顆米大會(つっこみたいかい)】暖場《ふるさとはどこですか故鄉在何處》(小村之戀)我们如何构建自己的核心竞争力?再接再厉一下亲手撕破了上百条纸尿裤,终于搞清楚好纸尿裤背后的秘密终于搞懂了 Nacos、OpenFeign、Ribbon 等组件协调工作的原理,太强了!如何构建理想的气候贷款机构?直播预告 | 如何构建有意义的职场关系?昨天,女儿把我气疯了信用卡 网贷逾.期了如何补救?交给我们,可以这样协商处理!!如何构建大模型时代下的智能算力?| Q推荐用了这么多年Rust终于搞明白了内存分布!券商资管如何构建护城河?中泰证券资管黄文卿:差异化竞争策略优于不扎实的大而全面向多告警源,如何构建统一告警管理体系?规模增长背后抖音如何构建直播体验优化高考完了如何花式庆祝?法国快来抄北欧的作业!我们终于搞定了,五键领取月捐周年礼!手握上百套房,他们如何构建自己的“房地产帝国”?母亲说 六5天内用户数破亿、增速碾压ChatGPT,Twitter劲敌Threads是如何构建的?蓝方×郭兆凡 | 如何构建三观和独立人格?谈谈我们的故事和阅读史信用卡 网贷逾.期了如何补救?联系我们,可以这样协商处理!!一波三折!终于搞定ChatGPT Plus会员无法续费的问题……3天,手把手教你搭建自己的监控系统(附代码)| 极客时间下场直播预告| 老牌子厨具的底气哪来的?懂了懂了我懂了!在英国生病了如何买药?这份免费就医+各类药选购指南快收好!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。