生成式AI需要什么样的“数据底座”？

2023-07-21 01:07

假如没有数据作支撑，即使模型再强大也无用武之地！因此，无论是现在热度居高不下的生成式AI，还是更广意义上的AI应用落地，都需要可视可控可靠的数据基础设施作为基石。

端到端可视可控可靠

对于一个端到端数据平台来说，监控与调优工具通常是不可或缺的。但是进入混合多云时代，仅有调优显然不能满足用户复杂的应用需求。

Cloudera大中华区技术总监刘隶放

Cloudera大中华区技术总监刘隶放将混合多云时代数据平台面临的主要挑战进行了归纳。首先，无论是公有云还是私有云，首先要保证系统的可控性和稳定性，这是对运维人员的一项基本要求。随着技术的快速发展，运维人员在面对由容器、调度器、服务等组成的复杂系统时，仅靠个人所掌握的专业知识和技能有些捉襟见肘，因此迫切需要数据平台提供商为运维人员提供高效的工具，保障平台的可控与安全。

其次，在混合多云环境中，对系统资源的管控是一件棘手的事，由于对资源消耗情况和效率的可见性有限，而导致浪费或超支的情况屡见不鲜。所以，运维人员迫切需要一个评判的标准，以便了解如何进行优化。

最后，由于工作负载增加，系统复杂性提升，以前疲于奔命的运维人员迫切需要一个高效的数据采集、分析方案，能够迅速排查故障，减轻运维人员的工作压力。

为了破解上述难题，Cloudera在原有的监控和调优工具Workload Management的基础上，升级推出了Cloudera可观测性平台，即Cloudera Observability。

刘隶放指出，从Cloudera的角度，除了要帮助用户在面对不同工作负载时，都能进行优化、查询，保证最高的效率并节省资源以外，还要综合考虑更多其他因素。比如，财务的管控，在云上帮助用户对整个系统的资源使用进行评判，并计算使用的成本；对数据基础设施及资源的部署和使用进行主动监控；对大数据平台上的各类组件进行自主分析和深入研究，以提高客户的运维效率并降低成本；对服务进行监控，可视化地展现系统运维的情况，及时发现和定位故障等。

Cloudera Observability就是一个覆盖了Cloudera整个CDP的一站式可观测性应用解决方案，它具有财务治理、主动系统监控、服务健康监控、工作负载优化、自助式分析等功能，可以帮助用户更快地解决相关问题。

当前推出的Cloudera Observability还只是运行在公有云上的SaaS版本，接下来Cloudera很快将会发布一个支持本地部署的版本。这也是考虑到国内用户的现实需求，尤其是像基金类对数据敏感和有严格监管需求的用户，便于他们在本地进行分析并实现可视可控。

“由于平台的环境越来越复杂，实现可观测性就是要屏蔽掉所有后台环境的复杂性，为客户提供一种可见的、可操作的、自主性的服务。”刘隶放解释说，“在很多时候，我们要适配多种不同的云，还有本地部署的需求。对于研发人员来说，适配不同的平台和技术，挑战是非常大的。Cloudera愿意在后台承担起这部分‘最苦最累’的活儿，为用户呈现一个‘看起来很美’的混合数据平台。”

据了解，已经有客户基于Cloudera Observability进行数据分析，并获得了有益的回报：比如，经过系统化的调优、预测与评估，能够将集群利用率提升30%以上，从而提高基础设施的投资回报率；从运营运维的角度，采用Cloudera Observability可以将故障排除效率提高50倍，并有效降低运营开支。

Cloudera湖仓一体

可信赖的企业AI路径

AI本身并不是什么新鲜事，而且在很多企业级IT产品以及业务流程中都已经嵌入了AI/ML技术。ChatGPT的出现，就像是一根导火索，将人们对AI的期望又推升至一个新的高度。所有厂商都希望分得这一波AI的红利，有的推出了LLM，有的则提供软硬件基础设施。

作为数据平台提供商、数据的管理者，Cloudera在这波生成式AI的大潮中遇到了一个难得的机遇。为了生成式AI更好的落地，用户需要一个可管理的、可信任的数据平台。据刘隶放介绍，运行在Cloudera数据平台之上的数据总量已经超过2500万TB，与很多云运营商的数据规模相当。只有在雄厚的数据基础之上，客户才能更顺利地构建自己的AI平台。

ChatGPT带来的最直接的改变是，人们只要通过自然语言，就能轻松地进行交互，获得所需的答案。但现在的一个关键或者说难点是，如何将生成式AI与企业的业务场景相结合，给企业带来实实在在的价值。这就要满足一些特殊的要求：比如，训练数据要与企业的业务数据具有相关性，说到底，企业关心的是自己的业务与数据训练的结果，而不是随随便便在网上搜索出来的结果；再比如，关联性与准确度要达到很高的水平，如果答案是错误的，对于生产的影响会很大。

多年来，Cloudera一直在大数据和数据分析领域深耕，针对各种结构类型的数据做分析，并通过湖仓一体对数据进行更有效的加工和处理。“数据是把握企业AI机遇的关键。Cloudera开放式湖仓一体是安全、快速且值得信赖的企业AI路径。”刘隶放举例说，“Cloudera SDX能够提供在任何地点的企业数据上创建可信AI所需的安全、治理和溯源；Cloudera还可以赋能各个公有云和私有云上的企业数据，通过与业务相关的背景信息，使得企业AI变得更强大。”

今天，人们比以往任何时候都更迫切希望将生成式AI引入企业应用，并通过简单、轻松的人机交互，达成业务目标。但是，从MapReduce查询引擎到ChatGPT，不管数据处理的方式如何变化，数据就在那里。在数据的基础之上提供相应的服务，这是Cloudera深度参与生成式AI应用的一个切入点。

作为混合数据领导者，Cloudera除了要在混合云、多云环境中，继续提升数据编织的能力，帮助客户做好数据的治理和管控以外，为了支撑AI大模型的落地，还要在如下方面投入更多精力：Cloudera CDP始终是是一个基础，为客户训练数据奠定基础数据；为客户数据的加工提取转换提供助力，Cloudera已经与包括英伟达在内的诸多硬件厂商进行了广泛而深入的合作；提供机器学习平台CML，在其上可以嵌入LLM模型，方便用户在CLM中对模型进行训练，然后部署AI应用。据了解，国内很多客户对Cloudera的CML非常感兴趣，正在与其洽谈商业合作。

站在AI背后

打造数据底座

生成式AI市场可以简单分成两大阵营：一方是开发和拥有大模型的厂商；另一方则是为大模型的落地提供支撑和服务的厂商。Cloudera显然是属于后一类。

虽然 Cloudera推出了CML，但是Cloudera业务的核心并不是要自己开发设计模型，而是要将CML与市面上主流的模型进行适配，将这些模型加载到Cloudera的平台之上，从而助力业务发展。Cloudera能够为用户提供一个管控平台，以及知识库，并且可以帮助用户对数据进行加工和处理。实际上，CML就是Cloudera CDP的一个组件，它与SDS无缝融合，能够确保无论是在私有云还是公有云中，系统都是安全可靠高效的。一句话，Cloudera致力于为大模型打造一个强大的数据底座。

刘隶放强调说，为大模型应用提供优质的数据，这是Cloudera的一个特长。除了CML之外，Cloudera CDP中还集成了另一个工具CDE(Cloudera Data Engineering),它是一个以Spark为基础的工具，借助相关的算法可以协助CML更好地加工处理数据。同时，Cloudera还能利用GPU这样的硬件，在面对神经网络交换的算法时，能够提升平台处理的速度。

当前，生成式AI在中国行业用户中的落地还处于初级阶段，需要进一步摸索和更多实践。Cloudera正在积极尝试将市场上的大模型接入到其平台上进行验证。

生成式AI的落地要处理好以下关键问题：解决风险合规的问题是第一位的；解决背景信息缺失，以及关联性和可信性问题，简单说，就是要确保答案是准确的。

“用户在自己真实的大数据的模型之上，按照合规的方式产生可信的结果。这是生成式AI的初衷，也是Cloudera AI平台要锻造的一种能力。”刘隶放如是说。

「往 • 期 • 精 • 选」

数据架构现代化，Cloudera“混合数据”能够成为定海神针吗？

搭档Cloudera 数澜科技帮企业把数据用起来

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章