让大模型融入工作的每个环节,数据巨头 Databricks 让生成式AI平民化 | 专访李潇
Databricks CEO Ali Ghodsi 曾表达过这样的观点:Databricks 的目标是实现数据普惠和 AI 普惠,数据普惠使得数据能够触达企业内的每一名员工,而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益,并更好地掌控数据的使用方式。”在过去,Databricks 在 AI 领域积累了大量经验,如今在大模型的潮流下,他们不仅推出了自家的开源大模型 Dolly 2.0,还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML,迅速强化了大模型方面的实力。最近,Databricks 发布了一系列创新产品,例如 Lakehouse IQ、AI Gateway, Unity Catalog 等。作为大数据领域的领军企业,我们相信 Databricks 正在塑造着未来。在 QCon 北京到来之际,我们采访了 Databricks Engineering Lead 李潇,以深入了解他们在数据领域的创新思想。
李潇, Databricks 工程总监、Apache Spark Committer 和 PMC 成员。他领导和管理七个团队,负责开发 Apache Spark、Databricks Runtime 和 DB SQL。他的主要兴趣是数据湖仓、数据复制和数据集成。此前,他是 IBM Master Inventor 荣誉的获得者,也是数据库异步复制和一致性验证方面的专家。他于 2011 年在佛罗里达大学获得博士学位。李潇将在9月3日-9月5日QCon北京发表主题为“Introducing English as the New Programming Language for Apache Spark”的演讲。
李潇:Spark 其实是为 AI 而生的。最初是 Matei Zaharia 为了 Netflix 的机器学习竞赛而创建了 Spark 这个分布式数据处理系统。在十年前,Spark 刚进入 ASF,就已经集成了机器学习、离线分析、流处理和图处理的功能。Lakehouse 也是在十年前就已经有了雏形。在过去十年中,整个社区共同努力,使 Apache Spark™ 发展成为一个可以在单节点机器或集群上执行数据工程、数据科学和机器学习的多语言引擎。
Databricks 的使命,其实从创建开始一直到现在,都是非常一致的。Databricks 是由一群 Spark 的原创人于 2013 年创建的公司,专注于构建智能湖仓 (Lakehouse)。虽然最初没有明确使用 Lakehouse 这一术语,但 Databricks Lakehouse 平台一直在致力融合数据湖和数据仓库的最佳元素,旨在帮助降低成本并更快地实现数据和 AI 的目标。AI 也一直是我们产品的重要组成部分。基于开放的数据湖仓架构,Databricks 上的 AI 和机器学习使用户能够准备和处理数据,简化跨团队合作,并规范从实验到生产的完整机器学习生命周期。这里面的 AI 当然也包括当下最热门的生成性技术,如大型语言模型。
李潇:Databricks 坚信开放与合作的力量。我们预见的未来,既包括适应性广泛的通用大模型,也涵盖了具有独特优势的专业模型。数据所有权,训练和服务成本将会是很大的挑战。为此,我们构建了服务平台,助力企业用户便捷地训练、微调和管理这些模型。Dolly 的诞生,更是我们为展示如何用小型的专有数据集调优大模型所付出的努力。而 MosaicML 是又这方面的领军者。我们的用户可通过 MosaicML 创建私有的 ChatGPT,以较少的成本实现更大的价值。MosaicML 的分布式训练服务允许客户不与第三方共享数据、模型和推理,仅需数日,就能建立自己的专属大语言模型。
我们深知大模型的好坏在于数据,其中,数据的质量与模型的成果息息相关。身为 Lakehouse 服务商,我们致力于帮助客户高效整合、清洗并挖掘其核心数据资产。对 MosaicML 收购恰恰是 1+1 > 2。高质量的数据使 MosaicML 能打造出色的私有 LLM(Large Language Model),而这样的 LLM 又进一步挖掘了数据的潜在价值,推动 AI 真正服务于每一位客户,这正是我们所追求的“AI 普惠”。
李潇:即使对于经验丰富的 Apache Spark 用户,他们也可能仅仅熟悉其中的一小部分 API 和参数,因为 PySpark 的功能之繁多,有上千个 API。而随着 ChatGPT 的兴起,我们惊喜地发现它对 PySpark 有着深入的了解。这应归功于 Spark 社区在过去十年中的辛勤努力,他们提供了众多的 API 文档、开源项目、问题解答和教育资源。于是乎,我们启动了 English SDK 这个项目,我们将 Spark Committers 的专业知识注入,通过 LLM,使用户可以只通过简单的英文指令获得所需结果,而不再需要自己录入复杂的代码。通过这种方式,我们降低了编程的入门难度,简化了学习过程。English SDK 的初衷是扩大 Spark 的应用范围,进一步推动这个已经非常成功的项目。
至于 English SDK 的准确率,它高度依赖于 LLM 的性能。例如,GPT-4 在这方面的表现就非常出色。我们在 Data+AI Summit 展示的 demo 就是用的 GPT-4。为了进一步改善准确率,我们会往 English SDK 加入更多 Spark 研发人员的专业经验和技巧,使 LLM 能够更精准地生成高效代码,并降低错误率。但需要强调的是,English SDK 更多的是作为一个助手,它的目的是为了帮助我们更方便地使用 Spark,提高效率。考虑到大模型的局限性,我们不期望它在短期内能完全替代人工,尤其是在处理像 Spark 这样的复杂软件和五花八门的应用场景。然而,随着技术的进步,人机交互的模式会发生重大变革,自然语言处理技术将更加融入我们的开发流程,使我们可以集中精力去解决业务问题,而不仅仅是编码。最后,我要提醒大家,English SDK 是一个开源项目,欢迎大家加入并为其贡献自己的创意。有兴趣的朋友们,可以访问 pyspark.ai 来了解更多。九月四号,我也会在 QCon 北京给大家更深入地讲解这个项目。
李潇:面对如今日新月异的大模型行业,自从 ChatGPT 等先进技术横空出世后,数据和 AI 行业的领导者都意识到了“奇点”出现,大家都争先为用户提供大模型服务。所以,今天的特色很可能明天就会成为标配。
如果让我来突出 Databricks 的一个区别点,那我会毫不犹豫地提及我们的“Unity Catalog”。在当前的技术环境下,信息安全始终是各大企业关心的焦点。而我们的 Unity Catalog 正是为 Lakehouse 设计的首款统一数据治理工具。它能够帮助企业精确管理其结构化与非结构化数据,同时对分布在不同云服务上的数据资产进行高效管理,其中自然包括了大模型。Catalog 为大型模型的训练和应用提供了更全面的上下文信息,如元数据和数据溯源,从而有助于提高模型的准确度。有了 Unity Catalog,数据科学家、分析师以及工程师们都能够在一个安全和高效的环境中探索、获取和处理可信赖的数据和 AI 资产。这不仅确保了数据的安全,同时也为他们提供了充分发挥 Lakehouse 潜能的机会。
李潇:这个问题非常大,也很难回答。在过去十年,Databricks 在大数据和 AI 生态中一直扮演的角色应该是创新的引领者、开源社区的坚定支持者和行业进步的推动者。
Databricks 的创始团队是 Apache Spark 的原创者,而现在,Spark 已经成为了全球最受欢迎的大数据处理框架,每个月都有超过十亿次的下载。Databricks 始终走在技术创新的前沿,我们率先在 Spark 中引入了批流一体框架,推出了 Lakehouse 架构,并在 Delta 3.0 中为开源存储层设计了创新的通用格式。这些成果也屡获大奖,如 Apache Spark 和 Photon 向量化引擎在顶级数据库会议 SIGMOD 中获得最佳系统和最佳论文奖,并刷新了 TPC-DS 的纪录。
我们很高兴看到整个行业紧随我们的创新步伐,更多的厂商宣布提供 Lakehouse 产品,这无疑也在侧面说明我们在推动着整个行业的飞速进步。为了加快行业的共同进步,我们 Databricks 一直是开源精神的忠实拥护者,除了 Apache Spark,我们还开源了 Delta Lake 数据存储框架和 MLflow 这样的机器学习生命周期管理平台。我们正在积极推动开源模型的广泛应用。例如,你可以利用如 Meta 公司最近发布的 Llama 2 模型这样的开源模型,轻松构建自己的检索增强生成(Retrieval Augmented Generation)应用程序。在我们最近发布的博客文章中(https://www.databricks.com/blog/using-ai-gateway-llama2-rag-apps),我们详细介绍了如何使用 MLflow AI Gateway 进行集中式的模型管理、凭证管理和速度限制。我们坚信,未来应是开放的,而不是封闭的。展望前方,我们期待持续在开源社区深耕,为大型模型的发展持续贡献我们的力量。
李潇:当我们讨论如何实现降本增效时,不得不提到 MosaicML。他们持续追求的一个核心使命就是降低模型训练的整体成本。以他们最新发布的 MPT-30B 大模型为例,这个模型引入了 Alibi 等先进技术以延长 context window,并利用 FlashAttention 技术有效提高了 GPU 在训练和推理过程中的工作效率,进而显著削减了成本。
值得注意的是,在多 GPU 上预训练大模型时,经常会遇到软硬件错误,若不及时处理,这些错误很容易导致昂贵的资源浪费。而 MosaicML 在这方面展现出卓越的实力。他们实施了一套主动监管系统,能够即时检测到软硬件错误,并自动修复这些出现的问题。这种自动化的错误管理机制大大减少了不必要的成本浪费,确保了训练过程的高效进行。
在模型规模上,MPT-30B 经过深思熟虑的设计,使其 30B 的参数规模能够优化到可在单一 GPU 上部署的程度,例如可以在 1x NVIDIA A100-80GB 上以 16-bit 精度运行,或在 1x NVIDIA A100-40GB 上以 8-bit 精度运行。而与此相对照,其他的 LLMs,如 Falcon-40B,尽管参数量更大,但却无法在单块 GPU 上流畅运行,这常常意味着需要至少两块或更多的 GPUs,自然也就增加了推理系统的基础开销。
除此之外,选择和优化硬件同样是一项关键任务。据我们所知,MPT-30B 是首个在 NVIDIA H100 GPUs 上训练的模型,与 A100 相比,它不仅运行速度更快,而且具有更高的性价比。
最值得一提的是,通过 MosaicML 的技术,用户只需要短短不到两周的时间,就能从零开始训练出自己的 MPT-30B 模型。
李潇:我们在 CEO Ali Ghodsi 的号召下,全公司今年年初就全面拥抱 LLM。最开始,我们有一个口头禅:“今天你用了 LLM 吗?”到后来, LLM 逐渐就已融入到了我们的工作的每个环节里,无论是编写面向用户的错误提示,还是构建测试用例。在 Databricks,我们秉持“Dogfood” 的文化,每天都在使用自家的产品进行研发。我们把自身的使用需求转化为实际的产品输出。例如,我们推出了 Databricks Assistant——一个基于上下文的 AI 助手。它已经正式上线,并在 Notebook、SQL 编辑器和文件编辑器中都提供了公开预览。Databricks Assistant 让用户能够通过对话界面查询数据,进一步提高在 Databricks 平台上的工作效率。您只需用英语描述您的任务,Assistant 便可以生成 SQL 查询,解释复杂的代码,甚至自动修复错误。此外,Assistant 利用 Unity Catalog 的元数据来理解您的表格、列、描述以及公司中流行的数据资产,从而为您提供个性化的答复。
当然,除了 LLM,AI 在我们众多的产品设计中都发挥了关键作用。例如,我们最新公布的 predictive I/O,它可以加速读取数据的速度,缩短扫描和读取数据所需的时间。同时,它还可以加速数据在更新、删除和合并时的处理速度,降低在这些操作中需要重写的数据量。
李潇:GPT 等大模型成功地凸显了数据质量对于模型性能的重要性。它不仅进一步加强了我们对大数据的价值认知,而且提高了我们对数据采集、清洗与处理的关注度。这无疑刺激了大数据解决方案的需求。同时,随着大模型的广泛应用,如何有效、高效地处理数据,如何优化数据处理的成本,都成为了亟待解决的问题。此外,数据治理、数据安全和隐私保护也日益受到重视,因为不恰当的数据管理容易导致敏感信息在模型中的泄露。
谈及未来的人机交互,我预期会有重大的变革。这个不单单影响大数据行业的软件,应该影响了所有的产品。我相信,大模型将很快成为行业的标准。但这也意味着那些用户不太熟悉的 API 和功能可能会遭遇使用难题。因为如果它们的使用量少,相应的文档和示例也会变得稀少,这将导致这些信息难以被纳入到大模型的训练数据中,使模型难以提供精确的建议。这种恶性循环对闭源产品和小型社区都构成了巨大的挑战。
李潇:大模型正在对各个行业带来深刻的影响,当然这种影响不仅限于大数据行业,但我们首先承认,大数据行业是最大的受益者之一。接下来我将以三个职业为例来详细说明。
首先,看数据工程师。我们可以将大模型比作一座摩天大楼,而数据则是其不可或缺的建筑材料。随着这种“摩天大楼”大量兴建,对数据的需求和质量标准也随之增加。因此,数据工程师需要掌握处理更加复杂的数据流的技能,确保数据既高质量又能快速流转。
其次,是数据科学家。在大模型的时代,通用模型和专用模型层出不穷,选择合适的模型已经成为他们日常工作中的一大挑战。根据实际需求,如成本与性能的权衡,可能需要为大模型的使用投入大量资金,这对于数据科学家来说是一个全新的考量维度。
最后,让我们看看数据分析师。随着大模型的进步,一些基础的数据分析工作可能会被自动化取代。但这并不意味着数据分析师的工作将变得不重要,相反,他们需要更加深入地理解特定领域的业务逻辑,用于解决更为复杂的问题,并提供有洞察力的分析。
实际上,随着大模型的普及,每个人都有可能成为“数据分析师”。以我们最近在 Data+AI Summit 上发布的 Lakehouse IQ 为例,它就是一个基于大模型的智能系统。Lakehouse IQ 能够学习并理解您业务和数据的独特性质,为各种用途提供自然语言的访问能力。您组织中的任何员工都可以使用 Lakehouse IQ 以自然语言的方式搜索、理解和查询数据。它还能够结合您的数据、使用模式和组织结构来理解您公司的行话和独特的数据环境,从而提供比简单使用大语言模型更准确的答案。
以「启航·AIGC 软件工程变革」为主题的 QCon 全球软件开发大会·北京站将于 9 月 3-5 日在北京•富力万丽酒店举办,此次大会策划了从 BI 到 BI+AI,新计算范式下的大数据平台、大前端新场景探索、大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构计算、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近 30 个精彩专题。
咨询购票优惠信息可联系票务经理 18514549229(微信同手机号)。点击「阅读原文」即可查看 QCon 北京站完整日程,期待与各位开发者现场交流。
比 GitHub Copilot 更强大?Meta 开源 AI 编码工具,能跨多语言补全和调试代码
大厂公敌“李跳跳”无限期停止更新;国产集成开发环境工具 CEC-IDE 引关注;华为辟谣网传3.2万名科学家正式移籍 | Q资讯
微信扫码关注该文公众号作者