让大模型融入工作的每个环节，数据巨头 Databricks 让生成式AI平民化 | 专访李潇

2023-08-29 17:08

采访嘉宾 | 李潇

编辑 | Tina

Databricks CEO Ali Ghodsi 曾表达过这样的观点：Databricks 的目标是实现数据普惠和 AI 普惠，数据普惠使得数据能够触达企业内的每一名员工，而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益，并更好地掌控数据的使用方式。”在过去，Databricks 在 AI 领域积累了大量经验，如今在大模型的潮流下，他们不仅推出了自家的开源大模型 Dolly 2.0，还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML，迅速强化了大模型方面的实力。最近，Databricks 发布了一系列创新产品，例如 Lakehouse IQ、AI Gateway, Unity Catalog 等。作为大数据领域的领军企业，我们相信 Databricks 正在塑造着未来。在 QCon 北京到来之际，我们采访了 Databricks Engineering Lead 李潇，以深入了解他们在数据领域的创新思想。

采访嘉宾简介：

李潇， Databricks 工程总监、Apache Spark Committer 和 PMC 成员。他领导和管理七个团队，负责开发 Apache Spark、Databricks Runtime 和 DB SQL。他的主要兴趣是数据湖仓、数据复制和数据集成。此前，他是 IBM Master Inventor 荣誉的获得者，也是数据库异步复制和一致性验证方面的专家。他于 2011 年在佛罗里达大学获得博士学位。李潇将在9月3日-9月5日QCon北京发表主题为“Introducing English as the New Programming Language for Apache Spark”的演讲。

InfoQ：Databricks 的使命似乎在不断进化（从 Spark 到数据湖仓到 AI），那么能说说这背后的思考吗？

李潇：Spark 其实是为 AI 而生的。最初是 Matei Zaharia 为了 Netflix 的机器学习竞赛而创建了 Spark 这个分布式数据处理系统。在十年前，Spark 刚进入 ASF，就已经集成了机器学习、离线分析、流处理和图处理的功能。Lakehouse 也是在十年前就已经有了雏形。在过去十年中，整个社区共同努力，使 Apache Spark™ 发展成为一个可以在单节点机器或集群上执行数据工程、数据科学和机器学习的多语言引擎。

Databricks 的使命，其实从创建开始一直到现在，都是非常一致的。Databricks 是由一群 Spark 的原创人于 2013 年创建的公司，专注于构建智能湖仓 (Lakehouse)。虽然最初没有明确使用 Lakehouse 这一术语，但 Databricks Lakehouse 平台一直在致力融合数据湖和数据仓库的最佳元素，旨在帮助降低成本并更快地实现数据和 AI 的目标。AI 也一直是我们产品的重要组成部分。基于开放的数据湖仓架构，Databricks 上的 AI 和机器学习使用户能够准备和处理数据，简化跨团队合作，并规范从实验到生产的完整机器学习生命周期。这里面的 AI 当然也包括当下最热门的生成性技术，如大型语言模型。

InfoQ：Databricks 最近有很多动作，做了开源大模型 Dolly，也收购了大模型公司 MosaicML。那么对于 Spark 和数据湖这些技术和产品，Databricks 如何将整合大模型？

李潇：Databricks 坚信开放与合作的力量。我们预见的未来，既包括适应性广泛的通用大模型，也涵盖了具有独特优势的专业模型。数据所有权，训练和服务成本将会是很大的挑战。为此，我们构建了服务平台，助力企业用户便捷地训练、微调和管理这些模型。Dolly 的诞生，更是我们为展示如何用小型的专有数据集调优大模型所付出的努力。而 MosaicML 是又这方面的领军者。我们的用户可通过 MosaicML 创建私有的 ChatGPT，以较少的成本实现更大的价值。MosaicML 的分布式训练服务允许客户不与第三方共享数据、模型和推理，仅需数日，就能建立自己的专属大语言模型。

我们深知大模型的好坏在于数据，其中，数据的质量与模型的成果息息相关。身为 Lakehouse 服务商，我们致力于帮助客户高效整合、清洗并挖掘其核心数据资产。对 MosaicML 收购恰恰是 1+1 > 2。高质量的数据使 MosaicML 能打造出色的私有 LLM（Large Language Model），而这样的 LLM 又进一步挖掘了数据的潜在价值，推动 AI 真正服务于每一位客户，这正是我们所追求的“AI 普惠”。

InfoQ：Databricks 在 AI 峰会上发布了几个新 AI 产品，其中一个是英文 SDK，“英语是新的 Spark 编程语言”。那么这个用户定位是针对什么样的人群？（小编注：似乎能用到 Spark 的人，应该已经具备了应用 SQL 和接口的能力？）另外，这个产品的准确率如何，是否有了进一步的提升？

李潇：即使对于经验丰富的 Apache Spark 用户，他们也可能仅仅熟悉其中的一小部分 API 和参数，因为 PySpark 的功能之繁多，有上千个 API。而随着 ChatGPT 的兴起，我们惊喜地发现它对 PySpark 有着深入的了解。这应归功于 Spark 社区在过去十年中的辛勤努力，他们提供了众多的 API 文档、开源项目、问题解答和教育资源。于是乎，我们启动了 English SDK 这个项目，我们将 Spark Committers 的专业知识注入，通过 LLM，使用户可以只通过简单的英文指令获得所需结果，而不再需要自己录入复杂的代码。通过这种方式，我们降低了编程的入门难度，简化了学习过程。English SDK 的初衷是扩大 Spark 的应用范围，进一步推动这个已经非常成功的项目。

至于 English SDK 的准确率，它高度依赖于 LLM 的性能。例如，GPT-4 在这方面的表现就非常出色。我们在 Data+AI Summit 展示的 demo 就是用的 GPT-4。为了进一步改善准确率，我们会往 English SDK 加入更多 Spark 研发人员的专业经验和技巧，使 LLM 能够更精准地生成高效代码，并降低错误率。但需要强调的是，English SDK 更多的是作为一个助手，它的目的是为了帮助我们更方便地使用 Spark，提高效率。考虑到大模型的局限性，我们不期望它在短期内能完全替代人工，尤其是在处理像 Spark 这样的复杂软件和五花八门的应用场景。然而，随着技术的进步，人机交互的模式会发生重大变革，自然语言处理技术将更加融入我们的开发流程，使我们可以集中精力去解决业务问题，而不仅仅是编码。最后，我要提醒大家，English SDK 是一个开源项目，欢迎大家加入并为其贡献自己的创意。有兴趣的朋友们，可以访问 pyspark.ai 来了解更多。九月四号，我也会在 QCon 北京给大家更深入地讲解这个项目。

InfoQ：数据平台结合 AI 的方式，Databricks 与其他家相比，有哪些特色？

李潇：面对如今日新月异的大模型行业，自从 ChatGPT 等先进技术横空出世后，数据和 AI 行业的领导者都意识到了“奇点”出现，大家都争先为用户提供大模型服务。所以，今天的特色很可能明天就会成为标配。

如果让我来突出 Databricks 的一个区别点，那我会毫不犹豫地提及我们的“Unity Catalog”。在当前的技术环境下，信息安全始终是各大企业关心的焦点。而我们的 Unity Catalog 正是为 Lakehouse 设计的首款统一数据治理工具。它能够帮助企业精确管理其结构化与非结构化数据，同时对分布在不同云服务上的数据资产进行高效管理，其中自然包括了大模型。Catalog 为大型模型的训练和应用提供了更全面的上下文信息，如元数据和数据溯源，从而有助于提高模型的准确度。有了 Unity Catalog，数据科学家、分析师以及工程师们都能够在一个安全和高效的环境中探索、获取和处理可信赖的数据和 AI 资产。这不仅确保了数据的安全，同时也为他们提供了充分发挥 Lakehouse 潜能的机会。

InfoQ：像 Databricks 这样的厂商，在整个大生态中希望扮演的角色 / 定位是什么？

李潇：这个问题非常大，也很难回答。在过去十年，Databricks 在大数据和 AI 生态中一直扮演的角色应该是创新的引领者、开源社区的坚定支持者和行业进步的推动者。

Databricks 的创始团队是 Apache Spark 的原创者，而现在，Spark 已经成为了全球最受欢迎的大数据处理框架，每个月都有超过十亿次的下载。Databricks 始终走在技术创新的前沿，我们率先在 Spark 中引入了批流一体框架，推出了 Lakehouse 架构，并在 Delta 3.0 中为开源存储层设计了创新的通用格式。这些成果也屡获大奖，如 Apache Spark 和 Photon 向量化引擎在顶级数据库会议 SIGMOD 中获得最佳系统和最佳论文奖，并刷新了 TPC-DS 的纪录。

我们很高兴看到整个行业紧随我们的创新步伐，更多的厂商宣布提供 Lakehouse 产品，这无疑也在侧面说明我们在推动着整个行业的飞速进步。为了加快行业的共同进步，我们 Databricks 一直是开源精神的忠实拥护者，除了 Apache Spark，我们还开源了 Delta Lake 数据存储框架和 MLflow 这样的机器学习生命周期管理平台。我们正在积极推动开源模型的广泛应用。例如，你可以利用如 Meta 公司最近发布的 Llama 2 模型这样的开源模型，轻松构建自己的检索增强生成（Retrieval Augmented Generation）应用程序。在我们最近发布的博客文章中（https://www.databricks.com/blog/using-ai-gateway-llama2-rag-apps），我们详细介绍了如何使用 MLflow AI Gateway 进行集中式的模型管理、凭证管理和速度限制。我们坚信，未来应是开放的，而不是封闭的。展望前方，我们期待持续在开源社区深耕，为大型模型的发展持续贡献我们的力量。

InfoQ：很多人关心大模型的成本问题。Databricks 在构建大模型时，有哪些降低成本的方法？（包括自己降低成本和帮助用户降低使用专有模型的成本；除了降低模型参数规模，还有哪些细节上的事情能够降低成本吗？）

李潇：当我们讨论如何实现降本增效时，不得不提到 MosaicML。他们持续追求的一个核心使命就是降低模型训练的整体成本。以他们最新发布的 MPT-30B 大模型为例，这个模型引入了 Alibi 等先进技术以延长 context window，并利用 FlashAttention 技术有效提高了 GPU 在训练和推理过程中的工作效率，进而显著削减了成本。

值得注意的是，在多 GPU 上预训练大模型时，经常会遇到软硬件错误，若不及时处理，这些错误很容易导致昂贵的资源浪费。而 MosaicML 在这方面展现出卓越的实力。他们实施了一套主动监管系统，能够即时检测到软硬件错误，并自动修复这些出现的问题。这种自动化的错误管理机制大大减少了不必要的成本浪费，确保了训练过程的高效进行。

在模型规模上，MPT-30B 经过深思熟虑的设计，使其 30B 的参数规模能够优化到可在单一 GPU 上部署的程度，例如可以在 1x NVIDIA A100-80GB 上以 16-bit 精度运行，或在 1x NVIDIA A100-40GB 上以 8-bit 精度运行。而与此相对照，其他的 LLMs，如 Falcon-40B，尽管参数量更大，但却无法在单块 GPU 上流畅运行，这常常意味着需要至少两块或更多的 GPUs，自然也就增加了推理系统的基础开销。

除此之外，选择和优化硬件同样是一项关键任务。据我们所知，MPT-30B 是首个在 NVIDIA H100 GPUs 上训练的模型，与 A100 相比，它不仅运行速度更快，而且具有更高的性价比。

最值得一提的是，通过 MosaicML 的技术，用户只需要短短不到两周的时间，就能从零开始训练出自己的 MPT-30B 模型。

InfoQ：如果未来所有产品都需要用 LLM 来重新设计，那么 Databricks 自己的产品是否也会基于 LLM 重新设计？如果会的话，这项工作目前在进行中了吗？

李潇：我们在 CEO Ali Ghodsi 的号召下，全公司今年年初就全面拥抱 LLM。最开始，我们有一个口头禅：“今天你用了 LLM 吗？”到后来， LLM 逐渐就已融入到了我们的工作的每个环节里，无论是编写面向用户的错误提示，还是构建测试用例。在 Databricks，我们秉持“Dogfood” 的文化，每天都在使用自家的产品进行研发。我们把自身的使用需求转化为实际的产品输出。例如，我们推出了 Databricks Assistant——一个基于上下文的 AI 助手。它已经正式上线，并在 Notebook、SQL 编辑器和文件编辑器中都提供了公开预览。Databricks Assistant 让用户能够通过对话界面查询数据，进一步提高在 Databricks 平台上的工作效率。您只需用英语描述您的任务，Assistant 便可以生成 SQL 查询，解释复杂的代码，甚至自动修复错误。此外，Assistant 利用 Unity Catalog 的元数据来理解您的表格、列、描述以及公司中流行的数据资产，从而为您提供个性化的答复。

当然，除了 LLM，AI 在我们众多的产品设计中都发挥了关键作用。例如，我们最新公布的 predictive I/O，它可以加速读取数据的速度，缩短扫描和读取数据所需的时间。同时，它还可以加速数据在更新、删除和合并时的处理速度，降低在这些操作中需要重写的数据量。

InfoQ：您认为 GPT 是否给大数据行业带来了冲击？如果有影响，主要体现在哪些方面？

李潇：GPT 等大模型成功地凸显了数据质量对于模型性能的重要性。它不仅进一步加强了我们对大数据的价值认知，而且提高了我们对数据采集、清洗与处理的关注度。这无疑刺激了大数据解决方案的需求。同时，随着大模型的广泛应用，如何有效、高效地处理数据，如何优化数据处理的成本，都成为了亟待解决的问题。此外，数据治理、数据安全和隐私保护也日益受到重视，因为不恰当的数据管理容易导致敏感信息在模型中的泄露。

谈及未来的人机交互，我预期会有重大的变革。这个不单单影响大数据行业的软件，应该影响了所有的产品。我相信，大模型将很快成为行业的标准。但这也意味着那些用户不太熟悉的 API 和功能可能会遭遇使用难题。因为如果它们的使用量少，相应的文档和示例也会变得稀少，这将导致这些信息难以被纳入到大模型的训练数据中，使模型难以提供精确的建议。这种恶性循环对闭源产品和小型社区都构成了巨大的挑战。

InfoQ：大模型会给大数据行业里的哪些职业带来影响较大，比如数据工程师、数据科学家、数据分析师等。

李潇：大模型正在对各个行业带来深刻的影响，当然这种影响不仅限于大数据行业，但我们首先承认，大数据行业是最大的受益者之一。接下来我将以三个职业为例来详细说明。

首先，看数据工程师。我们可以将大模型比作一座摩天大楼，而数据则是其不可或缺的建筑材料。随着这种“摩天大楼”大量兴建，对数据的需求和质量标准也随之增加。因此，数据工程师需要掌握处理更加复杂的数据流的技能，确保数据既高质量又能快速流转。

其次，是数据科学家。在大模型的时代，通用模型和专用模型层出不穷，选择合适的模型已经成为他们日常工作中的一大挑战。根据实际需求，如成本与性能的权衡，可能需要为大模型的使用投入大量资金，这对于数据科学家来说是一个全新的考量维度。

最后，让我们看看数据分析师。随着大模型的进步，一些基础的数据分析工作可能会被自动化取代。但这并不意味着数据分析师的工作将变得不重要，相反，他们需要更加深入地理解特定领域的业务逻辑，用于解决更为复杂的问题，并提供有洞察力的分析。

实际上，随着大模型的普及，每个人都有可能成为“数据分析师”。以我们最近在 Data+AI Summit 上发布的 Lakehouse IQ 为例，它就是一个基于大模型的智能系统。Lakehouse IQ 能够学习并理解您业务和数据的独特性质，为各种用途提供自然语言的访问能力。您组织中的任何员工都可以使用 Lakehouse IQ 以自然语言的方式搜索、理解和查询数据。它还能够结合您的数据、使用模式和组织结构来理解您公司的行话和独特的数据环境，从而提供比简单使用大语言模型更准确的答案。

活动推荐

以「启航·AIGC 软件工程变革」为主题的 QCon 全球软件开发大会·北京站将于 9 月 3-5 日在北京•富力万丽酒店举办，此次大会策划了从 BI 到 BI+AI，新计算范式下的大数据平台、大前端新场景探索、大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构计算、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近 30 个精彩专题。

咨询购票优惠信息可联系票务经理 18514549229（微信同手机号）。点击「阅读原文」即可查看 QCon 北京站完整日程，期待与各位开发者现场交流。

今日好文推荐

QCon 北京本周日开幕，与 LangChian 作者对话

比 GitHub Copilot 更强大？Meta 开源 AI 编码工具，能跨多语言补全和调试代码

大厂公敌“李跳跳”无限期停止更新；国产集成开发环境工具 CEC-IDE 引关注；华为辟谣网传3.2万名科学家正式移籍 | Q资讯

七年没能将 Python 集成到 Excel，Python 之父加入微软三年后成了！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章