Redian新闻
>
使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

公众号新闻

简介


Microsoft SQL Server 2019通过SQL Server 2019大数据集群 (Big Data Clusters, BDC)推出了突破性的数据平台。Microsoft SQL Server大数据集群旨在解决当今大多数组织面临的大数据挑战。您可以使用SQL Server BDC来组织和分析大量的数据,也可以将高价值的关系型数据与大数据结合起来。本文描述了使用Dell PowerFlex软件定义存储在Kubernetes平台上部署SQL Server BDC的过程。

PowerFlex

Dell PowerFlex是一个统一的、软件定义的计算存储和网络解决方案,提供横向扩展的块和文件存储服务,旨在提供灵活性、弹性和简单性以及大规模的可预测的高性能和恢复能力。


PowerFlex平台提供多种消费选项,可帮助客户满足其项目和数据中心需求。PowerFlex设备和PowerFlex机架为客户提供了针对整个基础架构堆栈的全面IT运营管理(ITOM)和生命周期管理(LCM),以及完善的高性能、可扩展、弹性的存储服务。


PowerFlex软件定义存储具有统一的计算和网络,可提供灵活的部署架构,以帮助最好地满足特定的部署和架构需求。PowerFlex可以部署在两层架构中,以实现计算和存储的非对称扩展,也可以部署在单层(HCI)或混合架构中。

最新的基于PowerEdge 15G的PowerFlex节点采用英特尔®至强®Platinum处理器,性能更高的CPU,更多的内存,带来极高的性能。

Microsoft SQL Server大数据集群概述


Microsoft SQL Server大数据集群 (Big Data Clusters, BDC) 旨在以独特的方式应对大数据挑战,BDC通过构建大数据和数据湖环境解决了许多传统挑战。SQL Server大数据集群是Microsoft SQL Server 2019的附加功能。您可以查询外部数据源,将大数据存储在由SQL Server管理的HDFS中,或者使用集群查询来自多个外部数据源的数据。


您可以使用SQL Server大数据集群,将SQL Server和Apache SparkTM、Hadoop分布式文件系统 (Hadoop Distributed File System, HDFS) 等可扩展的集群部署为容器,运行在Kubernetes上。

1

在PowerFlex上部署

Kubernetes平台

对于这个测试,PowerFlex 3.6.0采用两层配置构建,具有六个仅计算(CO)节点和八个仅存储(SO)节点。我们使用PowerFlex Manager自动配置 PowerFlex 集群,其中包含VMware vSphere 7.0 U2上的仅计算节点,以及使用Red Hat Enterprise Linux 8.2的仅存储节点。

下图显示了使用PowerFlex 的Kubernetes平台上SQL Server BDC的逻辑架构。



从存储角度来看,我们为SQL BDC从八个PowerFlex节点创建了一个保护域。然后,我们使用作为保护域成员的每个节点中安装的所有SSD创建了一个存储池。

部署PowerFlex集群后,我们在六个相同的仅计算节点上创建了十一个虚拟机,上面安装了Ubuntu 20.04。我在Kubernetes的工作节点上手动安装了PowerFlex的SDC组件。然后我们在虚拟机上配置了一个Kubernetes集群 (v1.20),其中有3个主节点和8个工作节点。

戴尔存储解决方案提供了CSI插件,使客户能够为基于容器的应用程序大规模提供持久存储。Kubernetes编排系统和Dell PowerFlex CSI插件的结合可以轻松配置容器和持久存储。

在该解决方案中,在我们安装Kubernetes集群后,配置了CSI 2.0来为SQL BDC工作负载提供持久卷。


2

在Kubernetes平台上部署

Microsoft SQL Server BDC

当具有CSI的Kubernetes集群准备就绪时,Azure data CLI将安装在客户端计算机上。


为了加速BDC的部署,我们建议使用本地专用注册表中的离线安装方法。虽然这意味着在创建和配置注册表时需要做一些额外的工作,但它消除了每个BDC主机从 Microsoft repository中提取容器映像的网络负载。在充当专用注册表的主机上,安装Docker并启用Docker repository。


BDC配置从默认设置修改为使用群集资源并满足工作负载要求。为了横向扩展BDC 资源池,需要调整副本数以使用集群的资源。


运行Spark 和Apache Hadoop YARN的配置值也根据每个节点可用的计算资源进行了调整。


为SQL master pod提供了20TB的存储空间,其中10TB作为日志空间。由于测试涉及运行TPC-DS工作负载,我们为五个storage pods配置了总共60TB的空间。

3

在PowerFlex上验证

SQL Server BDC

为了验证在PowerFlex上运行的大数据集群的配置并测试其可扩展性,我们使用Databricks®TPC-DS Spark SQL套件在集群上运行TPC-DS工作负载。该工具包允许您将整个TPC-DS工作负载作为Spark作业提交,该作业生成测试数据集并在其中运行一系列分析查询。由于此工作负载完全在SQL Server大数据集群的存储池内运行,因此环境被扩展为运行建议的最多五个storage pods。

我们为Kubernetes环境中的每个工作节点分配了一个storage pod,如下图所示。
在此解决方案中,采用Spark SQL TPC-DS工作负载来模拟数据库环境,该数据库环境对决策支持系统的多个适用方面进行建模,包括查询和数据维护。以高 CPU和I/O负载为特征,决策支持工作负载对SQL Server BDC集群配置施加负载,以在CPU、内存和I/O利用率方面获得最大的运营效率。标准结果由查询响应时间和查询吞吐量来衡量。

使用Databricks TPC-DS Spark SQL套件,工作负载作为Spark作业运行,分别对应1TB、5TB、10TB 和30TB工作负载。对于每个工作负载,仅更改数据集的大小。

我们在CURL命令中设置了具有不同比例因子的TPC-DS数据集。数据直接填充到 SQL Server大数据集群的HDFS存储池中。



下图显示了不同比例因子设置的数据生成所消耗的时间。数据生成时间还包括计算表统计信息的后期数据分析过程。

加载后,我们运行TPC-DS工作负载,以使用99个预定义的用户查询来验证Spark SQL的性能和可扩展性。查询以不同的用户模式为特征。


下图显示了性能和可扩展性测试结果。结果表明,在PowerFlex上运行Microsoft SQL Server大数据集群对不同的数据集具有线性可扩展性。这表明PowerFlex能够为不同类型的Spark SQL工作负载提供一致且可预测的性能。



下图显示了在30TB运行TPC-DS测试期间捕获的Grafana仪表板实例。从图中可以看出,在测试过程中实现了15GB/s的读取带宽。

在这个最小的实验室硬件中,TPC-DS数据加载和查询执行没有存储瓶颈。工作节点上的CPU接近90%,表明更强大的节点可以提高性能。


总结



在PowerFlex上运行SQL Server大数据集群是开始在Kubernetes上运行现代化大数据工作负载的一种直接方式。该解决方案允许您使用现有IT基础架构和流程运行现代容器化工作负载。大数据集群允许大数据科学家利用Kubernetes的敏捷性进行创新和构建,而IT管理员则可以在他们熟悉的Sphere环境中管理安全的工作负载。

在此解决方案中,Microsoft SQL Server大数据集群部署在PowerFlex上,PowerFlex提供简化的云原生工作负载服务操作,并且可以在不妥协的情况下进行扩展。IT管理员可以为命名空间实施策略,并管理以应用程序为中心的管理访问和配额分配。以应用程序为中心的管理可帮助您使用企业级Kubernetes 构建开发人员就绪的基础架构,从而提供高级治理、可靠性和安全性。

Microsoft SQL Server大数据集群还与具有优化参数的Spark SQL TPC-DS工作负载一起使用。测试结果表明,部署在PowerFlex环境中的Microsoft SQL Server大数据集群除了数据仓库类型的操作外,还可以为大数据解决方案提供强大的分析平台。


点击阅读原文,了解更多PowerFlex内容



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
The Answer to China’s Energy Woes? Harnessing Virtual Power.西点军校-向往已久的圣地Chinese University Fires Professor Accused of Sexual HarassmentAfter the Yangtze, China Passes Law to Protect Yellow River后Kubernetes时代的未来?Wasmer 3.0 发布,可在浏览器外运行 WebAssembly在美国264. 大肠杆菌,不再否认Chinese Drugmaker Launches Epilepsy Medicine After Approval打不儘豺狼決不下戰場Kubernetes入门之Pod健康状态监测机制在Dell PowerFlex上运行VMware Greenplum提供了一个更好的业务智能和分析平台使用AppSync为在Dell PowerFlex上运行的应用程序提供拷贝数据管理SQL能完成哪方面的计算?一文详解关系代数和SQL语法The Lesser-Known Cradle of Chinese CivilizationKubernetes 集群的关闭与重启Former Chinese Soccer Coach Probed Amid Anti-Graft Crackdownsql server执行os-shell新版TensorFlow又立flag!官方团队明确「四大支柱」:承诺100%向后兼容,2023年发布如何使用机器学习来有效管理 Kubernetes 资源Nike搬离西雅图,即将在Bellevue Square 开设东区第一家店!就在Microsoft Store原址Serverless时代已来,多行业拥抱Serverless如何优雅限制 Kubernetes 集群中文件描述符与线程数量在混合云下,我们将Kubernetes与Fluid结合后性能提升了30%烤肉烤火浇花浇水,你的逻辑够你用;但你的分析能力不一定Kubernetes是如何实现数据持久化存储的?Kubernetes 1.26 版本正式发布:改进 Windows 支持,加强网络安全和管理功能LOVE IS OVER---傅声带走银幕之宠爱如何用 Kubeadm 在 Debian 11 上安装 Kubernetes 集群 | Linux 中国报告称Kubernetes 安全大量使用开源解决方案字节跳动开源 kube-apiserver 高可用方案 KubeGateway面向 OLTP 场景,火山引擎跑在 Kubernetes 上的数据库有何不同?| Q推荐奇点已来,推进All on Serverless有哪些困难、如何破局?| 解读Serverless的2022NeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++Event: Sex, Death, and the Perfect Chinese Ghost StoryServerless时代已经全面到来:冷启动时间降低90%,数据分析All on ServerlessKubernetes上千规模Pod最佳实践
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。