适用于 Apache Spark 的 SQL Server 大数据群集运行时指南

适用于: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 有关详细信息,请参阅 Microsoft SQL Server 平台上的大数据选项

适用于 Apache Spark 的 SQL Server 大数据群集运行时简介

适用于 Apache Spark 的 SQL Server 大数据群集运行时是 Apache Spark 的标准化规范,可实现发行版之间的无缝互操作性。 此 Spark 运行时是编程语言分发、引擎优化、核心库和包的一致版本控制块。

使用此运行时规范的每种产品都将包含相同版本的 Apache Spark Core、PySpark、Scala Spark、Spark.R、sparklyr 和 .NET for Spark。

所有分发包和库也是相同的。 该规范的一个主要目标是通过提供持续策展和更新的可立即使用的包和连接器列表,为数据工程师和数据科学家提供一流的体验。

适用于 Apache Spark 的 SQL Server 大数据群集运行时的优点:

  1. Spark 引擎优化和功能在所有产品和服务中提供
  2. 既定的发布节奏
  3. Spark 产品和服务之间的无缝互操作性
  4. 面向数据工程师和数据科学家的精选包
  5. 一致的包管理情景

发布节奏和命名标准

适用于 Apache Spark 的 SQL Server 大数据群集运行时规范定义以下内容:

运行时命名标准如下所示:

“PRODUCT_NAME.SPARK_MAJOR_VERSION.CALENDAR_YEAR.RELEASE#”

例如“BDC.3.2021.1”。

“RELEASE#”是顺序语义编号。 它不受月份或任何其他标准约束。 创建运行时版本后,将不可更改此项。 每个版本的 SQL Server 大数据群集都附带一个版本的运行时。

当前运行时版本中有哪些内容?

SQL Server 大数据群集平台发行说明包含该版本的运行时名称和完整内容。

后续步骤

有关详细信息,请参阅 SQL Server 大数据群集 简介