活动
Azure Databricks 上的 Apache Spark
本文介绍 Apache Spark 与 Azure Databricks 和 Databricks Data Intelligence 平台的关系。
Apache Spark 是 Azure Databricks 平台的核心,是为计算群集和 SQL 仓库提供支持的技术。 Azure Databricks 是用于 Apache Spark 的已优化平台,为运行 Apache Spark 工作负载提供高效且简单的平台。
Databricks 公司由 Apache Spark 的原始创建者创立。 作为一个开源软件项目,Apache Spark 拥有来自许多顶级公司(包括 Databricks)的贡献者。
Databricks 持续开发和发布 Apache Spark 的功能。 Databricks Runtime 包含基于 Apache Spark 构建的,但同时又扩展了 Apache Spark 的附加优化和专有功能,其中包括 Photon,它是以 C++ 重新编写的优化版 Apache Spark。
当你在 Azure Databricks 上部署计算群集或 SQL 仓库时,系统会配置 Apache Spark 并将其部署到虚拟机。 你无需配置或初始化 Spark 上下文或 Spark 会话,因为 Azure Databricks 会为你处理这些事情。
Azure Databricks 支持各种工作负载,并在 Databricks Runtime 中包含开源库。 Databricks SQL 在幕后使用 Apache Spark,但最终用户使用标准 SQL 语法来创建和查询数据库对象。
用于机器学习的 Databricks Runtime 已针对 ML 工作负载进行优化,许多数据科学家在使用 Azure Databricks 时都会使用 TensorFlow 和 SciKit Learn 等主要开源库。 可以使用作业针对 Azure Databricks 部署和管理的计算资源计划任意工作负荷。
Databricks 平台提供一个安全的协作环境用于开发和部署可根据业务需求缩放的企业解决方案。 Databricks 的员工包括许多世界上知识最为渊博的 Apache Spark 维护人员和用户。 该公司不断开发和发布新的优化,以确保用户能够访问运行 Apache Spark 的最快环境。
要开始使用 Azure Databricks 上的 Apache Spark,请深入学习! Apache Spark DataFrame 教程将逐步讲解如何在 Python、R 或 Scala 中加载和转换数据。 请参阅教程:使用 Apache Spark 数据帧加载和转换数据。
有关 Spark 中 Python、R 和 Scala 语言支持的其他信息,请参阅 Azure Databricks 上的 PySpark、SparkR 概述和适用于 Scala 开发人员的 Azure Databricks 部分,以及 Apache Spark API 参考。
其他资源
培训
认证
Microsoft Certified: Azure Data Engineer Associate - Certifications
演示如何了解使用多种 Azure 服务在 Microsoft Azure 上实现和管理数据工程工作负荷的常见数据工程任务。