Azure Databricks 上的 Apache Spark

本文說明 Apache Spark 如何與 Azure Databricks 和 Databricks Data Intelligence Platform 相關。

Apache Spark 是 Azure Databricks 平臺的核心,是支持計算叢集和 SQL 倉儲的技術。 Azure Databricks 是 Apache Spark 的優化平臺,可提供高效且簡單的平台來執行 Apache Spark 工作負載。

Apache Spark 與 Azure Databricks 的關聯性為何?

Databricks 公司是由 Apache Spark 的原始建立者所創立。 作為 開放原始碼 軟體專案,Apache Spark 擁有許多頂級公司的認可者,包括 Databricks。

Databricks 會繼續開發和發行 Apache Spark 的功能。 Databricks Runtime 包含建置並擴充 Apache Spark 的其他優化和專屬功能,包括 Photon,這是 C++ 中重寫的 Apache Spark 優化版本。

Apache Spark 如何在 Azure Databricks 上運作?

當您在 Azure Databricks 上部署計算叢集或 SQL 倉儲時,Apache Spark 會設定並部署至虛擬機。 您不需要設定或初始化 Spark 內容或 Spark 工作階段,因為這些是由 Azure Databricks 為您管理。

我可以在不使用 Apache Spark 的情況下使用 Azure Databricks 嗎?

Azure Databricks 支援各種不同的工作負載,並在 Databricks Runtime 中包含 開放原始碼 連結庫。 Databricks SQL 會在幕後使用 Apache Spark,但終端使用者會使用標準 SQL 語法來建立和查詢資料庫物件。

適用於 機器學習 的 Databricks Runtime 已針對 ML 工作負載進行優化,許多數據科學家在處理 Azure Databricks 時,會使用 TensorFlow 和 SciKit Learn 等主要 開放原始碼 連結庫。 您可以使用 工作流程 ,針對 Azure Databricks 所部署和管理的計算資源排程任意工作負載。

為何在 Azure Databricks 上使用 Apache Spark?

Databricks 平臺提供安全、共同作業的環境,可讓您開發及部署可隨著業務調整的企業解決方案。 Databricks 員工包括世界上許多知識最淵博的 Apache Spark 維護人員和使用者。 公司持續開發和發行新的優化,以確保使用者可以存取執行Apache Spark最快的環境。

如何深入瞭解如何在 Azure Databricks 上使用 Apache Spark?

若要開始使用 Azure Databricks 上的 Apache Spark,請直接深入! Apache Spark DataFrames 教學課程會逐步解說在 Python、R 或 Scala 中載入和轉換數據。 請參閱 教學課程:使用 Apache Spark DataFrame 載入和轉換數據。

如需 Spark 中 Python、R 和 Scala 語言支援的其他資訊,請參閱 Azure Databricks 上的 PySpark、 SparkR 概觀適用於 Scala 開發人員 的 Azure Databricks 小節,以及 Apache Spark API 的參考。