Apache Spark API 的參考

文章
08/02/2024

Azure Databricks 建置在 Apache Spark 之上，這是巨量數據和機器學習的整合分析引擎。如需詳細資訊，請參閱 Azure Databricks 上的 Apache Spark。

Apache Spark 具有 DataFrame API，可用於在大型數據集上作業，其中包含超過 100 個運算符，且語言超過 100 個。

適用於 Python 開發人員的 PySpark API 。請參閱教學課程：使用 Apache Spark DataFrame 載入和轉換數據。主要類別包括：
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。
- DataFrame - 分組至具名數據行的分散式數據收集。請參閱 DataFrames 和 DataFrame 型 MLlib。
適用於 R 開發人員的 SparkR API 。主要類別包括：
- SparkSession - SparkSession 是 SparkR 的進入點。請參閱起點：SparkSession。
- SparkDataFrame - 分組至具名數據行的分散式數據收集。請參閱數據集和數據框架、建立數據框架和建立 SparkDataFrame。
Scala 開發人員的 Scala API 。主要類別包括：
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。請參閱起點：SparkSession。
- 數據集 - 強型別的網域特定物件集合，可使用功能或關係型作業以平行方式轉換。每個Dataset檢視也有一個不具類型的檢視，稱為 DataFrame，也就是 Dataset Row 的。請參閱數據集和數據框架、建立數據集、建立數據框架和數據框架函式。
適用於Java開發人員的Java API 。主要類別包括：
- SparkSession - 使用數據集和數據框架 API 進行 Spark 程式設計的進入點。請參閱起點：SparkSession。
- 數據集 - 強型別的網域特定物件集合，可使用功能或關係型作業以平行方式轉換。每個Dataset檢視也有一個不具類型的檢視，稱為 DataFrame，也就是 Dataset Row 的。請參閱數據集和數據框架、建立數據集、建立數據框架和數據框架函式。

若要瞭解如何在 Azure Databricks 上使用 Apache Spark API，請參閱：

分享方式：

Apache Spark API 的參考

意見反映

更多資源