Dokumentacja interfejsów API platformy Apache Spark

Usługa Azure Databricks jest oparta na platformie Apache Spark, ujednoliconym aucie analitycznym na potrzeby danych big data i uczenia maszynowego. Aby uzyskać więcej informacji, zobacz Omówienie platformy Apache Spark.

Platforma Apache Spark ma interfejsy API ramki danych do obsługi dużych zestawów danych, które obejmują ponad 100 operatorów w kilku językach.

Interfejsy API PySpark dla deweloperów języka Python. Zobacz Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych.
- DataFrame — rozproszona kolekcja danych pogrupowana w nazwane kolumny. Zobacz Ramki danych i biblioteki MLlib oparte na ramce danych.
(Przestarzałe) interfejsy API SparkR dla deweloperów języka R. Klasy kluczy obejmują:
- SparkSession — SparkSession to punkt wejścia do platformy SparkR. Zobacz Punkt początkowy: SparkSession.
- SparkDataFrame — rozproszona kolekcja danych pogrupowana w nazwane kolumny. Zobacz Zestawy danych i ramki danych, Tworzenie ramek danych i Tworzenie ramek SparkDataFrame.
Interfejsy API języka Scala dla deweloperów języka Scala. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych. Zobacz Punkt początkowy: SparkSession.
- Zestaw danych — silnie typizowana kolekcja obiektów specyficznych dla domeny, które mogą być przekształcane równolegle przy użyciu operacji funkcjonalnych lub relacyjnych. Każdy z nich Dataset ma również nietypowy widok nazywany ramką danych, która jest wierszemDataset. Zobacz Temat Datasets and DataFrames (Zestawy danych i ramki danych), Creating Datasets (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie ramek danych) i DataFrame (Ramki danych).
Interfejsy API języka Java dla deweloperów języka Java. Klasy kluczy obejmują:
- SparkSession — punkt wejścia do programowania platformy Spark przy użyciu interfejsu API zestawu danych i ramki danych. Zobacz Punkt początkowy: SparkSession.
- Zestaw danych — silnie typizowana kolekcja obiektów specyficznych dla domeny, które mogą być przekształcane równolegle przy użyciu operacji funkcjonalnych lub relacyjnych. Każdy z nich Dataset ma również nietypowy widok nazywany ramką danych, która jest wierszemDataset. Zobacz Temat Datasets and DataFrames (Zestawy danych i ramki danych), Creating Datasets (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie zestawów danych), Creating DataFrames (Tworzenie ramek danych) i DataFrame (Ramki danych).

Aby dowiedzieć się, jak używać interfejsów API platformy Apache Spark w usłudze Azure Databricks, zobacz:

PySpark w usłudze Azure Databricks
Usługa Azure Databricks dla deweloperów języka R
Usługa Azure Databricks dla deweloperów języka Scala
W przypadku języka Java możesz uruchomić kod Java jako zadanie JAR.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-01-16

Udostępnij przez

Dokumentacja interfejsów API platformy Apache Spark

Sprzężenie zwrotne

Dodatkowe źródła