Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Решение Azure Databricks основано на Apache Spark, единой подсистеме аналитики для больших данных и машинного обучения. Дополнительные сведения см. в обзоре Apache Spark.
Apache Spark имеет API-интерфейсы DataFrame для работы с большими наборами данных, которые включают более 100 операторов на нескольких языках.
-
API PySpark для разработчиков Python. Смотрите Руководство: Загрузка и преобразование данных с помощью DataFrames в Apache Spark. К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных.
- DataFrame — распределенная коллекция данных, сгруппированных в именованные столбцы. См. DataFrame и MLlib, основанный на DataFrame.
- (Устаревший) API SparkR для разработчиков на R. К ключевым классам относятся:
- SparkSession — это точка входа в SparkR. Смотрите Начало: SparkSession.
- SparkDataFrame — распределенная коллекция данных, сгруппированных в именованные столбцы. См. сведения о наборах данных и кадрах данных, создании кадров данных и создании кадров данных Spark.
-
API Scala для разработчиков Scala . К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных. Смотрите Начало: SparkSession.
-
Набор данных — это строго типизированная коллекция принадлежащих определенному домену объектов, которые можно параллельно преобразовать с помощью функциональных или реляционных операций. Каждый
Datasetтакже имеет нетипизированное представление, называемое DataFrame, которое являетсяDatasetдля строк. См. сведения о наборах и кадрах данных, создании наборов данных, создании кадров данных и функциях кадров данных.
-
API Java для разработчиков Java. К ключевым классам относятся:
- SparkSession является точкой входа для программирования Spark через API наборов данных и кадров данных. Смотрите Начало: SparkSession.
-
Набор данных — это строго типизированная коллекция принадлежащих определенному домену объектов, которые можно параллельно преобразовать с помощью функциональных или реляционных операций. Каждый
Datasetтакже имеет нетипизированное представление, называемое DataFrame, которое являетсяDatasetдля строк. См. сведения о наборах и кадрах данных, создании наборов данных, создании кадров данных и функциях кадров данных.
Сведения об использовании API Apache Spark в Azure Databricks см. в следующих статьях:
- PySpark в Azure Databricks
- Azure Databricks для разработчиков R
- Azure Databricks для разработчиков Scala
- Если вы используете Java, вы можете выполнить код Java в виде задания JAR.