Référence pour les API Apache Spark
Azure Databricks repose sur Apache Spark, un moteur d’analytique unifié pour le Big Data et le Machine Learning. Pour plus d’informations, consultez Apache Spark sur Azure Databricks.
Apache Spark dispose d’API DataFrame pour les jeux de données volumineux qui comportent plus de 100 opérateurs dans plusieurs langues.
- API PySpark pour les développeurs Python. Consultez le Tutoriel : charger et transformer des données en utilisant des DataFrames Apache Spark. Les classes clés sont les suivantes :
- SparkSession : point d’entrée pour programmer Spark avec les API Dataset et DataFrame.
- DataFrame : collection distribuée de données regroupées dans des colonnes nommées. Cf. DataFrame et MLlib avec DataFrame.
- API SparkR pour les développeurs R. Les classes clés sont les suivantes :
- SparkSession : SparkSession est le point d’entrée dans SparkR. Voir Point de départ : SparkSession.
- SparkDataFrame : collection distribuée de données regroupées dans des colonnes nommées. Voir Datasets et DataFrames, Création de DataFrames et Création de SparkDataFrames.
- API Scala pour les développeurs Scala. Les classes clés sont les suivantes :
- SparkSession : point d’entrée pour programmer Spark avec les API Dataset et DataFrame. Voir Point de départ : SparkSession.
- Dataset : collection fortement typée d’objets propres au domaine qui peuvent être transformés en parallèle à l’aide d’opérations fonctionnelles ou relationnelles. Chaque
Dataset
a également une vue non typée appelée DataFrame, qui est unDataset
de Ligne. Voir Datasets et DataFrames, Création de Datasets, Création de DataFrames et Fonctions DataFrame.
- API Java pour les développeurs Java. Les classes clés sont les suivantes :
- SparkSession : point d’entrée pour programmer Spark avec les API Dataset et DataFrame. Voir Point de départ : SparkSession.
- Dataset : collection fortement typée d’objets propres au domaine qui peuvent être transformés en parallèle à l’aide d’opérations fonctionnelles ou relationnelles. Chaque
Dataset
a également une vue non typée appelée DataFrame, qui est unDataset
de Ligne. Voir Datasets et DataFrames, Création de Datasets, Création de DataFrames et Fonctions DataFrame.
Pour savoir comment utiliser les API Apache Spark sur Azure Databricks, consultez :
- PySpark sur Azure Databricks
- Azure Databricks pour les développeurs R
- Azure Databricks pour les développeurs Scala
- Pour Java, vous pouvez exécuter du code Java en tant que travail JAR.