Naslaginformatie voor Apache Spark-API's
Azure Databricks is gebouwd op Apache Spark, een geïntegreerde analyse-engine voor big data en machine learning. Zie Apache Spark in Azure Databricks voor meer informatie.
Apache Spark heeft DataFrame-API's voor het werken met grote gegevenssets, waaronder meer dan 100 operators, in verschillende talen.
- PySpark-API's voor Python-ontwikkelaars. Zie zelfstudie: Gegevens laden en transformeren met Apache Spark DataFrames. Belangrijke klassen zijn onder andere:
- SparkSession : het toegangspunt voor het programmeren van Spark met de Gegevensset- en DataFrame-API.
- DataFrame : een gedistribueerde verzameling gegevens die zijn gegroepeerd in benoemde kolommen. Zie DataFrames en op DataFrame gebaseerde MLlib.
- SparkR-API's voor R-ontwikkelaars. Belangrijke klassen zijn onder andere:
- SparkSession - SparkSession is het toegangspunt in SparkR. Zie beginpunt: SparkSession.
- SparkDataFrame : een gedistribueerde verzameling gegevens die zijn gegroepeerd in benoemde kolommen. Zie Gegevenssets en DataFrames, DataFrames maken en SparkDataFrames maken.
- Scala-API's voor Scala-ontwikkelaars. Belangrijke klassen zijn onder andere:
- SparkSession : het toegangspunt voor het programmeren van Spark met de Gegevensset- en DataFrame-API. Zie beginpunt: SparkSession.
- Gegevensset : een sterk getypte verzameling domeinspecifieke objecten die parallel kunnen worden getransformeerd met behulp van functionele of relationele bewerkingen. Elke
Dataset
weergave heeft ook een niet-getypte weergave, een DataFrame, eenDataset
rij. Zie Gegevenssets en DataFrames, Gegevenssets maken, Gegevensframes maken en DataFrame-functies.
- Java-API's voor Java-ontwikkelaars. Belangrijke klassen zijn onder andere:
- SparkSession : het toegangspunt voor het programmeren van Spark met de Gegevensset- en DataFrame-API. Zie beginpunt: SparkSession.
- Gegevensset : een sterk getypte verzameling domeinspecifieke objecten die parallel kunnen worden getransformeerd met behulp van functionele of relationele bewerkingen. Elke
Dataset
weergave heeft ook een niet-getypte weergave, een DataFrame, eenDataset
rij. Zie Gegevenssets en DataFrames, Gegevenssets maken, Gegevensframes maken en DataFrame-functies.
Zie voor meer informatie over het gebruik van de Apache Spark-API's in Azure Databricks:
- PySpark op Azure Databricks
- Azure Databricks voor R-ontwikkelaars
- Azure Databricks voor Scala-ontwikkelaars
- Voor Java kunt u Java-code uitvoeren als een JAR-taak.