Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Azure Databricks je založený na Apache Sparku, což je jednotný analytický modul pro velké objemy dat a strojové učení. Další informace najdete v přehledu Apache Sparku.
Apache Spark má rozhraní API datového rámce pro provoz velkých datových sad, které zahrnují více než 100 operátorů v několika jazycích.
-
Rozhraní API PySpark pro vývojáře v Pythonu Viz kurz: Načtení a transformace dat pomocí datových rámců Apache Spark. Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce.
- datový rámec – distribuovaná kolekce dat seskupených do pojmenovaných sloupců. Viz datové rámce a MLlib založené na datových rámcích.
- (Zastaralé) rozhraní API SparkR pro vývojáře jazyka R. Mezi klíčové třídy patří:
- SparkSession – SparkSession je vstupní bod do SparkR. Viz počáteční bod: SparkSession.
- SparkDataFrame – distribuovaná kolekce dat seskupených do pojmenovaných sloupců. Viz Datové sady a datové rámce, vytváření datových rámců a vytváření datových rámců SparkDataFrame.
-
Rozhraní API Scala pro vývojáře Scaly Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce. Viz počáteční bod: SparkSession.
-
Datová sada – kolekce objektů specifických pro konkrétní doménu, které je možné transformovat paralelně pomocí funkčních nebo relačních operací. Každý
Datasetmá také netypové zobrazení, které se nazývá DataFrame a jde oDatasettypu Row. Viz Datové sady a datové rámce, vytváření datových sad, vytváření datových rámců a funkce datového rámce.
-
Java API pro vývojáře v Java. Mezi klíčové třídy patří:
- SparkSession – vstupní bod pro programování Sparku pomocí rozhraní API datové sady a datového rámce. Viz počáteční bod: SparkSession.
-
Datová sada – kolekce objektů specifických pro konkrétní doménu, které je možné transformovat paralelně pomocí funkčních nebo relačních operací. Každý
Datasetmá také netypové zobrazení, které se nazývá DataFrame a jde oDatasettypu Row. Viz Datové sady a datové rámce, vytváření datových sad, vytváření datových rámců a funkce datového rámce.
Informace o používání rozhraní Apache Spark API v Azure Databricks najdete tady:
- PySpark na Azure Databricks
- Azure Databricks pro vývojáře R
- Azure Databricks pro vývojáře Scaly
- Pro Javu můžete spustit kód Java jako úlohu JAR.