Sdílet prostřednictvím


Přehled Apache Sparku

Apache Spark je technologie zajišťující výpočetní clustery a SQL warehouses v Azure Databricks.

Tato stránka obsahuje přehled dokumentace v této části.

Začínáme

Začněte pracovat s Apache Sparkem v Databricks.

Téma Description
Apache Spark na Azure Databricks Získejte odpovědi na nejčastější dotazy týkající se Apache Sparku v Azure Databricks.
Kurz: Načtení a transformace dat pomocí datových rámců Apache Sparku Postupujte podle podrobných pokynů pro práci s datovými rámci Sparku v Pythonu, R nebo Scala pro načítání a transformaci dat.
Základy PySparku Projděte si jednoduché příklady a seznamte se se základy používání PySparku.

Dodatečné zdroje

Prozkoumejte další funkce Sparku a dokumentaci.

Téma Description
Porovnání Spark Connect s klasickým Sparkem Seznamte se s klíčovými rozdíly mezi Spark Connect a Klasickým Sparkem při spouštění a analýze chování, abyste se vyhnuli neočekávanému chování a problémům s výkonem při migraci kódu.
Nastavení vlastností konfigurace Sparku v Azure Databricks Nastavte vlastnosti konfigurace Sparku, abyste přizpůsobili nastavení ve výpočetním prostředí a optimalizovali výkon.
Strukturované streamování Přečtěte si přehled strukturovaného streamování, modulu pro zpracování téměř v reálném čase.
Diagnostika problémů s náklady a výkonem pomocí uživatelského rozhraní Sparku Naučte se používat uživatelské rozhraní Sparku k ladění výkonu, odstraňování chyb a optimalizaci nákladů úloh Sparku.
Použití knihovny Apache Spark MLlib v Azure Databricks Distribuované strojové učení s využitím knihovny Spark MLlib a integrace s oblíbenými architekturami ML

Rozhraní Spark API

Ve Sparku můžete pracovat s upřednostňovaným programovacím jazykem.

Téma Description
Referenční informace pro rozhraní Apache Spark API Přehled referenčních informací k rozhraní API pro Apache Spark, včetně odkazů na referenční informace pro Spark SQL, datové rámce a operace RDD napříč podporovanými jazyky.
PySpark Python můžete používat se Sparkem, včetně základů PySpark, vlastních zdrojů dat a optimalizací specifických pro Python.
Rozhraní PANDAS API ve Sparku Využijte známou syntaxi pandas se škálovatelností Sparku pro distribuované zpracování dat.
R pro Spark Práce s R a Sparkem s využitím SparkR a sparklyru pro statistické výpočty a analýzu dat
Scala pro Spark Vytvářejte vysoce výkonné aplikace Spark pomocí scaly s nativními rozhraními API Sparku a zabezpečením typů.