Azure Databricks pro vývojáře Scala

Tento článek obsahuje průvodce vývojem poznámkových bloků a úloh v Azure Databricks pomocí jazyka Scala. První část obsahuje odkazy na kurzy pro běžné pracovní postupy a úkoly. Druhá část obsahuje odkazy na rozhraní API, knihovny a klíčové nástroje.

Základní pracovní postup pro zahájení práce:

Naimportujte kód a spusťte ho pomocí interaktivního poznámkového bloku Databricks: Buď naimportujte vlastní kód ze souborů nebo z úložišť Git, nebo vyzkoušejte kurz uvedený níže.
Spusťte kód v clusteru: Buď vytvořte vlastní cluster, nebo se ujistěte, že máte oprávnění k používání sdíleného clusteru. Připojte poznámkový blok ke clusteru a spusťte poznámkový blok.

Kromě toho můžete rozvětvovat do konkrétnějších témat:

Práce s většími datovými sadami pomocí Apache Sparku
Přidání vizualizací
Automatizujte svou pracovní zátěž v rámci zaměstnání
Vývoj v prostředích IDE

Návody

Následující kurzy obsahují ukázkový kód a poznámkové bloky, které vám pomůžou seznámit se s běžnými pracovními postupy. Pokyny k importu příkladů poznámkových bloků do pracovního prostoru najdete v tématu Import poznámkového bloku .

Kurz: Načtení a transformace dat pomocí datových rámců Apache Sparku
Kurz: Vytváření a správa tabulek Delta Lake poskytuje příklady Scala.
Použití XGBoost v Azure Databricks poskytuje příklad Scala.

Odkazy

Následující pododdíly uvádějí klíčové funkce a tipy, které vám pomůžou začít vyvíjet v Azure Databricks s využitím Scaly.

Rozhraní API jazyka Scala

Tyto odkazy poskytují úvod k rozhraní Apache Spark Scala API a referenční informace o nich.

Správa kódu pomocí poznámkových bloků a složek Git Databricks

Poznámkové bloky Databricks podporují jazyk Scala. Tyto notebooky nabízejí funkce podobné těm v Jupyteru, ale s dalšími funkcemi, jako jsou integrované vizualizace využívající big data, integrace Apache Spark pro ladění a monitorování výkonu a integrace MLflow pro sledování experimentů strojového učení. Začněte importem poznámkového bloku. Jakmile budete mít přístup ke clusteru, můžete připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Návod

Pokud chcete obnovit stav poznámkového bloku, restartujte kernel. U uživatelů Jupyteru odpovídá možnost restartování jádra v Jupyteru spuštění nové session v Databricks. Pokud chcete restartovat jádro výpočetního prostředí v poznámkovém bloku, klikněte na výběr výpočetních prostředků na panelu nástrojů poznámkového bloku a najeďte myší na připojený cluster nebo SQL Warehouse v seznamu, aby se zobrazila kontextová nabídka. Vyberte Nová relace. Tím se spustí nová relace, která proces restartuje.

Složky Gitu Databricks umožňují uživatelům synchronizovat poznámkové bloky a další soubory s úložišti Git. Složky Gitu databricks pomáhají se správou verzí kódu a spolupráci a můžou zjednodušit import celého úložiště kódu do Azure Databricks, prohlížení předchozích verzí poznámkových bloků a integraci s vývojem integrovaného vývojového prostředí (IDE). Začněte tak, že naklonujete vzdálené úložiště Git. Potom můžete otevřít nebo vytvořit poznámkové bloky pomocí klonování úložiště, připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Clustery a knihovny

Výpočetní prostředky Azure Databricks poskytují správu výpočetních prostředků pro clustery libovolné velikosti: od clusterů s jedním uzlem až po velké clustery. Hardware a knihovny clusteru můžete přizpůsobit podle svých potřeb. Datoví vědci obvykle začínají pracovat buď vytvořením clusteru , nebo použitím existujícího sdíleného clusteru. Jakmile budete mít přístup ke clusteru, můžete k clusteru připojit poznámkový blok nebo spustit úlohu v clusteru.

U malých úloh, které vyžadují jenom jednotlivé uzly, můžou datoví vědci využít výpočetní prostředky s jedním uzlem a ušetřit tak náklady.
Podrobné tipy najdete v tématu Doporučení ke konfiguraci výpočetních prostředků.
Správci můžou nastavit zásady clusteru, aby zjednodušili a usměrnili vytváření clusteru.

Clustery Azure Databricks používají Databricks Runtime, který poskytuje mnoho oblíbených knihoven, včetně Apache Spark, Delta Lake a dalších. Můžete také nainstalovat další knihovny třetích stran nebo vlastní knihovny pro použití s poznámkovými bloky a úlohami.

Začněte s výchozími knihovnami v poznámkách k verzi Databricks Runtime ohledně verzí a kompatibility. Úplný seznam předinstalovaných knihoven najdete v poznámkách k verzi databricks Runtime a jejich kompatibilitu.
Knihovny Scala můžete také nainstalovat do clusteru.
Další podrobnosti najdete v tématu Instalace knihoven.

Vizualizace

Scala poznámkové bloky v Azure Databricks mají integrovanou podporu pro mnoho typů vizualizací. Můžete také použít starší vizualizace:

Vzájemná funkční spolupráce

Tato část popisuje funkce, které podporují interoperabilitu mezi Jazykem Scala a SQL.

Úlohy

Úlohy Scala můžete automatizovat podle naplánovaných nebo aktivovaných úloh v Azure Databricks. Úlohy mohou spouštět poznámkové bloky a JARy.

Podrobnosti o vytvoření úlohy prostřednictvím uživatelského rozhraní najdete v tématu Konfigurace a úprava úloh Lakeflow.
Sady SDK Databricks umožňují vytvářet, upravovat a odstraňovat úlohy prostřednictvím kódu programu.
Databricks CLI poskytuje pohodlné rozhraní pro automatizaci úloh.

IdEs, vývojářské nástroje a sady SDK

Kromě vývoje kódu Scala v poznámkových blocích Azure Databricks můžete vyvíjet externě pomocí integrovaných vývojových prostředí (IDE), jako je IntelliJ IDEA. Pokud chcete synchronizovat práci mezi externími vývojovými prostředími a Azure Databricks, existuje několik možností:

Kód: Kód můžete synchronizovat pomocí Gitu. Viz složky Git v Azure Databricks.
Knihovny a úlohy: Knihovny můžete vytvářet externě a nahrávat je do Azure Databricks. Tyto knihovny je možné importovat v poznámkových blocích Azure Databricks nebo je můžete použít k vytváření úloh. Viz Instalace knihoven a Úloh Lakeflow.
Vzdálené spuštění počítače: Kód můžete spustit z místního integrovaného vývojového prostředí (IDE) pro interaktivní vývoj a testování. Integrované vývojové prostředí (IDE) může komunikovat s Azure Databricks a spouštět rozsáhlé výpočty v clusterech Azure Databricks. Můžete například použít IntelliJ IDEA s Databricks Connect.

Databricks poskytuje sadu sad SDK, které podporují automatizaci a integraci s externími nástroji. Pomocí sad SDK Databricks můžete spravovat prostředky, jako jsou clustery a knihovny, kód a další objekty pracovního prostoru, pracovních zátěží a úloh a další. Podívejte se na SDK Databricks.

Další informace o prostředích IDEs, vývojářských nástrojích a sadách SDK najdete v tématu místní vývojové nástroje.

Další materiály

The Databricks Academy nabízí kurzy řízené instruktorem a vlastním tempem na mnoha tématech.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-04-27