Sdílet prostřednictvím


Azure Databricks pro vývojáře Scala

Tento článek obsahuje průvodce vývojem poznámkových bloků a úloh v Azure Databricks pomocí jazyka Scala. První část obsahuje odkazy na kurzy pro běžné pracovní postupy a úkoly. Druhá část obsahuje odkazy na rozhraní API, knihovny a klíčové nástroje.

Základní pracovní postup pro zahájení práce:

Kromě toho můžete rozvětvovat do konkrétnějších témat:

Návody

Následující kurzy obsahují ukázkový kód a poznámkové bloky, které vám pomůžou seznámit se s běžnými pracovními postupy. Pokyny k importu příkladů poznámkových bloků do pracovního prostoru najdete v tématu Import poznámkového bloku .

Odkazy

Následující pododdíly uvádějí klíčové funkce a tipy, které vám pomůžou začít vyvíjet v Azure Databricks s využitím Scaly.

Rozhraní API jazyka Scala

Tyto odkazy poskytují úvod k rozhraní Apache Spark Scala API a referenční informace o nich.

Správa kódu pomocí poznámkových bloků a složek Git Databricks

Poznámkové bloky Databricks podporují jazyk Scala. Tyto notebooky nabízejí funkce podobné těm v Jupyteru, ale s dalšími funkcemi, jako jsou integrované vizualizace využívající big data, integrace Apache Spark pro ladění a monitorování výkonu a integrace MLflow pro sledování experimentů strojového učení. Začněte importem poznámkového bloku. Jakmile budete mít přístup ke clusteru, můžete připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Návod

Pokud chcete obnovit stav poznámkového bloku, restartujte kernel. U uživatelů Jupyteru odpovídá možnost restartovat jádro v Jupyteru spuštění nové relace v Databricks. Pokud chcete restartovat jádro výpočetního prostředí v poznámkovém bloku, klikněte na výběr výpočetních prostředků na panelu nástrojů poznámkového bloku a najeďte myší na připojený cluster nebo SQL Warehouse v seznamu, aby se zobrazila kontextová nabídka. Vyberte Možnost Nová relace. Tím se spustí nová relace, která proces restartuje.

Složky Gitu Databricks umožňují uživatelům synchronizovat poznámkové bloky a další soubory s úložišti Git. Složky Gitu databricks pomáhají se správou verzí kódu a spolupráci a můžou zjednodušit import celého úložiště kódu do Azure Databricks, prohlížení předchozích verzí poznámkových bloků a integraci s vývojem integrovaného vývojového prostředí (IDE). Začněte tak, že naklonujete vzdálené úložiště Git. Potom můžete otevřít nebo vytvořit poznámkové bloky pomocí klonování úložiště, připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Clustery a knihovny

Výpočetní prostředky Azure Databricks poskytují správu výpočetních prostředků pro clustery libovolné velikosti: od clusterů s jedním uzlem až po velké clustery. Hardware a knihovny clusteru můžete přizpůsobit podle svých potřeb. Datoví vědci obvykle začínají pracovat buď vytvořením clusteru , nebo použitím existujícího sdíleného clusteru. Jakmile budete mít přístup ke clusteru, můžete k clusteru připojit poznámkový blok nebo spustit úlohu v clusteru.

Clustery Azure Databricks používají Databricks Runtime, který poskytuje mnoho oblíbených knihoven, včetně Apache Spark, Delta Lake a dalších. Můžete také nainstalovat další knihovny třetích stran nebo vlastní knihovny pro použití s poznámkovými bloky a úlohami.

Vizualizace

Scala poznámkové bloky v Azure Databricks mají integrovanou podporu pro mnoho typů vizualizací. Můžete také použít starší vizualizace:

Vzájemná funkční spolupráce

Tato část popisuje funkce, které podporují interoperabilitu mezi Jazykem Scala a SQL.

Úlohy

Úlohy Scala můžete automatizovat podle naplánovaných nebo aktivovaných úloh v Azure Databricks. Úlohy mohou spouštět poznámkové bloky a JARy.

IdEs, vývojářské nástroje a sady SDK

Kromě vývoje kódu Scala v poznámkových blocích Azure Databricks můžete vyvíjet externě pomocí integrovaných vývojových prostředí (IDE), jako je IntelliJ IDEA. Pokud chcete synchronizovat práci mezi externími vývojovými prostředími a Azure Databricks, existuje několik možností:

  • Kód: Kód můžete synchronizovat pomocí Gitu. Viz složky Git v Azure Databricks.
  • Knihovny a úlohy: Knihovny můžete vytvářet externě a nahrávat je do Azure Databricks. Tyto knihovny je možné importovat v poznámkových blocích Azure Databricks nebo je můžete použít k vytváření úloh. Viz Instalace knihoven a Úloh Lakeflow.
  • Vzdálené spuštění počítače: Kód můžete spustit z místního integrovaného vývojového prostředí (IDE) pro interaktivní vývoj a testování. Integrované vývojové prostředí (IDE) může komunikovat s Azure Databricks a spouštět rozsáhlé výpočty v clusterech Azure Databricks. Můžete například použít IntelliJ IDEA s Databricks Connect.

Databricks poskytuje sadu sad SDK, které podporují automatizaci a integraci s externími nástroji. Pomocí sad SDK Databricks můžete spravovat prostředky, jako jsou clustery a knihovny, kód a další objekty pracovního prostoru, pracovních zátěží a úloh a další. Podívejte se na SDK Databricks.

Další informace o prostředích IDEs, vývojářských nástrojích a sadách SDK najdete v tématu místní vývojové nástroje.

Další materiály

  • The Databricks Academy nabízí kurzy řízené instruktorem a vlastním tempem na mnoha tématech.