Sdílet prostřednictvím


Osvědčené postupy pro výpočetní prostředí bez serveru

Tento článek obsahuje doporučení osvědčených postupů pro používání bezserverových výpočetních prostředků v poznámkových blocích a úlohách.

Podle těchto doporučení zvýšíte produktivitu, nákladovou efektivitu a spolehlivost úloh v Azure Databricks.

Migrace úloh na bezserverové výpočetní prostředky

Aby se zajistilo izolace uživatelského kódu ve sdíleném výpočetním prostředí bez serveru, Azure Databricks využívá Lakeguard k izolaci uživatelského kódu od modulu Spark a jiných uživatelů.

Z tohoto důvodu některé úlohy vyžadují změny v kódu, aby mohly dále fungovat na bezserverových výpočetních prostředcích. Seznam omezení najdete v tématu Omezení bezserverového výpočetního prostředí.

Migrace některých úloh je jednodušší než jiná. Úlohy, které splňují následující požadavky, budou nejjednodušší migrovat:

  • Data, ke které se přistupuje, musí být uložená v katalogu Unity.
  • Úloha by měla být kompatibilní se standardními výpočetními prostředky.
  • Úloha by měla být kompatibilní s Modulem Databricks Runtime 14.3 nebo novějším.

Pokud chcete otestovat, jestli bude úloha fungovat na bezserverovém výpočetním prostředí, spusťte ji na klasickém výpočetním prostředku s režimem přístupu Standard a modulem Databricks Runtime 14.3 nebo novějším. Pokud je spuštění úspěšné, úloha je připravená k migraci.

Mnoho starších úloh se bez problémů nemigruje. Místo překódování všeho azure Databricks doporučuje při vytváření nových úloh určit prioritu kompatibility bezserverových výpočetních prostředků.

Zadání verzí balíčků Pythonu

Při migraci na bezserverové výpočetní prostředky připněte balíčky Pythonu na konkrétní verze, abyste zajistili reprodukovatelná prostředí. Pokud nezadáte verzi, balíček se může přeložit na jinou verzi na základě verze bezserverového prostředí, což může zvýšit latenci, protože je potřeba nainstalovat nové balíčky.

Soubor by například měl obsahovat konkrétní verze balíčků, například requirements.txt :

numpy==2.2.2
pandas==2.2.3

Bezserverové verze prostředí

Bezserverové výpočetní prostředí místo tradičních verzí Databricks Runtime používá verze prostředí. To představuje posun při správě kompatibility úloh:

  • Přístup Databricks Runtime: Pro úlohu vyberete konkrétní verzi databricks Runtime a upgrady spravujete ručně, aby se zachovala kompatibilita.
  • Bezserverový přístup: Napíšete kód proti verzi prostředí a Azure Databricks nezávisle upgraduje základní server.

Verze prostředí poskytují stabilní klientské rozhraní API, které zajišťuje, že vaše úlohy zůstanou kompatibilní, zatímco Azure Databricks nezávisle poskytuje vylepšení výkonu, vylepšení zabezpečení a opravy chyb bez nutnosti změn kódu vašich úloh.

Každá verze prostředí zahrnuje aktualizované systémové knihovny, funkce a opravy chyb a zachování zpětné kompatibility pro úlohy. Azure Databricks podporuje každou verzi prostředí po dobu tří let od data vydání a poskytuje předvídatelný životní cyklus pro plánování upgradů.

Pokud chcete pro úlohu bez serveru vybrat verzi prostředí, přečtěte si téma Výběr verze prostředí. Podrobnosti o dostupnýchverzích

Příjem dat z externích systémů

Vzhledem k tomu, že výpočetní prostředí bez serveru nepodporuje instalaci souborů JAR, nemůžete k příjmu dat z externího zdroje dat použít ovladač JDBC ani ODBC.

Mezi alternativní strategie, které můžete použít k příjmu dat, patří:

  • Stavební bloky založené na SQL, jako jsou streamovací tabulky COPY INTO a .

Alternativy příjmu dat

Při použití bezserverového výpočetního prostředí můžete k dotazování dat použít také následující funkce, aniž byste je přesunuli.

  • Pokud chcete omezit duplikaci dat nebo zaručit, že se dotazujete na nejnovější možná data, doporučuje Databricks používat funkci Delta Sharing. Viz Co je Delta Sharing?
  • Pokud chcete provádět ad hoc sestavování zpráv a ověřování konceptu, Databricks doporučuje zvolit správnou možnost, kterou může být Lakehouse Federation. Federace Lakehouse umožňuje synchronizaci celých databází s Azure Databricks z externích systémů a řídí se katalogem Unity. Podívejte se na Čím je Lakehouse Federation?.

Zkuste jednu nebo obě tyto funkce a zjistěte, jestli vyhovují vašim požadavkům na výkon dotazů.

Podporované konfigurace Sparku

Kvůli automatizaci konfigurace Sparku na bezserverových výpočetních prostředcích služba Azure Databricks odebrala podporu ručního nastavení většiny konfigurací Sparku. Pokud chcete zobrazit seznam podporovaných parametrů konfigurace Sparku, přečtěte si téma Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy.

Úloha na bezserverové výpočetní kapacitě selže, pokud nastavíte nepodporovanou konfiguraci Sparku.

Monitorování nákladů na výpočetní prostředky bez serveru

K monitorování nákladů na výpočetní prostředky bez serveru můžete použít několik funkcí: