Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek obsahuje doporučení osvědčených postupů pro používání bezserverových výpočetních prostředků v poznámkových blocích a úlohách.
Podle těchto doporučení zvýšíte produktivitu, nákladovou efektivitu a spolehlivost úloh v Azure Databricks.
Migrace úloh na bezserverové výpočetní prostředky
Aby se zajistilo izolace uživatelského kódu ve sdíleném výpočetním prostředí bez serveru, Azure Databricks využívá Lakeguard k izolaci uživatelského kódu od modulu Spark a jiných uživatelů.
Z tohoto důvodu některé úlohy vyžadují změny v kódu, aby mohly dále fungovat na bezserverových výpočetních prostředcích. Seznam omezení najdete v tématu Omezení bezserverového výpočetního prostředí.
Migrace některých úloh je jednodušší než jiná. Úlohy, které splňují následující požadavky, budou nejjednodušší migrovat:
- Data, ke které se přistupuje, musí být uložená v katalogu Unity.
- Úloha by měla být kompatibilní se standardními výpočetními prostředky.
- Úloha by měla být kompatibilní s Modulem Databricks Runtime 14.3 nebo novějším.
Pokud chcete otestovat, jestli bude úloha fungovat na bezserverovém výpočetním prostředí, spusťte ji na klasickém výpočetním prostředku s režimem přístupu Standard a modulem Databricks Runtime 14.3 nebo novějším. Pokud je spuštění úspěšné, úloha je připravená k migraci.
Mnoho starších úloh se bez problémů nemigruje. Místo překódování všeho azure Databricks doporučuje při vytváření nových úloh určit prioritu kompatibility bezserverových výpočetních prostředků.
Zadání verzí balíčků Pythonu
Při migraci na bezserverové výpočetní prostředky připněte balíčky Pythonu na konkrétní verze, abyste zajistili reprodukovatelná prostředí. Pokud nezadáte verzi, balíček se může přeložit na jinou verzi na základě verze bezserverového prostředí, což může zvýšit latenci, protože je potřeba nainstalovat nové balíčky.
Soubor by například měl obsahovat konkrétní verze balíčků, například requirements.txt :
numpy==2.2.2
pandas==2.2.3
Bezserverové verze prostředí
Bezserverové výpočetní prostředí místo tradičních verzí Databricks Runtime používá verze prostředí. To představuje posun při správě kompatibility úloh:
- Přístup Databricks Runtime: Pro úlohu vyberete konkrétní verzi databricks Runtime a upgrady spravujete ručně, aby se zachovala kompatibilita.
- Bezserverový přístup: Napíšete kód proti verzi prostředí a Azure Databricks nezávisle upgraduje základní server.
Verze prostředí poskytují stabilní klientské rozhraní API, které zajišťuje, že vaše úlohy zůstanou kompatibilní, zatímco Azure Databricks nezávisle poskytuje vylepšení výkonu, vylepšení zabezpečení a opravy chyb bez nutnosti změn kódu vašich úloh.
Každá verze prostředí zahrnuje aktualizované systémové knihovny, funkce a opravy chyb a zachování zpětné kompatibility pro úlohy. Azure Databricks podporuje každou verzi prostředí po dobu tří let od data vydání a poskytuje předvídatelný životní cyklus pro plánování upgradů.
Pokud chcete pro úlohu bez serveru vybrat verzi prostředí, přečtěte si téma Výběr verze prostředí. Podrobnosti o dostupnýchverzích
Příjem dat z externích systémů
Vzhledem k tomu, že výpočetní prostředí bez serveru nepodporuje instalaci souborů JAR, nemůžete k příjmu dat z externího zdroje dat použít ovladač JDBC ani ODBC.
Mezi alternativní strategie, které můžete použít k příjmu dat, patří:
- Stavební bloky založené na SQL, jako jsou streamovací tabulky COPY INTO a .
- Automatický zavaděč pro přírůstkové a efektivní zpracování nových datových souborů při jejich doručení do cloudového úložiště. Podívejte se na Co je to Auto Loader?
- Partnerová řešení pro příjem dat Viz Připojení k partnerům pro příjem dat pomocí Partnerského připojení.
- Uživatelské rozhraní pro přidání dat pro přímé nahrání souborů. Viz Nahrání souborů do Azure Databricks.
Alternativy příjmu dat
Při použití bezserverového výpočetního prostředí můžete k dotazování dat použít také následující funkce, aniž byste je přesunuli.
- Pokud chcete omezit duplikaci dat nebo zaručit, že se dotazujete na nejnovější možná data, doporučuje Databricks používat funkci Delta Sharing. Viz Co je Delta Sharing?
- Pokud chcete provádět ad hoc sestavování zpráv a ověřování konceptu, Databricks doporučuje zvolit správnou možnost, kterou může být Lakehouse Federation. Federace Lakehouse umožňuje synchronizaci celých databází s Azure Databricks z externích systémů a řídí se katalogem Unity. Podívejte se na Čím je Lakehouse Federation?.
Zkuste jednu nebo obě tyto funkce a zjistěte, jestli vyhovují vašim požadavkům na výkon dotazů.
Podporované konfigurace Sparku
Kvůli automatizaci konfigurace Sparku na bezserverových výpočetních prostředcích služba Azure Databricks odebrala podporu ručního nastavení většiny konfigurací Sparku. Pokud chcete zobrazit seznam podporovaných parametrů konfigurace Sparku, přečtěte si téma Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy.
Úloha na bezserverové výpočetní kapacitě selže, pokud nastavíte nepodporovanou konfiguraci Sparku.
Monitorování nákladů na výpočetní prostředky bez serveru
K monitorování nákladů na výpočetní prostředky bez serveru můžete použít několik funkcí:
- Pomocí zásad rozpočtu bez serveru přiřaďte využití výpočetních prostředků bez serveru.
- Pomocí systémových tabulek můžete vytvářet řídicí panely, nastavovat výstrahy a provádět ad hoc dotazy. Viz Monitorování nákladů na výpočetní prostředky bez serveru.
- Nastavte upozornění rozpočtu ve vašem účtu. Viz Vytváření a monitorování rozpočtů.
- Importujte předem nakonfigurovaný řídicí panel využití. Podívejte se na Importovat řídicí panel využití.