Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Organizace tohoto článku předpokládá, že používáte jednoduché výpočetní uživatelské rozhraní formuláře. Přehled jednoduchých aktualizací formulářů najdete v tématu Použití jednoduchého formuláře ke správě výpočetních prostředků.
Tento článek vysvětluje nastavení konfigurace, která jsou k dispozici při vytváření nového výpočetního prostředku pro celý účel nebo úlohu. Většina uživatelů vytváří výpočetní prostředky pomocí přiřazených zásad, které omezují konfigurovatelná nastavení. Pokud v uživatelském rozhraní nevidíte konkrétní nastavení, je to proto, že vámi vybraná zásada neumožňuje toto nastavení konfigurovat.
Doporučení ke konfiguraci výpočetních prostředků pro vaši úlohu najdete v tématu Doporučení ke konfiguraci výpočetních prostředků.
Konfigurace a nástroje pro správu popsané v tomto článku se týkají výpočetních prostředků pro všechny účely i úlohy. Další aspekty konfigurace výpočetních prostředků úloh najdete v tématu Konfigurace výpočetních prostředků pro úlohy.
Vytvoření nového univerzálního výpočetního prostředku
Vytvoření nového výpočetního prostředku pro všechny účely:
- Na bočním panelu pracovního prostoru klikněte na Compute.
- Klikněte na tlačítko Vytvořit výpočet.
- Nakonfigurujte výpočetní prostředek.
- Klikněte na Vytvořit.
Nový výpočetní prostředek se automaticky spustí a brzy se připraví k použití.
Zásady výpočetní techniky
Zásady jsou sada pravidel, která slouží k omezení možností konfigurace dostupných uživatelům při vytváření výpočetních prostředků. Pokud uživatel nemá nárok na neomezené vytváření clusterů, může vytvářet pouze výpočetní prostředky podle jim přidělených zásad.
Pokud chcete vytvořit výpočetní prostředky podle zásad, vyberte zásadu z rozevírací nabídky Zásady .
Ve výchozím nastavení mají všichni uživatelé přístup k zásadám osobních výpočetních prostředků , což jim umožňuje vytvářet výpočetní prostředky s jedním počítačem. Pokud potřebujete přístup k osobním výpočetním prostředkům nebo jakýmkoli dalším zásadám, obraťte se na správce pracovního prostoru.
Nastavení výkonu
V části Výkon jednoduchého výpočetního uživatelského rozhraní formuláře se zobrazí následující nastavení:
- Verze Databricks Runtime
- Použití akcelerace Photon
- typ pracovního uzlu
- Výpočetní prostředky s jedním uzlem
- Povolení automatického škálování
- Pokročilá nastavení výkonu
Verze Databricks Runtime
Databricks Runtime je sada základních komponent, které běží na výpočetních prostředcích. Vyberte verzi runtime pomocí rozevírací nabídky Verze Databricks Runtime. Podrobnosti o konkrétních verzích databricks Runtime najdete v poznámkách k verzi Databricks Runtime a jejich kompatibilitě. Všechny verze zahrnují Apache Spark. Databricks doporučuje následující:
- Pro všechny účely výpočetních prostředků použijte nejnovější verzi, abyste měli jistotu, že máte nejnovější optimalizace a nejaktuálnější kompatibilitu mezi kódem a předinstalovanými balíčky.
- Pro výpočty pracovních úloh provádějících provozní zatížení zvažte použití verze Databricks Runtime Long Term Support (LTS). Použití verze LTS zajistí, že nenarazíte na problémy s kompatibilitou a před upgradem můžete důkladně otestovat svou pracovní zátěž.
- V případě případů použití datových věd a strojového učení zvažte verzi Databricks Runtime ML.
Použití akcelerace Photon
Photon je ve výchozím nastavení povolený pro výpočty, na kterých běží Databricks Runtime 9.1 LTS a novější.
Pokud chcete povolit nebo zakázat akceleraci Photon, zaškrtněte políčko Použít akceleraci photon . Další informace o Photonu najdete v tématu Co je Photon?
typ pracovního uzlu
Výpočetní prostředek se skládá z jednoho uzlu ovladače a nuly nebo více pracovních uzlů. Pro ovladače a pracovní uzly můžete vybrat samostatné typy instancí poskytovatele cloudu, ale ve výchozím nastavení používá uzel ovladače stejný typ instance jako pracovní uzel. Nastavení uzlu ovladače je pod oddílem Rozšířený výkon .
Různé rodiny typů instancí odpovídají různým případům použití, jako jsou úlohy náročné na paměť nebo úlohy náročné na výpočetní výkon. Můžete také vybrat fond, který se má použít jako pracovní uzel nebo uzel ovladače.
Důležité
Jako typ ovladače nepoužívejte pool se spotovými instancemi. Chcete-li zabránit zrušení ovladače, vyberte typ ovladače na vyžádání. Viz Připojení k fondům.
Ve výpočetních prostředcích s více uzly spouští pracovní uzly exekutory Sparku a další služby potřebné pro správně funkční výpočetní prostředek. V případě distribuce zatížení pomocí Sparku se veškeré distribuované zpracování odehrává na pracovních uzlech. Azure Databricks spustí jednoho vykonavatele na pracovní uzel. Termíny exekutor a pracovní proces se proto používají zaměnitelně v kontextu architektury Databricks.
Návod
Ke spuštění úlohy Sparku potřebujete aspoň jeden pracovní uzel. Pokud má výpočetní prostředek žádné pracovní procesy, můžete na řídicím uzlu spustit ne-Spark příkazy, ale Spark příkazy selžou.
IP adresy pracovních uzlů
Azure Databricks spouští pracovní uzly se dvěma privátními IP adresami. Primární privátní IP adresa uzlu hostuje interní provoz Azure Databricks. Sekundární privátní IP adresu používá kontejner Sparku pro komunikaci uvnitř clusteru. Tento model umožňuje Službě Azure Databricks poskytovat izolaci mezi několika výpočetními prostředky ve stejném pracovním prostoru.
Typy instancí GPU
Pro výpočetně náročné úlohy, které vyžadují vysoký výkon, jako jsou úlohy spojené s hloubkovým učením, podporuje Azure Databricks výpočetní prostředky, které jsou akcelerované pomocí grafických procesorů (GPU). Další informace najdete v tématu Výpočetní výkon s podporou GPU.
Důvěrné výpočetní virtuální počítače Azure
** Typy virtuálních počítačů Azure pro konfidenční výpočetní techniku brání neoprávněnému přístupu k datům během zpracování, včetně operátora cloudu. Tento typ virtuálního počítače je výhodný pro vysoce regulovaná odvětví a oblasti a také pro firmy s citlivými daty v cloudu. Další informace o důvěrných výpočetních prostředcích Azure najdete v tématu Důvěrné výpočetní prostředí Azure.
Pokud chcete spouštět úlohy pomocí důvěrného výpočetního prostředí Azure, vyberte z typů virtuálních počítačů řady DC nebo EC v rozevíracích seznamech uzlu pracovního procesu a uzlu ovladače. Viz možnosti důvěrného virtuálního počítače Azure.
jednouzlový výpočet
Zaškrtávací políčko Jeden uzel umožňuje vytvořit výpočetní prostředek s jedním uzlem.
Výpočetní prostředky s jedním uzlem jsou určené pro úlohy, které používají malé objemy dat nebo nedistribuované úlohy, jako jsou knihovny strojového učení s jedním uzlem. Výpočetní prostředky s více uzly by se měly používat pro větší úlohy s distribuovanými úlohami.
Vlastnosti jednoho uzlu
Výpočetní prostředek s jedním uzlem má následující vlastnosti:
- Spustí Spark lokálně.
- Řadič funguje jako hlavní i pracovní, bez pracovních uzlů.
- Vytvoří jedno vlákno na každé logické jádro výpočetního prostředku, s výjimkou jednoho jádra pro ovladač.
- Uloží všechny výstupy protokolu z
stderr,stdoutalog4jdo protokolu ovladačů. - Nejde převést na výpočetní prostředek s více uzly.
Výběr jednoho nebo více uzlů
Při rozhodování mezi výpočetními prostředky s jedním nebo více uzly vezměte v úvahu váš případ použití:
Rozsáhlé zpracování dat vyčerpá prostředky na výpočetním prostředku s jedním uzlem. Pro tyto úlohy doporučuje Databricks používat výpočetní prostředky s více uzly.
Výpočetní jednotku s více uzly nelze zmenšit na 0 pracovníků. Místo toho použijte výpočetní prostředky s jedním uzlem.
Plánování GPU není na výpočetních prostředcích s jedním uzlem povolené.
Na výpočetních prostředcích s jedním uzlem nemůže Spark číst soubory Parquet se sloupcem UDT. Zobrazí se následující chybová zpráva:
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.Chcete-li tento problém vyřešit, zakažte nativní čtečku Parquet:
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
Povolení automatického škálování
Když je zaškrtnuto Povolit automatické škálování, můžete zadat minimální a maximální počet pracovníků pro výpočetní prostředek. Databricks pak zvolí odpovídající počet pracovníků potřebných pro spuštění vaší úlohy.
Pokud chcete nastavit minimum a maximální počet pracovních procesů, mezi které bude výpočetní prostředek automaticky škálovat, použijte pole Min a Max vedle rozevíracího seznamu Typ pracovního procesu .
Pokud automatické škálování nepovolíte, musíte do pole Pracovní procesy vedle rozevíracího seznamu Typ pracovního procesu zadat pevný počet pracovních procesů.
Poznámka:
Po spuštění výpočetního prostředku se na stránce s podrobnostmi o výpočetním prostředku zobrazí počet přidělených pracovníků. Počet přidělených pracovníků můžete porovnat s konfigurací pracovníků a podle potřeby provádět úpravy.
Výhody automatického škálování
Díky automatickému škálování Azure Databricks dynamicky relokuje pracovní procesy, aby zohlednily charakteristiky vaší úlohy. Některé části vašeho potrubí mohou být výpočetně náročnější než jiné, a Databricks během těchto fází úlohy automaticky přidává další výpočetní pracovníky (a odebírá je, pokud již nejsou potřeba).
Automatické škálování usnadňuje dosažení vysokého využití, protože nemusíte zřizovat výpočetní prostředky tak, aby odpovídaly úloze. To platí zejména pro úlohy, jejichž požadavky se v průběhu času mění (například zkoumání datové sady v průběhu dne), ale může se také vztahovat na jednorázovou kratší úlohu, jejíž požadavky na zřizování jsou neznámé. Automatické škálování tak nabízí dvě výhody:
- Úlohy můžou běžet rychleji v porovnání s nedostatečně zřízeným výpočetním prostředkem s konstantní velikostí.
- Automatické škálování může snížit celkové náklady v porovnání se staticky velkým výpočetním prostředkem.
V závislosti na konstantní velikosti výpočetního prostředku a úlohy nabízí automatické škálování jednu nebo obě tyto výhody současně. Velikost výpočetních prostředků může být nižší než minimální počet vybraných pracovních procesů, pokud poskytovatel cloudu ukončí instance. V tomto případě Azure Databricks neustále opakuje pokusy o opětovné zřízení instancí, aby se zachoval minimální počet pracovníků.
Poznámka:
Automatické škálování není dostupné pro úlohy spark-submit.
Poznámka:
Automatické škálování má omezení při zmenšování velikosti clusteru u úloh strukturovaného streamování. Databricks doporučuje používat deklarativní kanály Sparku Lakeflow s vylepšeným automatickým škálováním pro úlohy streamování. Viz Optimalizace využití clusteru deklarativních kanálů Sparku Lakeflow pomocí automatického škálování.
Jak se chová automatické škálování
Pracovní prostor v plánu Premium využívá optimalizované automatické škálování. Pracovní prostory ve standardním cenovém plánu používají standardní automatické škálování.
Optimalizované automatické škálování má následující charakteristiky:
- Postupně škáluje z minima na maximum ve dvou krocích.
- Můžete snížit kapacitu, i když výpočetní prostředek není nečinný, tím, že se podíváte na stav souboru shuffle.
- Škáluje se dolů na základě procenta aktuálních uzlů.
- Pokud výpočetní prostředek úlohy není během posledních 40 sekund dostatečně využitý, kapacita se snižuje.
- U všestranných výpočetních prostředků se snižují kapacita, pokud je výpočetní prostředek málo využitý během posledních 150 sekund.
-
spark.databricks.aggressiveWindowDownSVlastnost konfigurace Sparku určuje v sekundách, jak často výpočetní výkon rozhoduje o snížení kapacity. Zvýšení hodnoty způsobí, že se výpočetní výkon zmenšuje pomaleji. Maximální hodnota je 600.
Standardní automatické škálování se používá v pracovních prostorech standardního plánu. Standardní automatické škálování má následující charakteristiky:
- Začne přidáním 8 uzlů. Poté se exponenciálně zvyšuje, podniká tolik kroků, kolik je potřeba k dosažení maxima.
- Sníží se, když 90 % uzlů není zaneprázdněno po dobu 10 minut a výpočetní výkon je nečinný alespoň 30 sekund.
- Exponenciálně se zmenšuje, počínaje 1 uzlem.
Automatické škálování pomocí fondů
Pokud připojujete výpočetní prostředek k fondu, zvažte následující:
- Ujistěte se, že velikost požadovaných výpočetních prostředků je menší nebo rovna minimálnímu počtu nečinných instancí ve fondu. Pokud je větší, doba spuštění výpočtu bude ekvivalentní výpočtu, který nepoužívá fond.
- Ujistěte se, že maximální velikost výpočetních prostředků je menší nebo rovna maximální kapacitě fondu. Pokud je větší, vytváření výpočetního prostředku selže.
Příklad automatického škálování
Pokud změníte konfiguraci statického výpočetního prostředku na automatické škálování, Azure Databricks okamžitě změní velikost výpočetního prostředku v rámci minimální a maximální hranice a pak spustí automatické škálování. Následující tabulka například ukazuje, co se stane s výpočetním prostředkem s určitou počáteční velikostí, pokud překonfigurujete výpočetní prostředek tak, aby se automaticky škálovat mezi 5 a 10 uzly.
| Počáteční velikost | Velikost po rekonfiguraci |
|---|---|
| 6 | 6 |
| 12 | 10 |
| 3 | 5 |
Pokročilé nastavení výkonu
Následující nastavení se zobrazí v části Rozšířený výkon v uživatelském rozhraní jednoduchého výpočetního prostředí formuláře.
- Spotové instance
- Automatické ukončení
- typ ovladače
spotové instance
Pokud chcete ušetřit náklady, můžete použít spotové instance, označované také jako spotové virtuální počítače Azure , zaškrtnutím políčka Spotové instance .
První instance bude vždy na vyžádání (uzel ovladače je vždy na vyžádání) a následující instance budou spuštěny jako spotové instance.
Pokud se instance vyřazuje z důvodu nedostupnosti, Azure Databricks se pokusí získat nové spotové instance, které nahradí vyřazené instance. Pokud spot instance nelze získat, nasadí se instance na vyžádání k nahrazení vyřazených instancí. Tento okamžitý návrat je podporován pouze pro spotové instance, které byly plně získány a spuštěny. Spotové instance, které selžou během instalace, se nenahradí automaticky.
Kromě toho když se do existujících výpočetních prostředků přidají nové uzly, Azure Databricks se pokusí získat spotové instance pro tyto uzly.
Automatické ukončení
Automatické ukončení výpočetních prostředků můžete nastavit v části Rozšířený výkon . Během vytváření výpočetních prostředků zadejte období nečinnosti v minutách, po kterém chcete výpočetní prostředek ukončit.
Pokud je rozdíl mezi aktuálním časem a posledním spuštěním příkazu na výpočetním prostředku větší než zadané období nečinnosti, Azure Databricks tento výpočetní prostředek automaticky ukončí. Další informace o ukončení výpočetních prostředků najdete v tématu Ukončení výpočetních prostředků.
Typ ovladače
Typ ovladače můžete vybrat v části Rozšířený výkon . Řídící uzel udržuje informace o stavu všech poznámkových bloků připojených k výpočetnímu prostředku. Uzel ovladače také udržuje SparkContext, interpretuje všechny příkazy, které spouštíte z poznámkového bloku nebo knihovny na výpočetním prostředku, a spouští hlavní server Apache Spark, který koordinuje s exekutory Sparku.
Výchozí hodnota typu uzlu ovladače je stejná jako hodnota typu pracovního uzlu. Pokud plánujete velké collect() množství dat z pracovních procesů Sparku, můžete zvolit větší typ uzlu ovladače s větší pamětí a analyzovat je v poznámkovém bloku.
Návod
Vzhledem k tomu, že uzel ovladače udržuje všechny informace o stavu připojených poznámkových bloků, nezapomeňte odpojit nepoužívané poznámkové bloky z uzlu ovladače.
Značky
Značky umožňují snadno monitorovat náklady na výpočetní prostředky používané různými skupinami ve vaší organizaci. Při vytváření výpočetních prostředků zadejte značky jako páry klíč-hodnota a Azure Databricks tyto značky použije na cloudové prostředky, jako jsou virtuální počítače a diskové svazky, a také na protokoly využití služby Databricks.
U výpočetních prostředků spuštěných z fondů se vlastní značky použijí pouze na sestavy využití DBU a nepřenášejí se do cloudových prostředků.
Pro podrobné informace o tom, jak typy značek pro fondy a výpočet spolupracují, viz Použití značek pro přiřazení a sledování využití.
Pokud chcete přidat značky k vašemu výpočetnímu prostředku:
- V části Značky přidejte pár klíč-hodnota pro každou vlastní značku.
- Klikněte na Přidat.
Upřesňující nastavení
V části Pokročilé uživatelského rozhraní jednoduchého formuláře pro výpočty se zobrazí následující nastavení:
- Režimy přístupu
- Povolení automatického škálování místního úložiště
- Šifrování místního disku
- Konfigurace Sparku
- Přístup SSH k výpočetním prostředkům
- Proměnné prostředí
- Doručování výpočetních protokolů
Režimy přístupu
Režim přístupu je funkce zabezpečení, která určuje, kdo může výpočetní prostředek používat, a data, ke kterým má přístup pomocí výpočetního prostředku. Každý výpočetní prostředek v Azure Databricks má režim přístupu. Nastavení režimu přístupu najdete v části Upřesnit v uživatelském rozhraní jednoduchého výpočetního rozhraní formuláře.
Výběr režimu přístupu je ve výchozím nastavení automatický , což znamená, že režim přístupu se automaticky vybere na základě vybraného modulu Databricks Runtime. Pokud není vybraný modul runtime strojového učení nebo Modul runtime Databricks nižší než 14.3, použije se automaticky na standard . V takovém případě se použije dedicated .
Databricks doporučuje používat standardní režim přístupu, pokud vaše požadované funkce nejsou podporované.
| Režim přístupu | Description | Podporované jazyky |
|---|---|---|
| Standard | Můžou ho používat více uživatelů s izolací dat mezi uživateli. | Python, SQL, Scala |
| Dedicated | Může být přiřazen a používán jedním uživatelem nebo skupinou. | Python, SQL, Scala, R |
Podrobné informace o podpoře funkcí pro každý z těchto režimů přístupu najdete v tématu Standardní požadavky na výpočetní výkon a omezení apožadavky a omezení vyhrazených výpočetních prostředků.
Poznámka:
Ve verzi Databricks Runtime 13.3 LTS a vyšší jsou inicializační skripty a knihovny podporované všemi režimy přístupu. Požadavky a úrovně podpory se liší. Podívejte se na možnosti instalace inicializačních skriptů a knihovny pro výpočetní prostředky.
Povolení automatického škálování místního úložiště
Často může být obtížné odhadnout, kolik místa na disku bude konkrétní úloha trvat. Pokud chcete ušetřit, abyste nemuseli odhadnout, kolik gigabajtů spravovaného disku se má připojit k výpočetním prostředkům při vytváření, Azure Databricks automaticky umožňuje automatické škálování místního úložiště na všech výpočetních prostředcích Azure Databricks.
Díky automatickému škálování místního úložiště azure Databricks monitoruje množství volného místa na disku dostupném u pracovních procesů Spark vašeho výpočetního prostředí. Pokud pracovnímu uzlu dochází místo na disku, Databricks k němu automaticky připojí nový spravovaný disk, než dojde k vyčerpání diskové kapacity. Disky jsou připojené až k limitu 5 TB celkového místa na disku na virtuální počítač (včetně počátečního místního úložiště virtuálního počítače).
Spravované disky připojené k virtuálnímu počítači se odpojily jenom v případech, kdy se virtuální počítač vrátí do Azure. To znamená, že spravované disky se nikdy neodpojí od virtuálního počítače, pokud jsou součástí spuštěného výpočetního prostředí. Pokud chcete snížit využití spravovaných disků, Azure Databricks doporučuje používat tuto funkci ve výpočetních prostředcích nakonfigurovaných s automatickým škálováním výpočetních prostředků nebo automatickým ukončením.
Šifrování místního disku
Důležité
Tato funkce je ve verzi Public Preview.
Některé typy instancí, které používáte ke spouštění výpočetních prostředků, můžou mít místně připojené disky. Azure Databricks může ukládat rozdělovaná data nebo dočasná data na těchto místně připojených discích. Pokud chcete zajistit, aby všechna data v klidu byla zašifrována pro všechny typy úložišť, včetně přechodných dat, která jsou dočasně uložena na místních discích výpočetního prostředku, můžete povolit šifrování místního disku.
Důležité
Vaše pracovní zátěže mohou běžet pomaleji kvůli výkonovému dopadu při čtení a zápisu šifrovaných dat do lokálních svazků a z nich.
Když je povolené šifrování místního disku, Azure Databricks generuje místně šifrovací klíč, který je jedinečný pro každý výpočetní uzel a slouží k šifrování všech dat uložených na místních discích. Rozsah klíče je místní pro každý výpočetní uzel a je zničen spolu s samotným výpočetním uzlem. Během své životnosti se klíč nachází v paměti pro šifrování a dešifrování a je uložen zašifrovaný na disku.
Pokud chcete povolit šifrování místního disku, musíte použít rozhraní API clusterů. Během vytváření nebo úpravy výpočtu nastavte enable_local_disk_encryption na true.
Konfigurace Sparku
Pokud chcete ladit úlohy Sparku, můžete zadat vlastní vlastnosti konfigurace Sparku.
Na stránce konfigurace výpočetních prostředků klikněte na přepínač Upřesnit .
Klikněte na kartu Spark .
V konfiguraci Sparku zadejte vlastnosti konfigurace jako jeden pár klíč-hodnota na řádek.
Při konfiguraci výpočetních prostředků pomocí rozhraní API clusterů nastavte vlastnosti Sparku v poli spark_conf v rozhraní API pro vytvoření clusteru nebo aktualizaci clusteru .
K vynucování konfigurací Sparku na výpočetních prostředcích můžou správci pracovního prostoru používat zásady výpočetních prostředků.
Načtěte vlastnost konfigurace Sparku z tajného úložiště.
Databricks doporučuje ukládat citlivé informace, jako jsou hesla, v tajném kódu místo prostého textu. Pokud chcete odkazovat na tajný klíč v konfiguraci Sparku, použijte následující syntaxi:
spark.<property-name> {{secrets/<scope-name>/<secret-name>}}
Pokud například chcete nastavit vlastnost konfigurace Sparku s názvem password na hodnotu tajného kódu uloženého v secrets/acme_app/password:
spark.password {{secrets/acme-app/password}}
Další informace najdete v tématu Správa tajemství.
Přístup SSH k výpočetním prostředkům
Z bezpečnostních důvodů se v Azure Databricks ve výchozím nastavení port SSH zavře. Pokud chcete povolit přístup SSH ke svým clusterům Spark, přečtěte si téma SSH k uzlu ovladače.
Poznámka:
SSH je možné povolit jenom v případě, že je váš pracovní prostor nasazený ve vaší vlastní virtuální síti Azure.
Proměnné prostředí
Nakonfigurujte vlastní proměnné prostředí, ke kterým máte přístup z inicializačních skriptů spuštěných na výpočetním prostředku. Databricks také poskytuje předdefinované proměnné prostředí , které můžete použít v inicializačních skriptech. Tyto předdefinované proměnné prostředí nelze přepsat.
Na stránce konfigurace výpočetních prostředků klikněte na přepínač Upřesnit .
Klikněte na kartu Spark .
Nastavte proměnné prostředí v poli Proměnné prostředí .
Proměnné prostředí můžete také nastavit pomocí spark_env_vars pole v rozhraní API pro vytvoření clusteru nebo aktualizovat rozhraní API clusteru.
Doručování výpočetních protokolů
Při vytváření výpočetních prostředků pro obecné nebo specifické úlohy můžete zadat umístění pro ukládání protokolů clusteru pro uzel řidiče Sparku, pracovní uzly a události. Protokoly se doručují každých pět minut a archivují se každou hodinu ve zvoleném cíli. Databricks doručí všechny protokoly vygenerované až do ukončení výpočetního prostředku.
Aby bylo možné nakonfigurovat umístění doručení protokolu:
- Na výpočetní stránce klikněte na přepínač Pokročilé.
- Klikněte na kartu Protokolování.
- Vyberte typ cíle.
- Zadejte cestu k protokolu.
Databricks vytvoří podsložku ve zvolené cestě protokolu pojmenovanou podle cluster_idvašeho výpočetního prostředí.
Pokud je například zadaná cesta protokolu /Volumes/catalog/schema/volume, protokoly pro 06308418893214 se doručí do /Volumes/catalog/schema/volume/06308418893214.
Poznámka:
Doručování protokolů do svazků je ve verzi Public Preview a podporuje se pouze na výpočetních prostředcích s podporou katalogu Unity s režimem standardního nebo vyhrazeného přístupu. V režimu standardního přístupu ověřte, že vlastník clusteru může nahrát soubory do svazku. V režimu vyhrazeného přístupu se ujistěte, že přiřazený uživatel nebo skupina můžou nahrát soubory do svazku. Podívejte se na operaci Vytvoření, odstranění nebo aktualizace souborů v oprávněních pro svazky katalogu Unity.
Poznámka:
Tato funkce je také k dispozici v rozhraní REST API. Podívejte se na rozhraní API clusterů.