Konfigurace clusterů

Poznámka

Toto jsou pokyny pro starší uživatelské rozhraní clusteru pro vytváření clusteru a jsou zahrnuty pouze pro historickou přesnost. Všichni zákazníci by měli používat aktualizované uživatelské rozhraní pro vytvoření clusteru.

Tento článek vysvětluje možnosti konfigurace, které jsou k dispozici při vytváření a úpravách clusterů Azure Databricks. Zaměřuje se na vytváření a úpravy clusterů pomocí uživatelského rozhraní. Další metody naleznete v tématu Clusters CLI, Clusters API 2.0 a Databricks Terraform provider.

Pokud potřebujete pomoc s rozhodováním o tom, jaká kombinace možností konfigurace vyhovuje vašim potřebám, podívejte se na osvědčené postupy konfigurace clusteru.

Vytvoření clusteru

Zásady clusteru

Zásady clusteru omezují možnost konfigurovat clustery na základě sady pravidel. Pravidla zásad omezují atributy nebo hodnoty atributů, které jsou k dispozici pro vytvoření clusteru. Zásady clusteru mají seznamy ACL, které omezují jejich použití na konkrétní uživatele a skupiny, a tím omezují zásady, které můžete vybrat při vytváření clusteru.

Zásady clusteru nakonfigurujete tak, že v rozevíracím seznamu Zásady vyberete zásady clusteru.

Výběr zásad clusteru

Poznámka

Pokud se v pracovním prostoru nevytvořily žádné zásady, rozevírací seznam Zásady se nezobrazí.

Pokud máte:

  • Oprávnění k vytvoření clusteru můžete vybrat neomezenou zásadu a vytvořit plně konfigurovatelné clustery. Neomezené zásady neomezovat žádné atributy clusteru ani hodnoty atributů.
  • Cluster vytváří oprávnění i přístup k zásadám clusteru, můžete vybrat neomezené zásady a zásady, ke kterým máte přístup.
  • Přístup pouze k zásadám clusteru můžete vybrat zásady, ke kterým máte přístup.

Režim clusteru

Poznámka

Tento článek popisuje starší uživatelské rozhraní clusterů. Podrobnosti o uživatelském rozhraní preview najdete v tématu Vytvoření clusteru. Patří sem některé změny terminologie typů a režimů přístupu ke clusteru. Porovnání nových a starších typů clusterů najdete v tématu Změny uživatelského rozhraní clusterů a režimy přístupu ke clusteru. V uživatelském rozhraní preview:

  • Clustery standardního režimu se teď nazývají clustery bez izolace sdíleného přístupu.
  • Vysoké souběžnosti se seznamy ACL tabulek se teď nazývají clustery režimu sdíleného přístupu.

Azure Databricks podporuje tři režimy clusteru: Standard, Vysoká souběžnost a Jeden uzel. Výchozí režim clusteru je Standard.

Důležité

Konfigurace clusteru zahrnuje nastavení automatického ukončení , jehož výchozí hodnota závisí na režimu clusteru:

  • Clustery Standard a Single Node se ve výchozím nastavení automaticky ukončí po 120 minutách.
  • Clustery s vysokou souběžností se ve výchozím nastavení automaticky neukončují .

Clustery úrovně Standard

Upozornění

Clustery standardního režimu (někdy označované jako Sdílené clustery bez izolace) můžou sdílet více uživatelů bez izolace mezi uživateli. Pokud použijete režim clusteru s vysokou souběžností bez dalších nastavení zabezpečení, jako jsou seznamy ACL tabulky nebo předávání přihlašovacích údajů, použijí se stejná nastavení jako clustery v režimu Standard. Správci účtů můžou zabránit automatickému generování interních přihlašovacích údajů pro správce pracovního prostoru Databricks v těchto typech clusteru. Pro bezpečnější možnosti doporučuje Databricks alternativy, jako jsou clustery s vysokou souběžností s seznamy ACL tabulek.

Cluster Úrovně Standard se doporučuje jenom pro jednotlivé uživatele. Standardní clustery můžou spouštět úlohy vyvinuté v Pythonu, SQL, R a Scala.

Clustery s vysokou souběžností

Cluster s vysokou souběžností je spravovaný cloudový prostředek. Klíčové výhody clusterů s vysokou souběžností jsou, že poskytují jemně odstupňované sdílení pro maximální využití prostředků a minimální latenci dotazů.

Clustery s vysokou souběžností můžou spouštět úlohy vyvinuté v SQL, Pythonu a R. Výkon a zabezpečení clusterů s vysokou souběžností poskytuje spouštění uživatelského kódu v samostatných procesech, což není možné v jazyce Scala.

Kromě toho podporují řízení přístupu k tabulce pouze clustery s vysokou souběžností.

Pokud chcete vytvořit cluster s vysokou souběžností, nastavte režim clusteru na vysokou souběžnost.

Režim clusteru s vysokou souběžností

Příklad vytvoření clusteru s vysokou souběžností pomocí rozhraní API clusterů najdete v příkladu clusteru s vysokou souběžností.

Clustery s jedním uzlem

Cluster s jedním uzlem nemá žádné pracovní procesy a na uzlu ovladače spouští úlohy Sparku.

Naproti tomu cluster Úrovně Standard vyžaduje kromě uzlu ovladače alespoň jeden pracovní uzel Sparku, aby bylo možné spouštět úlohy Sparku.

Pokud chcete vytvořit cluster s jedním uzlem, nastavte režim clusteru na jeden uzel.

Režim clusteru s jedním uzlem

Další informace o práci s clustery s jedním uzlem najdete v tématu Clustery s jedním uzlem.

Rodokmen dat

Důležité

Rodokmen dat je ve verzi Public Preview.

Pokud chcete vytvořit cluster, který zachycuje rodokmen dat, přejděte na stránku konfigurace clusteru a postupujte následovně:

Poznámka

Pokud chcete zaznamenat rodokmen jako součást spuštění úlohy pomocí clusteru úloh, nezapomeňte nakonfigurovat cluster úloh s následující konfigurací.

  1. V režimu přístupu vyberte Jeden uživatel nebo Sdílený.

    • Jeden uživatel: Cluster, který podporuje více jazyků, ale může ho používat jeden přiřazený uživatel.
    • Sdílené: Cluster, který může sdílet více uživatelů. Podporují se jenom úlohy SQL a Pythonu.
  2. Ve verzi modulu runtime Databricks vyberte Databricks Runtime 11.1 nebo vyšší.

  3. Klikněte na přepínač Upřesnit možnosti .

  4. Klikněte na kartu Spark .

  5. Do textového pole konfigurace Sparku zadejte následující konfiguraci:

    spark.databricks.dataLineage.enabled true
    
  6. Klikněte, že chcete vytvořit cluster.

Fondy

Pokud chcete zkrátit dobu spuštění clusteru, můžete cluster připojit k předdefinovanému fondu nečinných instancí pro ovladače a pracovní uzly. Cluster se vytvoří pomocí instancí ve fondech. Pokud fond nemá dostatek nečinných prostředků k vytvoření požadovaného ovladače nebo pracovních uzlů, fond se rozbalí přidělením nových instancí od zprostředkovatele instance. Po ukončení připojeného clusteru se instance, které použije, vrátí do fondů a můžou je znovu použít jiný cluster.

Pokud vyberete fond pro pracovní uzly, ale ne pro uzel ovladače, uzel ovladače dědí fond z konfigurace pracovního uzlu.

Důležité

Pokud se pokusíte vybrat fond pro uzel ovladače, ale ne pro pracovní uzly, dojde k chybě a cluster se nevytvořil. Tento požadavek brání situaci, kdy musí uzel ovladače čekat na vytvoření pracovních uzlů nebo naopak.

Další informace o práci s fondy v Azure Databricks najdete v tématu Fondy .

Databricks Runtime

Moduly runtime Databricks jsou sada základních komponent, které běží ve vašich clusterech. Všechny moduly runtime Databricks zahrnují Apache Spark a přidávají komponenty a aktualizace, které zlepšují použitelnost, výkon a zabezpečení. Podrobnosti najdete v modulu runtime Databricks.

Azure Databricks nabízí několik typů modulů runtime a několik verzí těchto typů modulu runtime v rozevíracím seznamu Verze modulu runtime Databricks při vytváření nebo úpravách clusteru.

Výběr verze modulu runtime

Akcelerace foton

Photon je k dispozici pro clustery s modulem Databricks Runtime 9.1 LTS a novějším.

Pokud chcete povolit akceleraci Photon, zaškrtněte políčko Použít akceleraci photon .

V případě potřeby můžete zadat typ instance v rozevíracím seznamu Typ pracovního procesu a Typ ovladače.

Databricks doporučuje následující typy instancí pro optimální cenu a výkon:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

Aktivitu Photon můžete zobrazit v uživatelském rozhraní Sparku. Následující snímek obrazovky ukazuje DAG podrobností dotazu. V DAG jsou dvě indikace photonu. Nejprve operátory Photon začínají na "Photon", PhotonGroupingAggnapříklad . Za druhé, v DAG jsou operátory foton a fáze barevné broskve, zatímco jiné než Foton jsou modré.

Foton DAG

Image Dockeru

V některých verzích Databricks Runtime můžete při vytváření clusteru zadat image Dockeru. Mezi příklady případů použití patří přizpůsobení knihovny, zlaté prostředí kontejneru, které se nemění, a integrace CI/CD Dockeru.

Image Dockeru můžete použít také k vytváření vlastních prostředí hlubokého učení v clusterech se zařízeními GPU.

Pokyny najdete v tématu Přizpůsobení kontejnerů pomocí služby Databricks Container Services a Databricks Container Services v clusterech GPU.

Typ uzlu clusteru

Cluster se skládá z jednoho uzlu ovladače a nuly nebo více pracovních uzlů.

Můžete vybrat samostatné typy instancí poskytovatele cloudu pro ovladače a pracovní uzly, i když ve výchozím nastavení uzel ovladače používá stejný typ instance jako pracovní uzel. Různé rodiny typů instancí odpovídají různým případům použití, jako jsou úlohy náročné na paměť nebo náročné na výpočetní výkon.

Poznámka

Pokud vaše požadavky na zabezpečení zahrnují izolaci výpočetních prostředků, vyberte jako typ pracovního procesu Standard_F72s_V2 instanci. Tyto typy instancí představují izolované virtuální počítače, které spotřebovávají celý fyzický hostitel, a poskytují potřebnou úroveň izolace potřebné pro podporu, například úlohy amerického ministerstva obrany úrovně 5 (IL5).

Uzel ovladače

Uzel ovladače udržuje informace o stavu všech poznámkových bloků připojených ke clusteru. Uzel ovladače také udržuje SparkContext a interpretuje všechny příkazy, které spouštíte z poznámkového bloku nebo knihovny v clusteru, a spouští hlavní server Apache Spark, který koordinuje s exekutory Spark.

Výchozí hodnota typu uzlu ovladače je stejná jako typ pracovního uzlu. Pokud plánujete collect() velké množství dat od pracovních procesů Sparku, můžete zvolit větší typ uzlu ovladače s větší pamětí a analyzovat je v poznámkovém bloku.

Tip

Vzhledem k tomu, že uzel ovladače udržuje všechny informace o stavu připojených poznámkových bloků, nezapomeňte odpojit nepoužívané poznámkové bloky od uzlu ovladače.

Pracovní uzel

Pracovní uzly Azure Databricks spouštějí exekutory Sparku a další služby potřebné pro správné fungování clusterů. Když úlohu distribuujete pomocí Sparku, proběhne veškeré distribuované zpracování na pracovních uzlech. Azure Databricks spouští jeden exekutor na pracovní uzel; proto se termíny exekutor a pracovní proces používají zaměnitelně v kontextu architektury Azure Databricks.

Tip

Ke spuštění úlohy Spark potřebujete aspoň jeden pracovní uzel. Pokud má cluster nula pracovních procesů, můžete na uzlu ovladače spustit příkazy jiného typu než Spark, ale příkazy Sparku selžou.

Typy instancí GPU

Pro výpočetně náročné úlohy, které vyžadují vysoký výkon, jako jsou úlohy spojené s hloubkovým učením, azure Databricks podporuje clustery akcelerované pomocí grafických procesorů (GPU). Další informace najdete v tématu Clustery s podporou GPU.

Spotové instance

Pokud chcete ušetřit náklady, můžete použít spotové instance, označované také jako spotové virtuální počítače Azure , a to zaškrtnutím políčka Spotové instance .

Konfigurace spotu

První instance bude vždy na vyžádání (uzel ovladače je vždy na vyžádání) a následné instance budou spotové instance. Pokud se spotové instance vyřazují z důvodu nedostupnosti, nasadí se instance na vyžádání, aby nahradily vyřazené instance.

Velikost clusteru a automatické škálování

Při vytváření clusteru Azure Databricks můžete buď zadat pevný počet pracovních procesů pro cluster, nebo zadat minimální a maximální počet pracovních procesů pro cluster.

Když zadáte cluster s pevnou velikostí, Azure Databricks zajistí, že váš cluster bude mít zadaný počet pracovních procesů. Když zadáte rozsah pro počet pracovních procesů, Databricks zvolí odpovídající počet pracovníků potřebných ke spuštění vaší úlohy. Označuje se jako automatické škálování.

S automatickým škálováním Azure Databricks dynamicky relokuje pracovní procesy, které budou zohledňovat charakteristiky vaší úlohy. Některé části vašeho kanálu můžou být výpočetněji náročné než ostatní a Databricks během těchto fází vaší úlohy automaticky přidá další pracovní procesy (a odebere je, když už nejsou potřeba).

Automatické škálování usnadňuje dosažení vysokého využití clusteru, protože cluster nemusíte zřizovat tak, aby odpovídal zatížení. To platí zejména pro úlohy, jejichž požadavky se v průběhu času mění (například zkoumání datové sady během dne), ale může se také vztahovat na jednorázovou kratší úlohu, jejíž požadavky na zřizování jsou neznámé. Automatické škálování tak nabízí dvě výhody:

  • Úlohy můžou běžet rychleji v porovnání s clusterem s konstantní velikostí, který není zřízený.
  • Automatické škálování clusterů může snížit celkové náklady v porovnání se staticky velikostí clusteru.

V závislosti na konstantní velikosti clusteru a zatížení vám automatické škálování současně poskytne jednu nebo obě tyto výhody. Velikost clusteru může být nižší než minimální počet pracovních procesů vybraných při ukončení instancí poskytovatele cloudu. V takovém případě Azure Databricks neustále opakuje pokusy o opětovné zřizování instancí, aby zachoval minimální počet pracovních procesů.

Poznámka

Automatické škálování není k dispozici pro spark-submit úlohy.

Jak se chová automatické škálování

  • Vertikálně navyšuje kapacitu z min na maximum ve 2 krocích.
  • Může vertikálně snížit kapacitu i v případě, že cluster není nečinný, když se podíváte na stav shuffle souboru.
  • Škáluje se na základě procenta aktuálních uzlů.
  • V clusterech úloh se škáluje dolů, pokud je cluster za posledních 40 sekund nedostatečně využitý.
  • V clusterech pro všechny účely se vertikálně navyšují kapacitu, pokud je cluster za posledních 150 sekund nedostatečně využitý.
  • spark.databricks.aggressiveWindowDownS Vlastnost konfigurace Sparku určuje v sekundách, jak často cluster rozhoduje o snížení kapacity. Zvýšením hodnoty dojde ke snížení kapacity clusteru pomaleji. Maximální hodnota je 600.

Povolení a konfigurace automatického škálování

Pokud chcete službě Azure Databricks umožnit automatickou změnu velikosti clusteru, povolíte automatické škálování clusteru a poskytnete minimální a maximální rozsah pracovních procesů.

  1. Povolte automatické škálování.

    • All-Purpose clusteru – Na stránce Vytvořit cluster zaškrtněte políčko Povolit automatické škálování v okně Možnosti Autopilotu :

      Povolení automatického škálování pro interaktivní clustery

    • Cluster úloh – Na stránce Konfigurovat cluster zaškrtněte políčko Povolit automatické škálování v okně Možnosti Autopilotu :

      Povolení automatického škálování pro clustery úloh

  2. Nakonfigurujte minimální a maximální počet pracovních procesů.

    Konfigurace minimálních a maximálních pracovních procesů

    Po spuštění clusteru se na stránce podrobností clusteru zobrazí počet přidělených pracovních procesů. Počet přidělených pracovních procesů můžete porovnat s konfigurací pracovního procesu a podle potřeby provádět úpravy.

Důležité

Pokud používáte fond instancí:

  • Ujistěte se, že požadovaná velikost clusteru je menší nebo rovna minimálnímu počtu nečinných instancí ve fondu. Pokud je větší, doba potřebná ke spuštění clusteru bude stejná jako u clusteru, který nevyužívá fond.
  • Ujistěte se, že maximální velikost clusteru je menší nebo rovna maximální kapacitě fondu. Pokud je větší, vytváření clusteru selže.

Příklad automatického škálování

Pokud změníte konfiguraci statického clusteru na cluster s automatickým škálováním, Azure Databricks okamžitě změní velikost clusteru v rámci minimálních a maximálních hranic a pak spustí automatické škálování. Následující tabulka například ukazuje, co se stane se clustery s určitou počáteční velikostí, pokud překonfigurujete cluster tak, aby se automatické škálování mezi 5 a 10 uzly.

Počáteční velikost Velikost po rekonfiguraci
6 6
12 10
3 5

Automatické škálování místního úložiště

Často může být obtížné odhadnout, kolik místa na disku bude konkrétní úloha trvat. Pokud chcete ušetřit, abyste museli odhadnout, kolik gigabajtů spravovaného disku se má připojit ke clusteru při vytváření, Azure Databricks automaticky povolí automatické škálování místního úložiště na všech clusterech Azure Databricks.

Díky automatickému škálování místního úložiště Azure Databricks monitoruje množství volného místa na disku dostupném v pracovních prostorech Spark vašeho clusteru. Pokud pracovní proces začne na disku běžet příliš málo, Databricks automaticky připojí nový spravovaný disk k pracovnímu procesu, než dojde k nedostatku místa na disku. Disky jsou připojené až k limitu 5 TB celkového místa na disku na virtuální počítač (včetně počátečního místního úložiště virtuálního počítače).

Spravované disky připojené k virtuálnímu počítači se odpojí jenom v případech, kdy se virtuální počítač vrátí do Azure. To znamená, že spravované disky se nikdy neodpojily od virtuálního počítače, pokud je součástí spuštěného clusteru. Pokud chcete snížit kapacitu využití spravovaných disků, Azure Databricks doporučuje používat tuto funkci v clusteru s nakonfigurovanými spotovými instancemi nebo automatickým ukončením.

Šifrování místního disku

Důležité

Tato funkce je ve verzi Public Preview.

Některé typy instancí, které používáte ke spouštění clusterů, můžou mít místně připojené disky. Azure Databricks může ukládat data prohazování nebo dočasné data na těchto místně připojených discích. Pokud chcete zajistit, aby všechna neaktivní uložená data byla zašifrovaná pro všechny typy úložišť, včetně dat prohazování uložených dočasně na místních discích clusteru, můžete povolit šifrování místního disku.

Důležité

Vaše úlohy můžou běžet pomaleji kvůli výkonu čtení a zápisu šifrovaných dat do místních svazků a z místních svazků.

Pokud je povolené šifrování místních disků, Azure Databricks generuje šifrovací klíč místně, který je jedinečný pro každý uzel clusteru a slouží k šifrování všech dat uložených na místních discích. Obor klíče je místní pro každý uzel clusteru a je zničen spolu se samotným uzlem clusteru. Během své životnosti se klíč nachází v paměti pro šifrování a dešifrování a je uložen zašifrovaný na disku.

Pokud chcete povolit šifrování místních disků, musíte použít rozhraní API clusterů 2.0. Během vytváření nebo úprav clusteru nastavte:

{
  "enable_local_disk_encryption": true
}

Příklady volání těchto rozhraní API najdete v referenčních informacích k vytvoření a úpravám v rozhraní API clusterů.

Tady je příklad volání vytvoření clusteru, které umožňuje šifrování místního disku:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Režim zabezpečení

Pokud je váš pracovní prostor přiřazený k metastoru katalogu Unity , místo režimu clusteru s vysokou souběžností použijete režim zabezpečení, abyste zajistili integritu řízení přístupu a vynucovali silné záruky izolace. Režim clusteru s vysokou souběžností není v katalogu Unity k dispozici.

V části Upřesnit možnosti vyberte z následujících režimů zabezpečení clusteru:

  • Žádné: Žádná izolace. Nevynucuje řízení přístupu k místní tabulce pracovního prostoru ani předávání přihlašovacích údajů. Nelze získat přístup k datům katalogu Unity.
  • Jeden uživatel: Může ho používat jenom jeden uživatel (ve výchozím nastavení uživatel, který cluster vytvořil). Ostatní uživatelé se nemůžou připojit ke clusteru. Při přístupu k zobrazení z clusteru s režimem zabezpečení jednoho uživatele se zobrazení spustí s oprávněními uživatele. Clustery s jedním uživatelem podporují úlohy pomocí Pythonu, Scaly a R. Inicializační skripty, instalace knihoven a připojení DBFS se podporují v clusterech s jedním uživatelem. Automatizované úlohy by měly používat clustery s jedním uživatelem.
  • Izolace uživatele: Může být sdíleno více uživateli. Podporují se jenom úlohy SQL. Instalace knihovny, inicializační skripty a připojení DBFS jsou zakázány, aby se mezi uživateli clusteru vynucuje striktní izolace.
  • Pouze seznam ACL tabulky (starší verze):: Vynucuje řízení přístupu k místní tabulce pracovního prostoru, ale nemůže získat přístup k datům katalogu Unity.
  • Předávání pouze (starší verze):: Vynucuje předávání přihlašovacích údajů místního pracovního prostoru, ale nemá přístup k datům katalogu Unity.

Jedinými režimy zabezpečení podporovanými pro úlohy Katalogu Unity jsou izolované uživatele a izolace uživatelů.

Další informace najdete v tématu Co je režim přístupu ke clusteru?.

Konfigurace Sparku

Pokud chcete ladit úlohy Sparku, můžete v konfiguraci clusteru zadat vlastní vlastnosti konfigurace Sparku .

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti .

  2. Klikněte na kartu Spark .

    Konfigurace Sparku

    V konfiguraci Sparku zadejte vlastnosti konfigurace jako jeden pár klíč-hodnota na řádek.

Když nakonfigurujete cluster pomocí rozhraní API clusterů 2.0, nastavte vlastnosti Sparku spark_conf v poli v požadavku na vytvoření clusteru nebo upravte požadavek clusteru.

Pokud chcete nastavit vlastnosti Sparku pro všechny clustery, vytvořte globální inicializační skript:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Načtení vlastnosti konfigurace Sparku z tajného kódu

Databricks doporučuje ukládat citlivé informace, například hesla, do tajného kódu místo prostého textu. Pokud chcete odkazovat na tajný kód v konfiguraci Sparku, použijte následující syntaxi:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Pokud chcete například nastavit vlastnost konfigurace Sparku volanou password na hodnotu tajného kódu uloženého v secrets/acme_app/password:

spark.password {{secrets/acme-app/password}}

Další informace najdete v tématu Syntaxe pro odkazování na tajné kódy ve vlastnosti konfigurace Sparku nebo proměnné prostředí.

Proměnné prostředí

Můžete nakonfigurovat vlastní proměnné prostředí, ke kterým máte přístup z inicializačních skriptů spuštěných v clusteru. Databricks také poskytuje předdefinované proměnné prostředí , které můžete použít v inicializačních skriptech. Tyto předdefinované proměnné prostředí nelze přepsat.

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti .

  2. Klikněte na kartu Spark .

  3. Nastavte proměnné prostředí v poli Proměnné prostředí .

    Pole Proměnné prostředí

Proměnné prostředí můžete také nastavit pomocí spark_env_vars pole v koncovém bodu rozhraní API pro vytvoření požadavku clusteru nebo upravit koncové body rozhraní API pro žádosti o clustery .

Značky clusteru

Značky clusteru umožňují snadno monitorovat náklady na cloudové prostředky používané různými skupinami ve vaší organizaci. Značky můžete zadat jako páry klíč-hodnota při vytváření clusteru a Azure Databricks tyto značky použije na cloudové prostředky, jako jsou virtuální počítače a diskové svazky, a také sestavy využití DBU.

U clusterů spuštěných z fondů se vlastní značky clusteru použijí jenom na sestavy využití DBU a nerozšířejí se do cloudových prostředků.

Podrobné informace o tom, jak typy značek fondů a clusterů spolupracují, najdete v tématu Monitorování využití pomocí značek clusteru, fondu a pracovních prostorů.

Azure Databricks pro usnadnění používání čtyř výchozích značek pro každý cluster: Vendor, , CreatorClusterNamea ClusterId.

Kromě toho azure Databricks na clusterech úloh používá dvě výchozí značky: RunName a JobId.

U prostředků používaných službou Databricks SQL používá Azure Databricks také výchozí značku SqlWarehouseId.

Upozornění

Nepřiřazujte vlastní značku s klíčem Name ke clusteru. Každý cluster má značku Name , jejíž hodnotu nastaví Azure Databricks. Pokud změníte hodnotu přidruženou ke klíči Name, cluster už není možné sledovat službou Azure Databricks. V důsledku toho nemusí být cluster ukončen po nečinnosti a bude nadále vyžadovat náklady na využití.

Vlastní značky můžete přidat při vytváření clusteru. Konfigurace značek clusteru:

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti .

  2. V dolní části stránky klikněte na kartu Značky .

    Karta Značky

  3. Přidejte pár klíč-hodnota pro každou vlastní značku. Můžete přidat až 43 vlastních značek.

Další podrobnosti najdete v tématu Monitorování využití pomocí značek clusteru, fondu a pracovního prostoru.

Přístup SSH ke clusterům

Z bezpečnostních důvodů se v Azure Databricks port SSH ve výchozím nastavení zavře. Pokud chcete povolit přístup SSH ke svým clusterům Spark, obraťte se na podporu Azure Databricks.

Poznámka

SSH je možné povolit jenom v případě, že je váš pracovní prostor nasazený ve vaší vlastní virtuální síti Azure.

Doručení protokolu clusteru

Při vytváření clusteru můžete zadat umístění pro doručování protokolů pro uzel ovladače Spark, pracovní uzly a události. Protokoly se doručují každých pět minut do zvoleného cíle. Po ukončení clusteru azure Databricks zaručuje doručování všech protokolů vygenerovaných až do ukončení clusteru.

Cíl protokolů závisí na ID clusteru. Pokud je dbfs:/cluster-log-deliveryzadaný cíl, doručují se protokoly 0630-191345-leap375 clusteru do dbfs:/cluster-log-delivery/0630-191345-leap375.

Konfigurace umístění doručení protokolu:

  1. Na stránce konfigurace clusteru klikněte na přepínač Upřesnit možnosti .

  2. Klikněte na kartu Protokolování .

    Doručení protokolu clusteru

  3. Vyberte cílový typ.

  4. Zadejte cestu k protokolu clusteru.

Poznámka

Tato funkce je k dispozici také v rozhraní REST API. Viz příklady doručování protokolů clusterůrozhraní API 2.0 a clusteru.

Inicializační skripty

Inicializace uzlu clusteru (neboli inicializace) je skript prostředí, který se spouští při spuštění každého uzlu clusteru před spuštěním ovladače Sparku nebo pracovního prostředí JVM. Inicializační skripty můžete použít k instalaci balíčků a knihoven, které nejsou součástí modulu Runtime Databricks, úpravě cesty ke třídě systému JVM, nastavení vlastností systému a proměnných prostředí používaných prostředím JVM nebo úpravě parametrů konfigurace Sparku mimo jiné úlohy konfigurace.

Inicializační skripty můžete připojit ke clusteru rozbalením části Upřesnit možnosti a kliknutím na kartu Inicializační skripty .

Podrobné pokyny najdete v tématu Skripty inicializace uzlů clusteru.