Sdílet prostřednictvím


Řešení potíží s výpočetními prostředky

Tento článek obsahuje prostředky, které můžete použít v případě, že potřebujete řešit potíže s chováním výpočetních prostředků ve vašem pracovním prostoru. Témata v tomto článku se týkají problémů se spuštěním výpočetních prostředků.

Další články o řešení potíží najdete tady:

Použijte Pomocníka k opravě chyb ve výpočetním prostředí

Nástroj Databricks Assistant vám může pomoct diagnostikovat a navrhovat opravy chyb instalace knihovny.

Na stránce Knihovny výpočetního prostředí se vedle názvu neúspěšného balíčku a v dialogovém okně podrobností, které se otevře po kliknutí na neúspěšný balíček, zobrazí tlačítko ikona Sparkle. 'Diagnostika chyby'. Klikněte na ikonu Sparkle (Minigraf). Diagnostikujte chybu , která vám pomůže s laděním pomocí Pomocníka. Pomocník diagnostikuje chybu a navrhne možná řešení.

Pomocí Pomocníka můžete ladit chyby instalace výpočetní knihovny.

Pomocí Assistant můžete také odstraňovat chyby výpočetního prostředí v poznámkovém bloku. Vizte Chyby prostředí pro ladění.

Nový počítač nereaguje nebo v protokolu událostí je chyba "síť výpočetní roviny je nesprávně nakonfigurována".

Problém: Po tom, co vypadá jako úspěšné nasazení pracovního prostoru, váš první testovací výpočetní výkon nereaguje. Po přibližně 20 až 30 minutách se při kontrole výpočetního protokolu událostí zobrazí chybová zpráva podobná této:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Příčina: Předchozí chybová zpráva indikuje, že směrování nebo brána firewall je nesprávná. Služba Azure Databricks si vyžádala instance virtuálních počítačů pro nové výpočty, ale nastalo dlouhé zpoždění při spuštění a připojení instance k řídicí rovině. Správce výpočetních prostředků ukončí instance a hlásí tuto chybu.

Doporučená oprava: Konfigurace sítě musí umožňovat úspěšné připojení instancí výpočetních uzlů k řídicí rovině Databricks. Pokud chcete zrychlit řešení potíží než s využitím výpočetních prostředků, můžete nasadit instanci virtuálního počítače do jedné z podsítí pracovního prostoru a provádět typické kroky pro řešení potíží se sítí, jako je nc, ping, telnetnebo traceroute.

Podívejte se na adresy řídicího panelu Azure Databricks pro přístupové domény, IP adresy a relé CNAME podle regionu. V případě úložiště artefaktů se ujistěte, že existuje úspěšná síťová cesta ke službě Azure Blob Storage.

Následující příklad používá oblast westusAzure:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Pokud se předchozí příkazy vrátí správně, může být síťová cesta správně nakonfigurovaná, ale pokud používáte bránu firewall, může se jednat o jiný problém. Brána firewall může mít hloubkovou kontrolu paketů, kontrolu SSL nebo něco jiného, co způsobuje selhání příkazů Azure Databricks. Pomocí instance virtuálního počítače v podsíti Azure Databricks spusťte následující příkaz a nahraďte <token> ho vaším osobním přístupovým tokenem a <workspace-url> adresou URL pro váš pracovní prostor:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Pokud předchozí požadavek selže, spusťte příkaz znovu s -k možností odebrat ověření SSL. Pokud to funguje, znamená to, že brána firewall způsobuje problém s certifikáty SSL.

Prohlédněte si certifikáty SSL spuštěním následujícího příkazu a nahraďte <workspace-url> adresou URL vašeho pracovního prostoru:

openssl s_client -showcerts -connect <workspace-url>:443

Předchozí příkaz zobrazí návratový kód a certifikáty Azure Databricks. Pokud se vrátí chyba, může být brána firewall chybně nakonfigurovaná.

Upozorňujeme, že problémy s protokolem SSL nejsou problémy se síťovými vrstvami. Při prohlížení provozu v bráně firewall se tyto problémy s protokolem SSL nezobrazují. Zobrazení zdrojových a cílových požadavků funguje podle očekávání.

Problémy s používáním metastoru nebo protokolu výpočetních událostí zahrnují události METASTORE_DOWN

Problém: Zdá se, že je váš pracovní prostor nastavený a můžete nastavit výpočetní prostředky, ale ve vašem METASTORE_DOWN máte události nebo se metastore nezdá, že funguje.

Doporučená oprava: Ověřte, jestli používáte firewall webových aplikací (WAF), jako je proxy squid. Členové výpočetních uzlů se musí připojit k několika službám, které nejsou kompatibilní s WAF.