Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek obsahuje prostředky, které můžete použít v případě, že potřebujete řešit potíže s chováním výpočetních prostředků ve vašem pracovním prostoru. Témata v tomto článku se týkají problémů se spuštěním výpočetních prostředků.
Další články o řešení potíží najdete tady:
- Ladění pomocí uživatelského rozhraní Sparku
- Diagnostika problémů s náklady a výkonem pomocí uživatelského rozhraní Sparku
- Zpracování velkých dotazů v interaktivních pracovních postupech
Použijte Pomocníka k opravě chyb ve výpočetním prostředí
Nástroj Databricks Assistant vám může pomoct diagnostikovat a navrhovat opravy chyb instalace knihovny.
Na stránce Diagnostikujte chybu , která vám pomůže s laděním pomocí Pomocníka. Pomocník diagnostikuje chybu a navrhne možná řešení.
Pomocí Assistant můžete také odstraňovat chyby výpočetního prostředí v poznámkovém bloku. Vizte Chyby prostředí pro ladění.
Nový počítač nereaguje nebo v protokolu událostí je chyba "síť výpočetní roviny je nesprávně nakonfigurována".
Problém: Po tom, co vypadá jako úspěšné nasazení pracovního prostoru, váš první testovací výpočetní výkon nereaguje. Po přibližně 20 až 30 minutách se při kontrole výpočetního protokolu událostí zobrazí chybová zpráva podobná této:
The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …
Příčina: Předchozí chybová zpráva indikuje, že směrování nebo brána firewall je nesprávná. Služba Azure Databricks si vyžádala instance virtuálních počítačů pro nové výpočty, ale nastalo dlouhé zpoždění při spuštění a připojení instance k řídicí rovině. Správce výpočetních prostředků ukončí instance a hlásí tuto chybu.
Doporučená oprava: Konfigurace sítě musí umožňovat úspěšné připojení instancí výpočetních uzlů k řídicí rovině Databricks. Pokud chcete zrychlit řešení potíží než s využitím výpočetních prostředků, můžete nasadit instanci virtuálního počítače do jedné z podsítí pracovního prostoru a provádět typické kroky pro řešení potíží se sítí, jako je nc, ping, telnetnebo traceroute.
Podívejte se na adresy řídicího panelu Azure Databricks pro přístupové domény, IP adresy a relé CNAME podle regionu. V případě úložiště artefaktů se ujistěte, že existuje úspěšná síťová cesta ke službě Azure Blob Storage.
Následující příklad používá oblast westusAzure:
# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443
# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443
# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443
# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306
# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443
Pokud se předchozí příkazy vrátí správně, může být síťová cesta správně nakonfigurovaná, ale pokud používáte bránu firewall, může se jednat o jiný problém. Brána firewall může mít hloubkovou kontrolu paketů, kontrolu SSL nebo něco jiného, co způsobuje selhání příkazů Azure Databricks. Pomocí instance virtuálního počítače v podsíti Azure Databricks spusťte následující příkaz a nahraďte <token> ho vaším osobním přístupovým tokenem a <workspace-url> adresou URL pro váš pracovní prostor:
curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions
Pokud předchozí požadavek selže, spusťte příkaz znovu s -k možností odebrat ověření SSL. Pokud to funguje, znamená to, že brána firewall způsobuje problém s certifikáty SSL.
Prohlédněte si certifikáty SSL spuštěním následujícího příkazu a nahraďte <workspace-url> adresou URL vašeho pracovního prostoru:
openssl s_client -showcerts -connect <workspace-url>:443
Předchozí příkaz zobrazí návratový kód a certifikáty Azure Databricks. Pokud se vrátí chyba, může být brána firewall chybně nakonfigurovaná.
Upozorňujeme, že problémy s protokolem SSL nejsou problémy se síťovými vrstvami. Při prohlížení provozu v bráně firewall se tyto problémy s protokolem SSL nezobrazují. Zobrazení zdrojových a cílových požadavků funguje podle očekávání.
Problémy s používáním metastoru nebo protokolu výpočetních událostí zahrnují události METASTORE_DOWN
Problém: Zdá se, že je váš pracovní prostor nastavený a můžete nastavit výpočetní prostředky, ale ve vašem METASTORE_DOWN máte události nebo se metastore nezdá, že funguje.
Doporučená oprava: Ověřte, jestli používáte firewall webových aplikací (WAF), jako je proxy squid. Členové výpočetních uzlů se musí připojit k několika službám, které nejsou kompatibilní s WAF.