Felsöka beräkningsproblem

Den här artikeln innehåller resurser som du kan använda i händelse av att du behöver felsöka beräkningsbeteendet på din arbetsyta. Ämnena i den här artikeln handlar om uppstartsproblem relaterade till datorsystem.

Andra felsökningsartiklar finns i:

Använd assistenten för att felsöka fel i beräkningsmiljön

Databricks Assistant kan hjälpa dig att diagnostisera och föreslå korrigeringar för biblioteksinstallationsfel.

På sidan Bibliotek för beräkning visas en Gnistrande ikon. Diagnostisera fel-knappen visas bredvid det misslyckade paketnamnet och på den detaljerade modalfönster som visas när du klickar på det misslyckade paketet. Klicka på Glitter-ikonen. Diagnostisera fel för att använda assistenten för felsökning. Assistenten diagnostiserar felet och föreslår möjliga lösningar.

Använd Assistent för att felsöka installationsfel för beräkningsbiblioteket.

Du kan också använda assistenten för att felsöka fel i beräkningsmiljön i en notebook-fil. Se Felsöka miljöfel.

En ny beräkning svarar inte eller "beräkningsplanets nätverk är felkonfigurerat" händelseloggfel

Problem: Efter vad som verkar vara en lyckad arbetsytedistribution svarar inte den första testberäkningen. Efter cirka 20–30 minuter, om du kontrollerar händelseloggen för beräkning, visas ett felmeddelande som liknar följande:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Orsak: Föregående felmeddelande anger att routningen eller brandväggen är felaktig. Azure Databricks begärde VM-instanser för en ny beräkningsresurs, men påträffade en lång fördröjning i väntan på att den virtuella datorinstansen skulle starta upp och ansluta till kontrollplanet. Beräkningshanteraren avslutar instanserna och rapporterar det här felet.

Rekommenderad korrigering: Nätverkskonfigurationen måste tillåta att beräkningsnodinstanser ansluter till Databricks-kontrollplanet. Om du vill ha en snabbare felsökningsteknik än att använda en beräkning kan du distribuera en virtuell datorinstans till ett av arbetsyteundernäten och utföra vanliga nätverksfelsökningssteg som nc, ping, telneteller traceroute.

Se Azure Databricks-kontrollplansadresser för åtkomstdomäner, IP-adresser och relä-CNAMEs per region. För Artifact Storage kontrollerar du att det finns en lyckad nätverkssökväg till Azure Blob Storage.

I följande exempel används Azure-regionen westus:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Om de tidigare kommandona returneras korrekt kan nätverkssökvägen vara korrekt konfigurerad, men det kan finnas ett annat problem om du använder en brandvägg. Brandväggen kan ha djup paketinspektion, SSL-inspektion eller något annat som gör att Azure Databricks-kommandon misslyckas. Med hjälp av en VM-instans i Azure Databricks-undernätet kör du följande kommando och ersätter <token> med din personliga åtkomsttoken och <workspace-url> med URL:en för din arbetsyta:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Om den föregående begäran misslyckas kör du kommandot igen med alternativet -k för att ta bort SSL-verifieringen. Om detta fungerar orsakar brandväggen ett problem med SSL-certifikat.

Titta på SSL-certifikaten genom att köra följande kommando och ersätta <workspace-url> med URL:en för din arbetsyta:

openssl s_client -showcerts -connect <workspace-url>:443

Föregående kommando visar returkoden och Azure Databricks-certifikaten. Om det returnerar ett fel kan brandväggen vara felkonfigurerad.

Observera att SSL-problem inte är problem med nätverksnivå. Att visa trafik i brandväggen visar inte dessa SSL-problem. Att granska start- och slutdestinationsförfrågningar fungerar som förväntat.

Problem med användningen av metadatalagret eller beräkningshändelseloggen inkluderar METASTORE_DOWN-händelser

Problem: Din arbetsyta verkar vara konfigurerad och du kan konfigurera beräkning, men du har METASTORE_DOWN händelser i beräkningshändelseloggen, eller så verkar metaarkivet inte fungera.

Rekommenderad korrigering: Bekräfta om du använder en brandvägg för webbaserade program (WAF) som Squid-proxy. Beräkningsmedlemmar måste ansluta till flera tjänster som inte fungerar via en WAF.