Rozwiązywanie problemów i naprawianie błędów zadań

Załóżmy, że otrzymasz powiadomienie (na przykład za pośrednictwem powiadomienia e-mail, rozwiązania do monitorowania lub w interfejsie użytkownika zadań usługi Azure Databricks), że zadanie nie powiodło się w uruchomieniu zadania usługi Azure Databricks. Kroki opisane w tym artykule zawierają wskazówki ułatwiające zidentyfikowanie przyczyny niepowodzenia, sugestie dotyczące rozwiązywania wykrytych problemów oraz sposobu naprawy nieudanych przebiegów zadań.

Identyfikowanie przyczyny awarii

Aby znaleźć zadanie, które zakończyło się niepowodzeniem w interfejsie użytkownika zadań usługi Azure Databricks:

  1. Kliknij pozycję Jobs IconZadania na pasku bocznym.

  2. W kolumnie Nazwa kliknij nazwę zadania. Na karcie Uruchomienia są wyświetlane aktywne uruchomienia i ukończone uruchomienia, w tym wszystkie nieudane uruchomienia. Widok macierzy na karcie Uruchomienia zawiera historię przebiegów dla zadania, w tym pomyślne i nieudane uruchomienia dla każdego zadania zadania. Uruchomienie zadania może zakończyć się niepowodzeniem, ponieważ nie powiodło się lub zostało pominięte, ponieważ zadanie zależne nie powiodło się. Korzystając z widoku macierzy, można szybko zidentyfikować błędy zadań dla przebiegu zadania.

    Matrix view of job runs

  3. Umieść kursor na zadaniu, które zakończyło się niepowodzeniem, aby wyświetlić skojarzone metadane. Te metadane obejmują daty rozpoczęcia i zakończenia, stan, szczegóły klastra czasu trwania i, w niektórych przypadkach, komunikat o błędzie.

  4. Aby zidentyfikować przyczynę błędu, kliknij zadanie, które zakończyło się niepowodzeniem. Zostanie wyświetlona strona Szczegóły przebiegu zadania z wyświetlonymi danymi wyjściowymi zadania, komunikatem o błędzie i skojarzonymi metadanymi.

Rozwiązywanie problemów z przyczyną błędu

Zadanie mogło zakończyć się niepowodzeniem z kilku powodów, na przykład problem z jakością danych, błędną konfiguracją lub niewystarczającymi zasobami obliczeniowymi. Poniżej przedstawiono sugerowane kroki umożliwiające naprawienie niektórych typowych przyczyn niepowodzeń zadań:

  • Jeśli błąd jest związany z konfiguracją zadania, kliknij przycisk Edytuj zadanie. Konfiguracja zadania zostanie otwarta na nowej karcie. Zaktualizuj konfigurację zadania zgodnie z potrzebami i kliknij przycisk Zapisz zadanie.
  • Jeśli problem jest związany z zasobami klastra, na przykład niewystarczającymi wystąpieniami, istnieje kilka opcji:
    • Jeśli zadanie jest skonfigurowane do używania klastra zadań, rozważ użycie udostępnionego klastra ogólnego przeznaczenia.
    • Zmień konfigurację klastra. Kliknij pozycję Edytuj zadanie. W panelu Szczegóły zadania w obszarze Obliczenia kliknij pozycję Konfiguruj, aby skonfigurować klaster. Można zmienić liczbę procesów roboczych, typów wystąpień lub innych opcji konfiguracji klastra. Możesz również kliknąć pozycję Zamień , aby przełączyć się do innego dostępnego klastra. Aby upewnić się, że używasz optymalnych dostępnych zasobów, zapoznaj się z najlepszymi rozwiązaniami dotyczącymi konfiguracji klastra.
    • W razie potrzeby poproś administratora o zwiększenie limitów przydziału zasobów na koncie w chmurze i regionie, w którym wdrożono obszar roboczy.
  • Jeśli awaria jest spowodowana przekroczeniem maksymalnej liczby współbieżnych przebiegów, wykonaj jedną z następujących czynności:
    • Poczekaj na ukończenie innych przebiegów.
    • Kliknij pozycję Edytuj zadanie. W panelu Szczegóły zadania kliknij pozycję Edytuj współbieżne uruchomienia, wprowadź nową wartość dla opcji Maksymalna liczba współbieżnych uruchomień, a następnie kliknij przycisk Potwierdź.

W niektórych przypadkach przyczyna błędu może być nadrzędna od zadania; na przykład zewnętrzne źródło danych jest niedostępne. Nadal możesz skorzystać z funkcji uruchamiania naprawy omówionej w następnej sekcji po rozwiązaniu problemu zewnętrznego.

Ponowne uruchamianie nie powiodło się i pominięto zadania

Po zidentyfikowaniu przyczyny awarii można naprawić zakończone niepowodzeniem lub anulować zadania wielozadaniowe, uruchamiając tylko podzbiór nieudanych zadań i wszystkich zadań zależnych. Ponieważ pomyślne zadania i wszystkie zadania zależne od nich nie są uruchamiane ponownie, ta funkcja skraca czas i zasoby wymagane do odzyskania po nieudanych uruchomieniach zadań.

Przed naprawieniem uruchomienia zadania można zmienić ustawienia zadania lub zadania. Nieudane zadania są uruchamiane ponownie przy użyciu bieżących ustawień zadania i zadań. Jeśli na przykład zmienisz ścieżkę na notes lub ustawienie klastra, zadanie zostanie ponownie uruchomione przy użyciu zaktualizowanych ustawień notesu lub klastra.

Wyświetl historię wszystkich uruchomień zadań na stronie Szczegóły przebiegu zadania.

Uwaga

  • Jeśli co najmniej jedno zadanie współużytkuje klaster zadań, uruchomienie naprawy tworzy nowy klaster zadań. Jeśli na przykład oryginalny przebieg używał klastra my_job_clusterzadań, pierwszy przebieg naprawy używa nowego klastra my_job_cluster_v1zadań , co pozwala łatwo wyświetlić ustawienia klastra i klastra używane przez początkowe uruchomienie i wszystkie uruchomienia naprawy. Ustawienia dla programu my_job_cluster_v1 są takie same jak bieżące ustawienia dla programu my_job_cluster.
  • Naprawa jest obsługiwana tylko w przypadku zadań, które organizuje co najmniej dwa zadania.
  • Wartość Czasu trwania wyświetlana na karcie Uruchomienia zawiera czas pierwszego uruchomienia do momentu zakończenia ostatniego uruchomienia naprawy. Jeśli na przykład przebieg zakończył się niepowodzeniem dwa razy i zakończył się powodzeniem w trzecim przebiegu, czas trwania obejmuje czas dla wszystkich trzech przebiegów.

Aby naprawić uruchomienie zadania, które zakończyło się niepowodzeniem:

  1. Kliknij link uruchomienia, który zakończył się niepowodzeniem w kolumnie Godzina rozpoczęcia tabeli przebiegów zadania, lub kliknij przebieg, który zakończył się niepowodzeniem w widoku macierzy. Zostanie wyświetlona strona Szczegóły uruchomienia zadania.
  2. Kliknij pozycję Napraw przebieg. Zostanie wyświetlone okno dialogowe Uruchamianie zadania naprawy z listą wszystkich nieudanych zadań i wszystkich zadań zależnych, które zostaną ponownie uruchomione.
  3. Aby dodać lub edytować parametry dla zadań do naprawy, wprowadź parametry w oknie dialogowym Uruchamianie zadania naprawy. Parametry wprowadzone w oknie dialogowym Uruchamianie zadania naprawy zastępują istniejące wartości. W kolejnych uruchomieniach naprawy można zwrócić parametr do oryginalnej wartości, usuwając klucz i wartość w oknie dialogowym Uruchamianie zadania naprawy.
  4. Kliknij przycisk Napraw przebieg w oknie dialogowym Uruchamianie zadania naprawy.
  5. Po zakończeniu przebiegu naprawy widok macierzy zostanie zaktualizowany o nową kolumnę dla naprawionego przebiegu. Wszystkie zadania zakończone niepowodzeniem, które były czerwone, powinny być teraz zielone, co oznacza pomyślne uruchomienie całego zadania.

Wyświetlanie niepowodzeń zadań ciągłych i zarządzanie nimi

Gdy kolejne niepowodzenia zadania ciągłego przekraczają próg, zadania usługi Azure Databricks używają wykładniczego wycofywania w celu ponawiania próby wykonania zadania. Gdy zadanie znajduje się w stanie wycofywania wykładniczego, w panelu Szczegóły zadania zostaną wyświetlone informacje, w tym:

  • Liczba kolejnych niepowodzeń.
  • Okres uruchamiania zadania bez błędu, który ma zostać uznany za zakończony powodzeniem.
  • Czas przed następnym ponowieniu próby, jeśli żaden przebieg nie jest obecnie aktywny.

Aby anulować aktywny przebieg, zresetuj okres ponawiania i uruchom nowe zadanie, kliknij przycisk Uruchom ponownie.