Dzienniki diagnostyczne i metryki programu Workflow Orchestration Manager

Uwaga

Menedżer orkiestracji przepływu pracy jest obsługiwany przez platformę Apache Airflow.

W tym artykule przedstawiono kroki opisane w następujących krokach:

  • Włącz dzienniki diagnostyczne i metryki dla programu Workflow Orchestration Manager w usłudze Azure Data Factory.
  • Wyświetlanie dzienników i metryk.
  • Uruchom zapytanie.
  • Monitoruj metryki i ustawiaj system alertów w kierowanym niepowodzeniu grafu acyklicznego (DAG).

Wymagania wstępne

Wymagana jest subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.

Włączanie dzienników diagnostycznych i metryk dla programu Workflow Orchestration Manager

  1. Otwórz zasób usługi Data Factory i wybierz pozycję Ustawienia diagnostyczne w okienku po lewej stronie. Następnie wybierz pozycję Dodaj ustawienie diagnostyczne.

    Zrzut ekranu przedstawiający lokalizację karty Dzienniki diagnostyczne w usłudze Data Factory.

  2. Wypełnij nazwę ustawień diagnostycznych. Wybierz następujące kategorie dla dzienników przepływów powietrza:

    • Dzienniki wykonywania zadań przepływu powietrza
    • Dzienniki procesów roboczych przepływu powietrza
    • Dzienniki przetwarzania daG przepływu powietrza
    • Dzienniki harmonogramu przepływów powietrza
    • Dzienniki internetowe przepływu powietrza
    • Jeśli wybierzesz pozycję Wszystkie metryki, różne metryki usługi Data Factory zostaną udostępnione do monitorowania lub zgłaszania alertów. Metryki te obejmują metryki dotyczące działania usługi Data Factory i środowiska Integration Runtime orchestration Manager, takie jak AirflowIntegrationRuntimeCpuUsage i AirflowIntegrationRuntimeMemory.

    Zrzut ekranu przedstawiający dzienniki do wybrania dla środowiska Airflow.

  3. W obszarze Szczegóły miejsca docelowego zaznacz pole wyboru Wyślij do obszaru roboczego usługi Log Analytics.

    Zrzut ekranu przedstawiający wybieranie obszaru roboczego usługi Log Analytics jako miejsca docelowego dla dzienników diagnostycznych.

  4. Wybierz pozycję Zapisz.

Wyświetlanie dzienników

  1. Po dodaniu ustawień diagnostycznych można je znaleźć na liście w sekcji Ustawienia diagnostyczne. Aby uzyskać dostęp do dzienników i wyświetlić je, wybierz skonfigurowany obszar roboczy usługi Log Analytics.

    Zrzut ekranu przedstawiający wybieranie adresu URL obszaru roboczego usługi Log Analytics.

  2. W sekcji Maksymalizuj środowisko usługi Log Analytics wybierz pozycję Wyświetl dzienniki.

    Zrzut ekranu przedstawiający wybieranie pozycji Wyświetl dzienniki.

  3. Zostanie przekierowany do obszaru roboczego usługi Log Analytics, w którym można zobaczyć, że wybrane tabele zostały zaimportowane automatycznie do obszaru roboczego.

    Zrzut ekranu przedstawiający obszar roboczy usługi Log Analytics.

Inne przydatne linki dla schematu:

Pisanie zapytania

  1. Zacznijmy od najprostszego zapytania, które zwraca wszystkie rekordy w pliku ADFAirflowTaskLogs. Możesz kliknąć dwukrotnie nazwę tabeli, aby dodać ją do okna zapytania. Możesz również wprowadzić nazwę tabeli bezpośrednio w oknie.

    Zrzut ekranu przedstawiający zapytanie Kusto w celu pobrania wszystkich dzienników.

  2. Aby zawęzić wyniki wyszukiwania, takie jak filtrowanie ich na podstawie określonego identyfikatora zadania, możesz użyć następującego zapytania:

    ADFAirflowTaskLogs
    | where DagId == "<your_dag_id>"
    and TaskId == "<your_task_id>"
    

Podobnie można tworzyć zapytania niestandardowe zgodnie z potrzebami przy użyciu dowolnych tabel dostępnych w programie LogManagement.

Aby uzyskać więcej informacji, zobacz:

Monitorowanie metryk

Usługa Data Factory oferuje kompleksowe metryki dla środowisk Integration Runtime airflow, co umożliwia efektywne monitorowanie wydajności środowiska Airflow Integration Runtime i ustanawianie mechanizmów zgłaszania alertów w razie potrzeby.

  1. Otwórz zasób usługi Data Factory.

  2. W okienku po lewej stronie w sekcji Monitorowanie wybierz pozycję Metryki.

    Zrzut ekranu przedstawiający lokalizację karty Metryki w usłudze Data Factory.

  3. Wybierz metryka >Metryki metryki>metryki zakresu, którą chcesz monitorować.

    Zrzut ekranu przedstawiający metryki do wybrania.

  4. Zapoznaj się z wykresem wielowierszowym, który wizualizuje procent użycia procesora CPU środowiska Integration Runtime i rozmiar torby Dag Runtime.

    Zrzut ekranu przedstawiający wielowierszowy wykres metryk.

  5. Możesz skonfigurować regułę alertu, która jest wyzwalana, gdy metryki spełniają określone warunki. Aby uzyskać więcej informacji, zobacz Omówienie alertów usługi Azure Monitor.

  6. Wybierz pozycję Zapisz na pulpicie nawigacyjnym po zakończeniu wykresu lub inny wykres zniknie.

    Zrzut ekranu przedstawiający pozycję Zapisz na pulpicie nawigacyjnym.

Metryki przepływu powietrza

W poniższej tabeli wymieniono metryki dostępne dla programu Workflow Orchestration Manager. Nagłówki tabeli to:

  • Metryka: nazwa wyświetlana metryki wyświetlana wyświetlana w witrynie Azure Portal.
  • Nazwa w interfejsie API REST: nazwa metryki określona w interfejsie API REST.
  • Opis: Opis metryki.
  • Jednostka: Jednostka miary.
  • Agregacja: domyślny typ agregacji. Prawidłowe wartości to Average, Minimum, Maximum, Total i Count.
  • Wymiary: wymiary dostępne dla metryki.
  • Ziarna czasu: interwały, w których próbkowana jest metryka. Na przykład PT1M wskazuje, że metryka jest próbkowana co minutę, PT30M co 30 minut, PT1H co godzinę itd.
  • Eksportowanie ds: czy metryka jest eksportowana do dzienników usługi Azure Monitor za pośrednictwem ustawień diagnostycznych.
Metric Nazwa w interfejsie API REST opis Jednostka Agregacja Wymiary Ziarna czasu Eksportowanie ds
Błąd przekroczenia limitu czasu zadania selera środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeCeleryTaskTimeoutError AirflowTaskTimeout Liczba błędów zgłaszanych podczas publikowania zadania w usłudze Celery Broker. Count Łącznie IntegrationRuntimeName PT1M Nie.
Airflow Integration Runtime Collect DB Dags AirflowIntegrationRuntimeCollectDBDags Liczba milisekund pobieranych do pobierania wszystkich serializowanych grup DAG z bazy danych. Milisekundy Średnia IntegrationRuntimeName PT1M Nie.
Procent użycia procesora cpu środowiska Airflow Integration Runtime AirflowIntegrationRuntimeCpuPercentage Procent użycia procesora CPU środowiska Airflow Integration Runtime. Procent Średnia IntegrationRuntimeName, ContainerName PT1M Nie.
Użycie pamięci środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeCpuUsage Millicores używane przez środowisko Airflow Integration Runtime wskazujące zasoby procesora CPU używane w tysięcznych rdzeniach procesora CPU. Millicores Średnia IntegrationRuntimeName, ContainerName PT1M Tak
Rozmiar worka Dag Integration Runtime środowiska Airflow AirflowIntegrationRuntimeDagBagSize Liczba grup DAG znalezionych podczas uruchamiania skanowania przez harmonogram w oparciu o jego konfigurację. Count Łącznie IntegrationRuntimeName PT1M Nie.
Wyjątki wywołania zwrotnego środowiska Airflow Integration Runtime dag AirflowIntegrationRuntimeDagCallbackExceptions Liczba wyjątków zgłoszonych z wywołań zwrotnych DAG. W przypadku wystąpienia wyjątków oznacza to, że wywołanie zwrotne języka DAG nie działa. Count Łącznie IntegrationRuntimeName PT1M Nie.
Błąd odświeżania pliku DAG środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGFileRefreshError Liczba błędów ładowania wszystkich plików DAG. Count Łącznie IntegrationRuntimeName PT1M Nie.
Błędy importowania przetwarzania dag środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGProcessingImportErrors Liczba błędów podczas próby analizowania plików DAG. Count Łącznie IntegrationRuntimeName PT1M Nie.
Czas ostatniego trwania przetwarzania DAG środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGProcessingLastDuration Kilka sekund potrzebnych do załadowania określonego pliku DAG. Milisekundy Średnia IntegrationRuntimeName, DagFile PT1M Nie.
Przetwarzanie DAG środowiska Airflow Integration Runtime w ciągu ostatnich sekund temu AirflowIntegrationRuntimeDAGProcessingLastRunSecondsAgo Sekundy od czasu <ostatniego przetworzenia dag_file> . Sekundy Średnia IntegrationRuntimeName, DagFile PT1M Nie.
Stoiska narzędzia DaG ProcessingManager środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGProcessingManagerStalls Liczba utkniętych w martwym punkcie DagFileProcessorManager. Count Łącznie IntegrationRuntimeName PT1M Nie.
Procesy przetwarzania DAG środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGProcessingProcesses Względna liczba aktualnie uruchomionych procesów analizowania języka DAG. (Na przykład ta delta jest ujemna, gdy od czasu wysłania ostatniej metryki procesy zostały ukończone). Count Łącznie IntegrationRuntimeName PT1M Nie.
Limity czasu procesora przetwarzania DAG środowiska Airflow Integration Runtime AirflowIntegrationRuntimeDAGProcessingProcessorTimeouts Liczba procesorów plików, które zostały zabite, ponieważ trwało zbyt długo. Sekundy Średnia IntegrationRuntimeName PT1M Nie.
Łączny czas analizowania całkowitego czasu analizowania środowiska Airflow Integration Runtime daG AirflowIntegrationRuntimeDAGProcessingTotalParseTime Kilka sekund potrzebnych do skanowania i importowania dag_processing.file_path_queue_size plików DAG. Sekundy Średnia IntegrationRuntimeName PT1M Nie.
Airflow Integration Runtime DAG Run Dependency Check AirflowIntegrationRuntimeDAGRunDependencyCheck Liczba milisekund w celu sprawdzenia zależności dag. Milisekundy Średnia IntegrationRuntimeName, DagId PT1M Nie.
Czas uruchomienia środowiska Airflow Integration Runtime DAG zakończył się niepowodzeniem AirflowIntegrationRuntimeDAGRunDurationFailed Sekundy potrzebne do DagRun osiągnięcia stanu niepowodzenia. Milisekundy Średnia IntegrationRuntimeName, DagId PT1M Nie.
Powodzenie czasu trwania przebiegu przebiegu środowiska Airflow Integration Runtime DAG AirflowIntegrationRuntimeDAGRunDurationSuccess Sekundy potrzebne do osiągnięcia stanu powodzenia DagRun . Milisekundy Średnia IntegrationRuntimeName, DagId PT1M Nie.
Opóźnienie planowania pierwszego zadania w środowisku Airflow Integration Runtime DAG AirflowIntegrationRuntimeDAGRunFirstTaskSchedulingDelay Liczba sekund między pierwszym zadaniem start_date a oczekiwanym uruchomieniem DagRun . Milisekundy Średnia IntegrationRuntimeName, DagId PT1M Nie.
Opóźnienie harmonogramu uruchamiania środowiska Airflow Integration Runtime DAG AirflowIntegrationRuntimeDAGRunScheduleDelay Sekundy opóźnienia między zaplanowaną DagRun datą rozpoczęcia a rzeczywistą DagRun datą rozpoczęcia. Milisekundy Średnia IntegrationRuntimeName, DagId PT1M Nie.
Funkcja wykonawczego środowiska Airflow Integration Runtime — otwarte miejsca AirflowIntegrationRuntimeExecutorOpenSlots Liczba otwartych miejsc w funkcji wykonawczej. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zadania wykonywane w kolejce środowiska Airflow Integration Runtime AirflowIntegrationRuntimeExecutorQueuedTasks Liczba zadań w kolejce w funkcji wykonawczej. Count Łącznie IntegrationRuntimeName PT1M Nie.
Funkcja wykonawcza środowiska Integration Runtime airflow z uruchomionymi zadaniami AirflowIntegrationRuntimeExecutorRunningTasks Liczba uruchomionych zadań w funkcji wykonawczej. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zakończenie zadania środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeJobEnd Liczba zakończonych <zadań job_name> , na przykład i SchedulerJobLocalTaskJob. Count Łącznie IntegrationRuntimeName, Job PT1M Nie.
Błąd pulsu środowiska Airflow Integration Runtime AirflowIntegrationRuntimeJobHeartbeatFailure Liczba nieudanych pulsów dla <zadania job_name> , na przykład i SchedulerJobLocalTaskJob. Count Łącznie IntegrationRuntimeName, Job PT1M Nie.
Uruchamianie zadania środowiska Airflow Integration Runtime AirflowIntegrationRuntimeJobStart Liczba uruchomionych <zadań job_name> , na przykład i SchedulerJobLocalTaskJob. Count Łącznie IntegrationRuntimeName, Job PT1M Nie.
Procent pamięci środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeMemoryPercentage Procent pamięci używany przez środowiska Integration Runtime airflow. Procent Średnia IntegrationRuntimeName, ContainerName PT1M Tak
Liczba węzłów środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeNodeCount Count Średnia IntegrationRuntimeName, ComputeNodeSize PT1M Tak
Błędy operatora środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeOperatorFailures Łączne błędy operatorów. Count Łącznie IntegrationRuntimeName, Operator PT1M Nie.
Sukces operatora środowiska Airflow Integration Runtime AirflowIntegrationRuntimeOperatorSuccesses Łączna liczba sukcesów operatorów. Count Łącznie IntegrationRuntimeName, Operator PT1M Nie.
Otwarte miejsca puli środowiska Integration Runtime airflow AirflowIntegrationRuntimePoolOpenSlots Liczba otwartych miejsc w puli. Count Łącznie IntegrationRuntimeName, Pool PT1M Nie.
Miejsca w kolejce puli środowiska Integration Runtime systemu Airflow AirflowIntegrationRuntimePoolQueuedSlots Liczba miejsc w kolejce w puli. Count Łącznie IntegrationRuntimeName, Pool PT1M Nie.
Uruchomiona pula środowiska Airflow Integration Runtime AirflowIntegrationRuntimePoolRunningSlots Liczba uruchomionych miejsc w puli. Count Łącznie IntegrationRuntimeName, Pool PT1M Nie.
Zadania zagęszające pulę środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimePoolStarvingTasks Liczba głodowych zadań w puli. Count Łącznie IntegrationRuntimeName, Pool PT1M Nie.
Sekcja o krytycznym znaczeniu harmonogramu środowiska Airflow Integration Runtime AirflowIntegrationRuntimeSchedulerCriticalSectionBusy Liczba razy proces harmonogramu próbował uzyskać blokadę w sekcji krytycznej (wymaganej do wysłania zadań do wykonawcy) i wykrył, że został zablokowany przez inny proces. Count Łącznie IntegrationRuntimeName PT1M Nie.
Czas trwania sekcji krytycznej harmonogramu środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeSchedulerCriticalSectionDuration Milisekundy wydane w sekcji krytycznej pętli harmonogramu. Tylko jeden harmonogram może w danym momencie wprowadzać tę pętlę. Milisekundy Średnia IntegrationRuntimeName PT1M Nie.
Airflow Integration Runtime Scheduler nieudane próby wiadomości e-mail sla AirflowIntegrationRuntimeSchedulerFailedSLAEmailAttempts Liczba nieudanych prób powiadomienia e-mail w umowie SLA. Count Łącznie IntegrationRuntimeName PT1M Nie.
Pulsy harmonogramów środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeSchedulerHeartbeat Pulsy harmonogramu. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zadania oddzielone w harmonogramie środowiska Integration Runtime przepływu powietrza AirflowIntegrationRuntimeSchedulerOrphanedTasksAdopted Liczba oddzielonych zadań przyjętych przez harmonogram. Count Łącznie IntegrationRuntimeName PT1M Nie.
Wyczyszczone zadania oddzielone w harmonogramie środowiska Airflow Integration Runtime AirflowIntegrationRuntimeSchedulerOrphanedTasksCleared Liczba oddzielonych zadań wyczyszczone przez harmonogram. Count Łącznie IntegrationRuntimeName PT1M Nie.
Plik wykonywalny zadań harmonogramu harmonogramu środowiska Airflow Integration Runtime AirflowIntegrationRuntimeSchedulerTasksExecutable Liczba zadań gotowych do wykonania (ustawiona na kolejkę) w odniesieniu do limitów puli, współbieżności języka DAG, stanu funkcji wykonawczej i priorytetu. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zadania harmonogramu środowiska Airflow Integration Runtime zabite zewnętrznie AirflowIntegrationRuntimeSchedulerTasksKilledExternally Liczba zadań zabitych zewnętrznie. Count Łącznie IntegrationRuntimeName PT1M Nie.
Uruchomione zadania harmonogramu środowiska Airflow Integration Runtime AirflowIntegrationRuntimeSchedulerTasksRunning Count Łącznie IntegrationRuntimeName PT1M Nie.
Zadania harmonogramu środowiska Airflow Integration Runtime — zagęszczanie AirflowIntegrationRuntimeSchedulerTasksStarving Liczba zadań, których nie można zaplanować z powodu braku otwartego miejsca w puli. Count Łącznie IntegrationRuntimeName PT1M Nie.
Uruchomione wystąpienia zadań środowiska Airflow Integration Runtime AirflowIntegrationRuntimeStartedTaskInstances Count Łącznie IntegrationRuntimeName, , DagIdTaskId PT1M Nie.
Wystąpienie zadania środowiska Airflow Integration Runtime utworzone przy użyciu operatora AirflowIntegrationRuntimeTaskInstanceCreatedUsingOperator Liczba wystąpień zadań utworzonych dla określonego operatora. Count Łącznie IntegrationRuntimeName, Operator PT1M Nie.
Czas trwania wystąpienia zadania środowiska Airflow Integration Runtime AirflowIntegrationRuntimeTaskInstanceDuration Milisekundy Średnia IntegrationRuntimeName, , DagIdTaskID PT1M Nie.
Błędy wystąpienia zadania środowiska Airflow Integration Runtime AirflowIntegrationRuntimeTaskInstanceFailures Błędy wystąpień zadań ogólnych. Count Łącznie IntegrationRuntimeName PT1M Nie.
Ukończono wystąpienie zadania środowiska Airflow Integration Runtime AirflowIntegrationRuntimeTaskInstanceFinished Ukończono ogólne wystąpienia zadań. Count Łącznie IntegrationRuntimeName, , DagId, , TaskIdState PT1M Nie.
Wystąpienie zadania środowiska Airflow Integration Runtime zakończyło się wcześniej pomyślnie AirflowIntegrationRuntimeTaskInstancePreviouslySucceeded Liczba poprzednio zakończonych powodzeniem wystąpień zadań. Count Łącznie IntegrationRuntimeName PT1M Nie.
Powodzenie wystąpienia zadania środowiska Airflow Integration Runtime AirflowIntegrationRuntimeTaskInstanceSuccesses Ogólne sukcesy wystąpienia zadania. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zadanie środowiska Airflow Integration Runtime usunięte z języka DAG AirflowIntegrationRuntimeTaskRemovedFromDAG Liczba zadań usuniętych dla określonej grupy DAG. (Oznacza to, że zadanie już nie istnieje w języku DAG). Count Łącznie IntegrationRuntimeName, DagId PT1M Nie.
Zadanie środowiska Airflow Integration Runtime przywrócone do języka DAG AirflowIntegrationRuntimeTaskRestoredToDAG Liczba przywróconych zadań dla określonej grupy DAG. (Oznacza to, że wystąpienie zadania, które wcześniej znajdowało się w stanie USUNIĘTE w bazie danych, jest dodawane do pliku DAG). Count Łącznie IntegrationRuntimeName, DagId PT1M Nie.
Wyzwalacze środowiska Airflow Integration Runtime zablokowały główny wątek AirflowIntegrationRuntimeTriggersBlockedMainThread Liczba wyzwalaczy, które zablokowały główny wątek (prawdopodobnie nie były one w pełni asynchroniczne). Count Łącznie IntegrationRuntimeName PT1M Nie.
Wyzwalacze środowiska Integration Runtime przepływu powietrza nie powiodły się AirflowIntegrationRuntimeTriggersFailed Liczba wyzwalaczy, które wystąpiły przed wyzwoleniem zdarzenia. Count Łącznie IntegrationRuntimeName PT1M Nie.
Uruchomione wyzwalacze środowiska Airflow Integration Runtime AirflowIntegrationRuntimeTriggersRunning Liczba wyzwalaczy aktualnie uruchomionych dla wyzwalacza (opisanych przez nazwę hosta). Count Łącznie IntegrationRuntimeName PT1M Nie.
Wyzwalacze środowiska Integration Runtime przepływu powietrza zakończyły się pomyślnie AirflowIntegrationRuntimeTriggersSucceeded Liczba wyzwalaczy, które wyzwolły co najmniej jedno zdarzenie. Count Łącznie IntegrationRuntimeName PT1M Nie.
Zabite zadania zombie środowiska Airflow Integration Runtime AirflowIntegrationRuntimeZombiesKilled Zabite zadania zombie. Count Łącznie IntegrationRuntimeName PT1M Nie.

Aby uzyskać więcej informacji, zobacz Obsługiwane metryki dla microsoft.DataFactory/fabryk.