Dzienniki diagnostyczne i metryki programu Workflow Orchestration Manager
Uwaga
Menedżer orkiestracji przepływu pracy jest obsługiwany przez platformę Apache Airflow.
W tym artykule przedstawiono kroki opisane w następujących krokach:
- Włącz dzienniki diagnostyczne i metryki dla programu Workflow Orchestration Manager w usłudze Azure Data Factory.
- Wyświetlanie dzienników i metryk.
- Uruchom zapytanie.
- Monitoruj metryki i ustawiaj system alertów w kierowanym niepowodzeniu grafu acyklicznego (DAG).
Wymagania wstępne
Wymagana jest subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
Włączanie dzienników diagnostycznych i metryk dla programu Workflow Orchestration Manager
Otwórz zasób usługi Data Factory i wybierz pozycję Ustawienia diagnostyczne w okienku po lewej stronie. Następnie wybierz pozycję Dodaj ustawienie diagnostyczne.
Wypełnij nazwę ustawień diagnostycznych. Wybierz następujące kategorie dla dzienników przepływów powietrza:
- Dzienniki wykonywania zadań przepływu powietrza
- Dzienniki procesów roboczych przepływu powietrza
- Dzienniki przetwarzania daG przepływu powietrza
- Dzienniki harmonogramu przepływów powietrza
- Dzienniki internetowe przepływu powietrza
- Jeśli wybierzesz pozycję Wszystkie metryki, różne metryki usługi Data Factory zostaną udostępnione do monitorowania lub zgłaszania alertów. Metryki te obejmują metryki dotyczące działania usługi Data Factory i środowiska Integration Runtime orchestration Manager, takie jak
AirflowIntegrationRuntimeCpuUsage
iAirflowIntegrationRuntimeMemory
.
W obszarze Szczegóły miejsca docelowego zaznacz pole wyboru Wyślij do obszaru roboczego usługi Log Analytics.
Wybierz pozycję Zapisz.
Wyświetlanie dzienników
Po dodaniu ustawień diagnostycznych można je znaleźć na liście w sekcji Ustawienia diagnostyczne. Aby uzyskać dostęp do dzienników i wyświetlić je, wybierz skonfigurowany obszar roboczy usługi Log Analytics.
W sekcji Maksymalizuj środowisko usługi Log Analytics wybierz pozycję Wyświetl dzienniki.
Zostanie przekierowany do obszaru roboczego usługi Log Analytics, w którym można zobaczyć, że wybrane tabele zostały zaimportowane automatycznie do obszaru roboczego.
Inne przydatne linki dla schematu:
- Dokumentacja dzienników usługi Azure Monitor — ADFAirflowSchedulerLogs | Microsoft Learn
- Dokumentacja dzienników usługi Azure Monitor — ADFAirflowTaskLogs | Microsoft Learn
- Dokumentacja dzienników usługi Azure Monitor — ADFAirflowWebLogs | Microsoft Learn
- Dokumentacja dzienników usługi Azure Monitor — ADFAirflowWorkerLogs | Microsoft Learn
- Dokumentacja dzienników usługi Azure Monitor — AirflowDagProcessingLogs | Microsoft Learn
Pisanie zapytania
Zacznijmy od najprostszego zapytania, które zwraca wszystkie rekordy w pliku
ADFAirflowTaskLogs
. Możesz kliknąć dwukrotnie nazwę tabeli, aby dodać ją do okna zapytania. Możesz również wprowadzić nazwę tabeli bezpośrednio w oknie.Aby zawęzić wyniki wyszukiwania, takie jak filtrowanie ich na podstawie określonego identyfikatora zadania, możesz użyć następującego zapytania:
ADFAirflowTaskLogs | where DagId == "<your_dag_id>" and TaskId == "<your_task_id>"
Podobnie można tworzyć zapytania niestandardowe zgodnie z potrzebami przy użyciu dowolnych tabel dostępnych w programie LogManagement
.
Aby uzyskać więcej informacji, zobacz:
- Samouczek usługi Log Analytics
- Omówienie język zapytań Kusto (KQL) — Azure Data Explorer | Microsoft Learn
Monitorowanie metryk
Usługa Data Factory oferuje kompleksowe metryki dla środowisk Integration Runtime airflow, co umożliwia efektywne monitorowanie wydajności środowiska Airflow Integration Runtime i ustanawianie mechanizmów zgłaszania alertów w razie potrzeby.
Otwórz zasób usługi Data Factory.
W okienku po lewej stronie w sekcji Monitorowanie wybierz pozycję Metryki.
Wybierz metryka >Metryki metryki>metryki zakresu, którą chcesz monitorować.
Zapoznaj się z wykresem wielowierszowym, który wizualizuje procent użycia procesora CPU środowiska Integration Runtime i rozmiar torby Dag Runtime.
Możesz skonfigurować regułę alertu, która jest wyzwalana, gdy metryki spełniają określone warunki. Aby uzyskać więcej informacji, zobacz Omówienie alertów usługi Azure Monitor.
Wybierz pozycję Zapisz na pulpicie nawigacyjnym po zakończeniu wykresu lub inny wykres zniknie.
Metryki przepływu powietrza
W poniższej tabeli wymieniono metryki dostępne dla programu Workflow Orchestration Manager. Nagłówki tabeli to:
- Metryka: nazwa wyświetlana metryki wyświetlana wyświetlana w witrynie Azure Portal.
- Nazwa w interfejsie API REST: nazwa metryki określona w interfejsie API REST.
- Opis: Opis metryki.
- Jednostka: Jednostka miary.
- Agregacja: domyślny typ agregacji. Prawidłowe wartości to Average, Minimum, Maximum, Total i Count.
- Wymiary: wymiary dostępne dla metryki.
- Ziarna czasu: interwały, w których próbkowana jest metryka. Na przykład PT1M wskazuje, że metryka jest próbkowana co minutę, PT30M co 30 minut, PT1H co godzinę itd.
- Eksportowanie ds: czy metryka jest eksportowana do dzienników usługi Azure Monitor za pośrednictwem ustawień diagnostycznych.
Metric | Nazwa w interfejsie API REST | opis | Jednostka | Agregacja | Wymiary | Ziarna czasu | Eksportowanie ds |
---|---|---|---|---|---|---|---|
Błąd przekroczenia limitu czasu zadania selera środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeCeleryTaskTimeoutError |
AirflowTaskTimeout Liczba błędów zgłaszanych podczas publikowania zadania w usłudze Celery Broker. |
Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Airflow Integration Runtime Collect DB Dags | AirflowIntegrationRuntimeCollectDBDags |
Liczba milisekund pobieranych do pobierania wszystkich serializowanych grup DAG z bazy danych. | Milisekundy | Średnia | IntegrationRuntimeName |
PT1M | Nie. |
Procent użycia procesora cpu środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeCpuPercentage |
Procent użycia procesora CPU środowiska Airflow Integration Runtime. | Procent | Średnia | IntegrationRuntimeName , ContainerName |
PT1M | Nie. |
Użycie pamięci środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeCpuUsage |
Millicores używane przez środowisko Airflow Integration Runtime wskazujące zasoby procesora CPU używane w tysięcznych rdzeniach procesora CPU. | Millicores | Średnia | IntegrationRuntimeName , ContainerName |
PT1M | Tak |
Rozmiar worka Dag Integration Runtime środowiska Airflow | AirflowIntegrationRuntimeDagBagSize |
Liczba grup DAG znalezionych podczas uruchamiania skanowania przez harmonogram w oparciu o jego konfigurację. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Wyjątki wywołania zwrotnego środowiska Airflow Integration Runtime dag | AirflowIntegrationRuntimeDagCallbackExceptions |
Liczba wyjątków zgłoszonych z wywołań zwrotnych DAG. W przypadku wystąpienia wyjątków oznacza to, że wywołanie zwrotne języka DAG nie działa. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Błąd odświeżania pliku DAG środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGFileRefreshError |
Liczba błędów ładowania wszystkich plików DAG. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Błędy importowania przetwarzania dag środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGProcessingImportErrors |
Liczba błędów podczas próby analizowania plików DAG. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Czas ostatniego trwania przetwarzania DAG środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGProcessingLastDuration |
Kilka sekund potrzebnych do załadowania określonego pliku DAG. | Milisekundy | Średnia | IntegrationRuntimeName , DagFile |
PT1M | Nie. |
Przetwarzanie DAG środowiska Airflow Integration Runtime w ciągu ostatnich sekund temu | AirflowIntegrationRuntimeDAGProcessingLastRunSecondsAgo |
Sekundy od czasu <ostatniego przetworzenia dag_file> . | Sekundy | Średnia | IntegrationRuntimeName , DagFile |
PT1M | Nie. |
Stoiska narzędzia DaG ProcessingManager środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGProcessingManagerStalls |
Liczba utkniętych w martwym punkcie DagFileProcessorManager . |
Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Procesy przetwarzania DAG środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGProcessingProcesses |
Względna liczba aktualnie uruchomionych procesów analizowania języka DAG. (Na przykład ta delta jest ujemna, gdy od czasu wysłania ostatniej metryki procesy zostały ukończone). | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Limity czasu procesora przetwarzania DAG środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeDAGProcessingProcessorTimeouts |
Liczba procesorów plików, które zostały zabite, ponieważ trwało zbyt długo. | Sekundy | Średnia | IntegrationRuntimeName |
PT1M | Nie. |
Łączny czas analizowania całkowitego czasu analizowania środowiska Airflow Integration Runtime daG | AirflowIntegrationRuntimeDAGProcessingTotalParseTime |
Kilka sekund potrzebnych do skanowania i importowania dag_processing.file_path_queue_size plików DAG. |
Sekundy | Średnia | IntegrationRuntimeName |
PT1M | Nie. |
Airflow Integration Runtime DAG Run Dependency Check | AirflowIntegrationRuntimeDAGRunDependencyCheck |
Liczba milisekund w celu sprawdzenia zależności dag. | Milisekundy | Średnia | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Czas uruchomienia środowiska Airflow Integration Runtime DAG zakończył się niepowodzeniem | AirflowIntegrationRuntimeDAGRunDurationFailed |
Sekundy potrzebne do DagRun osiągnięcia stanu niepowodzenia. |
Milisekundy | Średnia | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Powodzenie czasu trwania przebiegu przebiegu środowiska Airflow Integration Runtime DAG | AirflowIntegrationRuntimeDAGRunDurationSuccess |
Sekundy potrzebne do osiągnięcia stanu powodzenia DagRun . |
Milisekundy | Średnia | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Opóźnienie planowania pierwszego zadania w środowisku Airflow Integration Runtime DAG | AirflowIntegrationRuntimeDAGRunFirstTaskSchedulingDelay |
Liczba sekund między pierwszym zadaniem start_date a oczekiwanym uruchomieniem DagRun . |
Milisekundy | Średnia | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Opóźnienie harmonogramu uruchamiania środowiska Airflow Integration Runtime DAG | AirflowIntegrationRuntimeDAGRunScheduleDelay |
Sekundy opóźnienia między zaplanowaną DagRun datą rozpoczęcia a rzeczywistą DagRun datą rozpoczęcia. |
Milisekundy | Średnia | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Funkcja wykonawczego środowiska Airflow Integration Runtime — otwarte miejsca | AirflowIntegrationRuntimeExecutorOpenSlots |
Liczba otwartych miejsc w funkcji wykonawczej. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zadania wykonywane w kolejce środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeExecutorQueuedTasks |
Liczba zadań w kolejce w funkcji wykonawczej. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Funkcja wykonawcza środowiska Integration Runtime airflow z uruchomionymi zadaniami | AirflowIntegrationRuntimeExecutorRunningTasks |
Liczba uruchomionych zadań w funkcji wykonawczej. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zakończenie zadania środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeJobEnd |
Liczba zakończonych <zadań job_name> , na przykład i SchedulerJob LocalTaskJob . |
Count | Łącznie | IntegrationRuntimeName , Job |
PT1M | Nie. |
Błąd pulsu środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeJobHeartbeatFailure |
Liczba nieudanych pulsów dla <zadania job_name> , na przykład i SchedulerJob LocalTaskJob . |
Count | Łącznie | IntegrationRuntimeName , Job |
PT1M | Nie. |
Uruchamianie zadania środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeJobStart |
Liczba uruchomionych <zadań job_name> , na przykład i SchedulerJob LocalTaskJob . |
Count | Łącznie | IntegrationRuntimeName , Job |
PT1M | Nie. |
Procent pamięci środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeMemoryPercentage |
Procent pamięci używany przez środowiska Integration Runtime airflow. | Procent | Średnia | IntegrationRuntimeName , ContainerName |
PT1M | Tak |
Liczba węzłów środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeNodeCount |
Count | Średnia | IntegrationRuntimeName , ComputeNodeSize |
PT1M | Tak | |
Błędy operatora środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeOperatorFailures |
Łączne błędy operatorów. | Count | Łącznie | IntegrationRuntimeName , Operator |
PT1M | Nie. |
Sukces operatora środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeOperatorSuccesses |
Łączna liczba sukcesów operatorów. | Count | Łącznie | IntegrationRuntimeName , Operator |
PT1M | Nie. |
Otwarte miejsca puli środowiska Integration Runtime airflow | AirflowIntegrationRuntimePoolOpenSlots |
Liczba otwartych miejsc w puli. | Count | Łącznie | IntegrationRuntimeName , Pool |
PT1M | Nie. |
Miejsca w kolejce puli środowiska Integration Runtime systemu Airflow | AirflowIntegrationRuntimePoolQueuedSlots |
Liczba miejsc w kolejce w puli. | Count | Łącznie | IntegrationRuntimeName , Pool |
PT1M | Nie. |
Uruchomiona pula środowiska Airflow Integration Runtime | AirflowIntegrationRuntimePoolRunningSlots |
Liczba uruchomionych miejsc w puli. | Count | Łącznie | IntegrationRuntimeName , Pool |
PT1M | Nie. |
Zadania zagęszające pulę środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimePoolStarvingTasks |
Liczba głodowych zadań w puli. | Count | Łącznie | IntegrationRuntimeName , Pool |
PT1M | Nie. |
Sekcja o krytycznym znaczeniu harmonogramu środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeSchedulerCriticalSectionBusy |
Liczba razy proces harmonogramu próbował uzyskać blokadę w sekcji krytycznej (wymaganej do wysłania zadań do wykonawcy) i wykrył, że został zablokowany przez inny proces. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Czas trwania sekcji krytycznej harmonogramu środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeSchedulerCriticalSectionDuration |
Milisekundy wydane w sekcji krytycznej pętli harmonogramu. Tylko jeden harmonogram może w danym momencie wprowadzać tę pętlę. | Milisekundy | Średnia | IntegrationRuntimeName |
PT1M | Nie. |
Airflow Integration Runtime Scheduler nieudane próby wiadomości e-mail sla | AirflowIntegrationRuntimeSchedulerFailedSLAEmailAttempts |
Liczba nieudanych prób powiadomienia e-mail w umowie SLA. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Pulsy harmonogramów środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeSchedulerHeartbeat |
Pulsy harmonogramu. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zadania oddzielone w harmonogramie środowiska Integration Runtime przepływu powietrza | AirflowIntegrationRuntimeSchedulerOrphanedTasksAdopted |
Liczba oddzielonych zadań przyjętych przez harmonogram. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Wyczyszczone zadania oddzielone w harmonogramie środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeSchedulerOrphanedTasksCleared |
Liczba oddzielonych zadań wyczyszczone przez harmonogram. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Plik wykonywalny zadań harmonogramu harmonogramu środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeSchedulerTasksExecutable |
Liczba zadań gotowych do wykonania (ustawiona na kolejkę) w odniesieniu do limitów puli, współbieżności języka DAG, stanu funkcji wykonawczej i priorytetu. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zadania harmonogramu środowiska Airflow Integration Runtime zabite zewnętrznie | AirflowIntegrationRuntimeSchedulerTasksKilledExternally |
Liczba zadań zabitych zewnętrznie. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Uruchomione zadania harmonogramu środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeSchedulerTasksRunning |
Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. | |
Zadania harmonogramu środowiska Airflow Integration Runtime — zagęszczanie | AirflowIntegrationRuntimeSchedulerTasksStarving |
Liczba zadań, których nie można zaplanować z powodu braku otwartego miejsca w puli. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Uruchomione wystąpienia zadań środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeStartedTaskInstances |
Count | Łącznie | IntegrationRuntimeName , , DagId TaskId |
PT1M | Nie. | |
Wystąpienie zadania środowiska Airflow Integration Runtime utworzone przy użyciu operatora | AirflowIntegrationRuntimeTaskInstanceCreatedUsingOperator |
Liczba wystąpień zadań utworzonych dla określonego operatora. | Count | Łącznie | IntegrationRuntimeName , Operator |
PT1M | Nie. |
Czas trwania wystąpienia zadania środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeTaskInstanceDuration |
Milisekundy | Średnia | IntegrationRuntimeName , , DagId TaskID |
PT1M | Nie. | |
Błędy wystąpienia zadania środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeTaskInstanceFailures |
Błędy wystąpień zadań ogólnych. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Ukończono wystąpienie zadania środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeTaskInstanceFinished |
Ukończono ogólne wystąpienia zadań. | Count | Łącznie | IntegrationRuntimeName , , DagId , , TaskId State |
PT1M | Nie. |
Wystąpienie zadania środowiska Airflow Integration Runtime zakończyło się wcześniej pomyślnie | AirflowIntegrationRuntimeTaskInstancePreviouslySucceeded |
Liczba poprzednio zakończonych powodzeniem wystąpień zadań. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Powodzenie wystąpienia zadania środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeTaskInstanceSuccesses |
Ogólne sukcesy wystąpienia zadania. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zadanie środowiska Airflow Integration Runtime usunięte z języka DAG | AirflowIntegrationRuntimeTaskRemovedFromDAG |
Liczba zadań usuniętych dla określonej grupy DAG. (Oznacza to, że zadanie już nie istnieje w języku DAG). | Count | Łącznie | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Zadanie środowiska Airflow Integration Runtime przywrócone do języka DAG | AirflowIntegrationRuntimeTaskRestoredToDAG |
Liczba przywróconych zadań dla określonej grupy DAG. (Oznacza to, że wystąpienie zadania, które wcześniej znajdowało się w stanie USUNIĘTE w bazie danych, jest dodawane do pliku DAG). | Count | Łącznie | IntegrationRuntimeName , DagId |
PT1M | Nie. |
Wyzwalacze środowiska Airflow Integration Runtime zablokowały główny wątek | AirflowIntegrationRuntimeTriggersBlockedMainThread |
Liczba wyzwalaczy, które zablokowały główny wątek (prawdopodobnie nie były one w pełni asynchroniczne). | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Wyzwalacze środowiska Integration Runtime przepływu powietrza nie powiodły się | AirflowIntegrationRuntimeTriggersFailed |
Liczba wyzwalaczy, które wystąpiły przed wyzwoleniem zdarzenia. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Uruchomione wyzwalacze środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeTriggersRunning |
Liczba wyzwalaczy aktualnie uruchomionych dla wyzwalacza (opisanych przez nazwę hosta). | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Wyzwalacze środowiska Integration Runtime przepływu powietrza zakończyły się pomyślnie | AirflowIntegrationRuntimeTriggersSucceeded |
Liczba wyzwalaczy, które wyzwolły co najmniej jedno zdarzenie. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Zabite zadania zombie środowiska Airflow Integration Runtime | AirflowIntegrationRuntimeZombiesKilled |
Zabite zadania zombie. | Count | Łącznie | IntegrationRuntimeName |
PT1M | Nie. |
Aby uzyskać więcej informacji, zobacz Obsługiwane metryki dla microsoft.DataFactory/fabryk.