Use Job Browser and Job View for Azure Data Lake Analytics (Korzystanie z przeglądarki zadań i widoku zadań dla usługi Azure Data Lake Analytics)

Artykuł
12/20/2023

Ważne

Usługa Azure Data Lake Analytics wycofana 29 lutego 2024 r. Dowiedz się więcej z tego ogłoszenia.

Na potrzeby analizy danych organizacja może używać usługi Azure Synapse Analytics lub Microsoft Fabric.

Archiwa usługi Azure Data Lake Analytics przesyłają zadania w magazynie zapytań. Z tego artykułu dowiesz się, jak używać przeglądarki zadań i widoku zadań w Azure Data Lake Tools for Visual Studio w celu znalezienia informacji historycznych o zadaniu.

Domyślnie usługa Data Lake Analytics archiwizowa zadania przez 30 dni. Okres wygaśnięcia można skonfigurować z poziomu Azure Portal przez skonfigurowanie dostosowanych zasad wygasania. Po wygaśnięciu nie będzie można uzyskać dostępu do informacji o zadaniu.

Wymagania wstępne

Zobacz Wymagania wstępne dotyczące narzędzi Data Lake Tools for Visual Studio.

Otwórz przeglądarkę zadań

Uzyskaj dostęp do przeglądarki zadań za pośrednictwem Eksploratora>serwera platformy Azure> Data Lake Analytics> Jobs w programie Visual Studio. Za pomocą przeglądarki zadań można uzyskać dostęp do magazynu zapytań konta Data Lake Analytics. Przeglądarka zadań wyświetla magazyn zapytań po lewej stronie, wyświetla podstawowe informacje o zadaniu i Widok zadania po prawej stronie ze szczegółowymi informacjami o zadaniu.

Widok zadania

Widok zadania zawiera szczegółowe informacje o zadaniu. Aby otworzyć zadanie, możesz kliknąć dwukrotnie zadanie w przeglądarce zadań lub otworzyć je z menu usługi Data Lake, klikając pozycję Widok zadania. Powinno zostać wyświetlone okno dialogowe wypełnione adresem URL zadania.

Przeglądarka zadań programu Visual Studio narzędzi Data Lake Tools

Widok zadania zawiera:

Podsumowanie zadania

Odśwież widok zadania, aby wyświetlić najnowsze informacje o uruchomionych zadaniach.
- Stan zadania (graf):
  
  Stan zadania przedstawia fazy zadania:
  - Przygotowywanie: przekaż skrypt do chmury, skompilując i optymalizując skrypt przy użyciu usługi kompilowania.
  - W kolejce: zadania są ustawiane w kolejce, gdy oczekują na wystarczającą ilość zasobów lub zadania przekraczają maksymalny limit współbieżnych zadań na konto. Ustawienie priorytetu określa sekwencję zadań w kolejce — im mniejszą liczbę, tym wyższy priorytet.
  - Uruchomione: zadanie jest rzeczywiście uruchomione na twoim koncie Data Lake Analytics.
  - Finalizowanie: zadanie jest ukończone (na przykład finalizowanie pliku).
    
    Zadanie może zakończyć się niepowodzeniem w każdej fazie. Na przykład błędy kompilacji w fazie przygotowywania, błędy przekroczenia limitu czasu w fazie kolejki i błędy wykonywania w fazie uruchomionej itp.
- Informacje podstawowe
  
  Podstawowe informacje o zadaniu są wyświetlane w dolnej części panelu Podsumowanie zadania.
  - Wynik zadania: powodzenie lub niepowodzenie. Zadanie może zakończyć się niepowodzeniem w każdej fazie.
  - Całkowity czas trwania: czas zegara ściany (czas trwania) między przesłaniem czasu a czasem zakończenia.
  - Łączny czas obliczeń: suma czasu wykonywania każdego wierzchołka, którą można wziąć pod uwagę jako czas wykonywania zadania tylko w jednym wierzchołku. Zobacz Total Wierzchołki, aby uzyskać więcej informacji na temat wierzchołka.
  - Czas przesyłania/rozpoczęcia/zakończenia: czas, kiedy usługa Data Lake Analytics odbiera przesłanie zadania/rozpoczyna uruchamianie zadania/kończy zadanie pomyślnie lub nie.
  - Kompilacja/Kolejkowane/Uruchomione: czas zegara ściany spędzony w fazie przygotowywanie/kolejkowanie/uruchamianie.
  - Konto: konto Data Lake Analytics używane do uruchamiania zadania.
  - Autor: użytkownik, który przesłał zadanie, może to być konto rzeczywistej osoby lub konto systemowe.
  - Priorytet: priorytet zadania. Im niższy numer, tym wyższy priorytet. Ma to wpływ tylko na sekwencję zadań w kolejce. Ustawienie wyższego priorytetu nie wywłaszcza uruchomionych zadań.
  - Równoległość: żądana maksymalna liczba współbieżnych jednostek usługi Azure Data Lake Analytics (ADLAU), znana również jako wierzchołki. Obecnie jeden wierzchołek jest równy jednej maszynie wirtualnej z dwoma rdzeniami wirtualnymi i sześcio gb pamięci RAM, choć może to zostać uaktualnione w przyszłości Data Lake Analytics aktualizacji.
  - Bajty po lewej: bajty, które należy przetworzyć do momentu zakończenia zadania.
  - Odczyt/zapis bajtów: bajty, które zostały odczytane/zapisane od uruchomienia zadania.
  - Całkowita liczba wierzchołków: zadanie jest podzielone na wiele elementów pracy, każdy kawałek pracy jest nazywany wierzchołkiem. Ta wartość opisuje liczbę elementów pracy, z których składa się zadanie. Wierzchołek można rozważyć jako podstawową jednostkę procesu, znaną również jako jednostka usługi Azure Data Lake Analytics (ADLAU), a wierzchołki mogą być uruchamiane równolegle.
  - Ukończono/Uruchomiono/Niepowodzenie: liczba ukończonych/uruchomionych/nieudanych wierzchołków. Wierzchołki mogą zakończyć się niepowodzeniem z powodu awarii kodu użytkownika i systemu, ale ponawianie prób systemowych kończy się niepowodzeniem wierzchołków automatycznie kilka razy. Jeśli wierzchołek nadal kończy się niepowodzeniem po ponowieniu próby, całe zadanie zakończy się niepowodzeniem.
Wykres zadań

Skrypt U-SQL reprezentuje logikę przekształcania danych wejściowych na dane wyjściowe. Skrypt jest kompilowany i zoptymalizowany pod kątem fizycznego planu wykonywania w fazie przygotowywania. Wykres zadań to pokazanie fizycznego planu wykonania. Na poniższym diagramie przedstawiono proces:

Zadanie jest podzielone na wiele elementów pracy. Każdy element pracy jest nazywany wierzchołkiem. Wierzchołki są pogrupowane jako superwierzchołki (nazywane również etapem) i wizualizowane jako Wykres zadań. Zielone tablice etapowe na wykresie zadania pokazują etapy.

Każdy wierzchołek na etapie wykonuje taką samą pracę z różnymi fragmentami tych samych danych. Jeśli na przykład masz plik z danymi o jednym TB i istnieje setki wierzchołków odczytu z niego, każdy z nich odczytuje fragment. Te wierzchołki są grupowane na tym samym etapie i wykonują tę samą pracę na różnych fragmentach tego samego pliku wejściowego.
- Informacje o etapie
  
  W określonym etapie niektóre liczby są wyświetlane na tablicy.
  - SV1 Extract: nazwa etapu o nazwie według liczby i metody operacji.
  - 84 wierzchołki: całkowita liczba wierzchołków na tym etapie. Na rysunku pokazano, ile elementów pracy jest podzielonych na tym etapie.
  - 12,90 s/wierzchołek: średni czas wykonywania wierzchołka dla tego etapu. Ten rysunek jest obliczany przez sumę (każdy czas wykonywania wierzchołka) / (łączna liczba wierzchołków). Oznacza to, że jeśli można przypisać wszystkie wierzchołki wykonywane równolegle, cały etap zostanie ukończony w 12,90 s. Oznacza to również, że jeśli wszystkie prace na tym etapie są wykonywane szeregowo, koszt będzie #vertices * średni czas.
  - 850 895 napisanych wierszy: łączna liczba wierszy zapisanych na tym etapie.
  - R/W: Ilość danych odczytanych/zapisanych na tym etapie w bajtach.
  - Kolory: kolory są używane na etapie, aby wskazać inny stan wierzchołka.
    - Zielony wskazuje, że wierzchołek zakończył się pomyślnie.
    - Pomarańczowy wskazuje, że wierzchołek jest ponawiany. Ponowiony wierzchołek zakończył się niepowodzeniem, ale zostanie ponowiony automatycznie i pomyślnie przez system, a ogólny etap zostanie ukończony pomyślnie. Jeśli wierzchołek został ponowiony, ale nadal zakończył się niepowodzeniem, kolor zmieni kolor na czerwony, a całe zadanie nie powiodło się.
    - Czerwony wskazuje na niepowodzenie, co oznacza, że pewien wierzchołek został ponowiony kilka razy przez system, ale nadal nie powiódł się. Ten scenariusz powoduje niepowodzenie całego zadania.
    - Niebieski oznacza, że określony wierzchołek jest uruchomiony.
    - Biały wskazuje, że wierzchołek czeka. Wierzchołek może czekać na zaplanowanie po udostępnieniu wierzchołka ADLAU lub może czekać na dane wejściowe, ponieważ jego dane wejściowe mogą nie być gotowe.
    Więcej szczegółów dotyczących etapu można znaleźć, umieszczając kursor myszy na jednym stanie:
- Wierzchołki: opisuje szczegóły wierzchołków, na przykład liczbę wierzchołków w sumie, liczbę wierzchołków, czy zakończyły się niepowodzeniem, czy nadal działają/oczekują itd.
- Odczyt danych między zasobnikami/wewnątrz: pliki i dane są przechowywane w wielu zasobnikach w rozproszonym systemie plików. W tym miejscu opisano, ile danych zostało odczytanych w tym samym zasobniku lub zasobniku krzyżowym.
- Łączny czas obliczeń: suma czasu wykonania każdego wierzchołka na etapie, którą można wziąć pod uwagę, gdy wszystkie prace na etapie są wykonywane tylko w jednym wierzchołku.
- Dane i wiersze zapisane/odczytane: wskazuje, ile danych lub wierszy zostały odczytane/zapisane lub muszą być odczytywane.
- Błędy odczytu wierzchołków: opisuje, ile wierzchołków nie powiodło się podczas odczytu danych.
- Duplikat wierzchołka odrzuca: jeśli wierzchołek działa zbyt wolno, system może zaplanować wiele wierzchołków, aby uruchomić ten sam fragment pracy. Nadmiarowe wierzchołki zostaną odrzucone po pomyślnym zakończeniu jednego z wierzchołków. Duplikat wierzchołka odrzuca rekordy liczby wierzchołków, które są odrzucane jako duplikaty na etapie.
- Odwołania wierzchołków: Wierzchołek zakończył się pomyślnie, ale z pewnych powodów należy ponownie uruchomić go później. Jeśli na przykład podrzędny wierzchołek traci pośrednie dane wejściowe, zostanie wyświetlony monit o ponowne uruchomienie nadrzędnego wierzchołka.
- Wykonania harmonogramu wierzchołków: całkowity czas zaplanowany wierzchołków.
- Odczytane dane minimalne/średnie/maksymalne wierzchołków: minimalna/średnia/maksimum wszystkich danych odczytu wierzchołków.
- Czas trwania: czas zegara ściany jest potrzebny do załadowania profilu, aby zobaczyć tę wartość.
- Odtwarzanie zadania
  
  Data Lake Analytics uruchamia zadania i archiwizuje wierzchołki uruchamiane informacje o zadaniach, takie jak czas uruchamiania wierzchołków, zatrzymywanie, niepowodzenie i sposób ich ponawiania itp. Wszystkie informacje są automatycznie rejestrowane w magazynie zapytań i przechowywane w profilu zadania. Profil zadania można pobrać za pomocą opcji "Załaduj profil" w widoku zadania. Po pobraniu profilu zadania możesz wyświetlić odtwarzanie zadania.
  
  Odtwarzanie zadań jest uosobieniem wizualizacji tego, co się stało w klastrze. Pomaga to watch postęp wykonywania zadania i wizualne wykrywanie anomalii wydajności i wąskich gardeł w bardzo krótkim czasie (zwykle mniej niż 30 s).
- Wyświetlanie mapy cieplnej zadania
  
  Mapę cieplną zadania można wybrać za pomocą listy rozwijanej Wyświetlanie w grafie zadań.
  
  Przedstawia on mapę cieplną we/wy, czas i przepływność zadania, za pomocą którego można znaleźć miejsce, w którym zadanie spędza większość czasu, czy też zadanie jest zadaniem granic we/wy itd.
  - Postęp: postęp wykonywania zadania, zobacz Informacje w informacjach o etapie.
  - Odczyt/zapis danych: mapa cieplna całkowitej ilości danych odczytanych/zapisanych na każdym etapie.
  - Czas obliczeniowy: mapa cieplna sum (czas wykonywania każdego wierzchołka), można wziąć pod uwagę, jak długo to potrwa, jeśli wszystkie prace na etapie są wykonywane tylko z jednym wierzchołkiem.
  - Średni czas wykonywania na węzeł: mapa cieplna sum (każdy czas wykonywania wierzchołka) / (Liczba wierzchołków). Oznacza to, że jeśli można przypisać wszystkie wierzchołki wykonywane równolegle, cały etap zostanie wykonany w tym przedziale czasu.
  - Przepływność wejściowa/wyjściowa: mapa cieplna przepływności wejściowej/wyjściowej dla każdego etapu, możesz potwierdzić, czy zadanie jest zadaniem powiązanym we/wy za pomocą tego zadania.
Operacje na metadanych

Niektóre operacje na metadanych można wykonać w skryscie U-SQL, na przykład utworzyć bazę danych, usunąć tabelę itp. Te operacje są wyświetlane w operacji metadanych po kompilacji. W tym miejscu można znaleźć asercji, tworzyć jednostki, usuwać jednostki.
Historia stanu

Historia stanu jest również wizualizowany w obszarze Podsumowanie zadania, ale możesz uzyskać więcej szczegółów tutaj. Szczegółowe informacje, takie jak czas przygotowywania zadania, kolejki, uruchamiania, kończenia działania. Możesz również sprawdzić, ile razy zadanie zostało skompilowane (ccsAttempts: 1), kiedy zadanie jest wysyłane do klastra faktycznie (Szczegóły: Wysyłanie zadania do klastra) itp.
Diagnostyka

Narzędzie automatycznie diagnozuje wykonywanie zadania. Alerty będą wyświetlane, gdy występują błędy lub problemy z wydajnością w zadaniach. Pamiętaj, że musisz pobrać profil, aby uzyskać pełne informacje tutaj.
- Ostrzeżenia: w tym miejscu jest wyświetlany alert z ostrzeżeniem kompilatora. Możesz wybrać link "x problemów", aby po pojawieniu się alertu uzyskać więcej szczegółów.
- Wierzchołek działa zbyt długo: jeśli jakikolwiek wierzchołek zabraknie czasu (powiedzmy 5 godzin), problemy zostaną znalezione tutaj.
- Użycie zasobów: jeśli przydzielono więcej lub za mało równoległości niż jest to konieczne, problemy zostaną znalezione tutaj. Możesz również wybrać pozycję Użycie zasobów, aby wyświetlić więcej szczegółów i wykonać scenariusze analizy co-jeżeli w celu znalezienia lepszej alokacji zasobów (aby uzyskać więcej szczegółów, zobacz ten przewodnik).
- Sprawdzanie pamięci: jeśli dowolny wierzchołek używa więcej niż 5 GB pamięci, problemy zostaną znalezione tutaj. Wykonanie zadania może zostać zabite przez system, jeśli używa więcej pamięci niż ograniczenie systemu.

Szczegóły zadania

Szczegóły zadania zawierają szczegółowe informacje o zadaniu, w tym skrypt, zasoby i widok wykonywania wierzchołka.

Szczegóły zadania usługi Azure Data Lake Analytics

Skrypt

Skrypt U-SQL zadania jest przechowywany w magazynie zapytań. W razie potrzeby możesz wyświetlić oryginalny skrypt U-SQL i ponownie go przesłać.
Zasoby

Dane wyjściowe kompilacji zadania można znaleźć w magazynie zapytań za pomocą zasobów. Na przykład możesz znaleźć "algebra.xml", który służy do wyświetlania wykresu zadań, zarejestrowanych zestawów itp.
Widok wykonywania wierzchołka

Zawiera on szczegóły wykonywania wierzchołków. Profil zadania archiwizowa wszystkie dzienniki wykonywania wierzchołków, takie jak łączna liczba odczytów/zapisów danych, środowisko uruchomieniowe, stan itp. W tym widoku można uzyskać więcej szczegółów na temat sposobu wykonywania zadania. Aby uzyskać więcej informacji, zobacz Use the Vertex Execution View in Data Lake Tools for Visual Studio (Używanie widoku wykonywania wierzchołka w narzędziach Data Lake Tools for Visual Studio).

Następne kroki

Aby rejestrować informacje diagnostyczne, zobacz Accessing diagnostics logs for Azure Data Lake Analytics (Dostęp do dzienników diagnostycznych usługi Azure Data Lake Analytics)
Aby uzyskać informacje na temat bardziej złożonego zapytania, zobacz temat Analizowanie dzienników witryn sieci Web przy użyciu usługi Azure Data Lake Analytics.
Aby użyć widoku wykonywania wierzchołków, zobacz Use the Vertex Execution View in Data Lake Tools for Visual Studio (Używanie widoku wykonywania wierzchołka w narzędziach Data Lake Tools for Visual Studio)