Używanie narzędzi Data Lake Tools for Visual Studio do nawiązywania połączenia z usługą Azure HDInsight i uruchamiania zapytań apache Hive

Dowiedz się, jak używać narzędzi Microsoft Azure Data Lake i Stream Analytics Tools for Visual Studio (Data Lake Tools). Użyj narzędzia , aby nawiązać połączenie z klastrami Apache Hadoop w usłudze Azure HDInsight i przesłać zapytania hive.

Aby uzyskać więcej informacji na temat korzystania z usługi HDInsight, zobacz Wprowadzenie do usługi HDInsight.

Możesz użyć narzędzia Data Lake Tools for Visual Studio do uzyskiwania dostępu do usług Azure Data Lake Analytics i HDInsight. Aby uzyskać informacje na temat narzędzi Data Lake Tools, zobacz Tworzenie skryptów U-SQL przy użyciu narzędzi Data Lake Tools for Visual Studio.

Wymagania wstępne

Aby ukończyć ten artykuł i użyć narzędzi Data Lake Tools for Visual Studio, potrzebne są następujące elementy:

Instalacja narzędzi Data Lake Tools for Visual Studio

Postępuj zgodnie z odpowiednimi instrukcjami, aby zainstalować narzędzia Data Lake Tools dla używanej wersji programu Visual Studio:

  • W przypadku programu Visual Studio 2017 lub Visual Studio 2019:

    Podczas instalacji programu Visual Studio upewnij się, że dołączysz obciążenie programowanie na platformie Azure lub magazyn danych i obciążenie przetwarzania .

    W przypadku istniejących instalacji programu Visual Studio przejdź do paska menu IDE i wybierz pozycję Narzędzia>Pobierz narzędzia i funkcje, aby otworzyć Instalator programu Visual Studio. Na karcie Obciążenia wybierz co najmniej obciążenie programistyczne platformy Azure (w obszarze Internet i chmura). Możesz też wybrać obciążenie Magazyn danych i przetwarzanie (w obszarze Inne zestawy narzędzi).

    Workload selection, Visual Studio Installer.

  • Dla programu Visual Studio 2015:

    Pobierz narzędzia Data Lake Tools. Należy wybrać wersję narzędzi Data Lake Tools zgodną z używaną wersją programu Visual Studio.

Aktualizowanie narzędzi Data Lake Tools for Visual Studio

Następnie upewnij się, że zaktualizujesz narzędzia Data Lake Tools do najnowszej wersji.

  1. Otwórz program Visual Studio.

  2. W oknie Start wybierz pozycję Kontynuuj bez kodu.

  3. Na pasku menu środowiska IDE programu Visual Studio wybierz pozycję Rozszerzenia Zarządzaj rozszerzeniami>.

  4. W oknie dialogowym Zarządzanie rozszerzeniami rozwiń węzeł Aktualizacje.

  5. Jeśli lista dostępnych aktualizacji obejmuje usługi Azure Data Lake i Narzędzia analityczne usługi Stream, wybierz ją. Następnie wybierz przycisk Aktualizuj . Po wyświetleniu i usunięciu okna dialogowego Pobieranie i instalowanie program Visual Studio dodaje rozszerzenie Azure Data Lake i Stream Analytic Tools do harmonogramu aktualizacji.

  6. Zamknij wszystkie okna programu Visual Studio. Zostanie wyświetlone okno dialogowe Instalator VSIX.

  7. Wybierz pozycję Licencja , aby odczytać postanowienia licencyjne, a następnie wybierz pozycję Zamknij , aby powrócić do okna dialogowego Instalator VSIX.

  8. Wybierz pozycję Modyfikuj. Rozpoczyna się instalacja aktualizacji rozszerzenia. Po pewnym czasie okno dialogowe zmieni się, aby pokazać, że zostało wykonane wprowadzanie modyfikacji. Wybierz pozycję Zamknij, a następnie uruchom ponownie program Visual Studio, aby ukończyć instalację.

Uwaga

Możesz użyć tylko narzędzi Data Lake Tools w wersji 2.3.0.0 lub nowszej, aby nawiązać połączenie z klastrami zapytań interaktywnych oraz uruchamiać zapytania interaktywne usługi Hive.

Nawiązywanie połączenia z subskrypcjami platformy Azure

Za pomocą narzędzi Data Lake Tools for Visual Studio można łączyć się z klastrami usługi HDInsight, wykonywać niektóre podstawowe operacje zarządzania i uruchamiać zapytania hive.

Uwaga

Aby uzyskać informacje na temat nawiązywania połączenia z ogólnym klastrem Hadoop, zobacz How to write and submit Hive queries using Visual Studio (Jak pisać i przesyłać zapytania hive przy użyciu programu Visual Studio).

Łączenie się z subskrypcją platformy Azure

Aby nawiązać połączenie z subskrypcją platformy Azure:

  1. Otwórz program Visual Studio.

  2. W oknie Start wybierz pozycję Kontynuuj bez kodu.

  3. Na pasku menu ŚRODOWISKA IDE wybierz pozycję Wyświetl>Eksploratora serwera.

  4. W Eksploratorze serwera kliknij prawym przyciskiem myszy pozycję Azure, wybierz Połączenie do subskrypcji platformy Microsoft Azure i ukończ proces uwierzytelniania. W Eksploratorze serwera rozwiń węzeł Azure>HDInsight, aby wyświetlić listę istniejących klastrów usługi HDInsight.

  5. Jeśli nie masz żadnych klastrów, utwórz je przy użyciu witryny Azure Portal, programu Azure PowerShell lub zestawu SDK usługi HDInsight. Aby uzyskać więcej informacji, zobacz Konfigurowanie klastrów w usłudze HDInsight.

    HDInsight cluster list, Server Explorer, Visual Studio.

  6. Rozwiń węzeł klastra usługi HDInsight. Klaster zawiera węzły baz danych Hive. Ponadto domyślne konto magazynu, wszelkie dodatkowe połączone konta magazynu i dziennik usługi Hadoop. Jednostki można rozwinąć.

Po nawiązaniu połączenia z subskrypcją platformy Azure można wykonać następujące zadania.

Połączenie na platformę Azure z poziomu programu Visual Studio

Nawiązywanie połączenia z witryną Azure Portal w programie Visual Studio:

  1. W Eksploratorze serwera rozwiń węzeł Azure>HDInsight i wybierz klaster.

  2. Kliknij prawym przyciskiem myszy klaster usługi HDInsight i wybierz polecenie Zarządzaj klastrem w witrynie Azure Portal.

Pytania dotyczące oferty i opinie z programu Visual Studio

Aby zadać pytania i przekazać opinię z programu Visual Studio:

  1. W Eksploratorze serwera wybierz pozycję Azure>HDInsight.

  2. Kliknij prawym przyciskiem myszy usługę HDInsight i wybierz forum MSDN , aby zadawać pytania, lub Prześlij opinię, aby przekazać opinię .

Uwaga

Obecnie jedynym typem klastra usługi HDInsight, z którym można się połączyć, jest typ programu Hive.

Aby połączyć klaster usługi HDInsight:

  1. Kliknij prawym przyciskiem myszy usługę HDInsight, a następnie wybierz pozycję Połącz klaster usługi HDInsight, aby wyświetlić okno dialogowe Łączenie klastra usługi HDInsight.

  2. Wprowadź adres URL Połączenie ion w formularzu https://CLUSTERNAME.azurehdinsight.net. Nazwa klastra automatycznie wypełnia część adresu URL nazwą klastra po przejściu do innego pola. Następnie wprowadź nazwę użytkownika i hasło, a następnie wybierz pozycję Dalej.

    Link a cluster, HDInsight, Visual Studio.

  3. Wybierz Zakończ. Jeśli łączenie klastra zakończy się pomyślnie, klaster zostanie wyświetlony w węźle usługi HDInsight .

Aby zaktualizować połączony klaster, kliknij prawym przyciskiem myszy klaster i wybierz polecenie Edytuj. Następnie można zaktualizować informacje o klastrze.

Edit a linked cluster, HDInsight, Visual Studio.

Eksplorowanie połączonych zasobów

Z poziomu Eksploratora serwera można zobaczyć domyślne konto magazynu i wszystkie połączone konta magazynu. Po rozwinięciu domyślnego konta magazynu można wyświetlić kontenery konta magazynu. Domyślne konto magazynu i domyślny kontener są oznaczone.

Data Lake Tools for Visual Studio linked resources in Server Explorer.

Kliknij prawym przyciskiem myszy kontener i wybierz pozycję Wyświetl kontener , aby wyświetlić zawartość kontenera. Po otwarciu kontenera możesz użyć przycisków paska narzędzi, aby odświeżyć listę zawartości, przekazać obiekt blob, usunąć wybrane obiekty blob, otworzyć obiekt blob i pobrać wybrane obiekty blob (Zapisz jako).

Container list and blob operations, HDInsight cluster, Visual Studio.

Uruchamianie interakcyjnych zapytań Apache Hive

Apache Hive to infrastruktura magazynu danych oparta na platformie Hadoop. Usługa Hive jest używana do wykonywania podsumowań danych, zapytań i analizy. Możesz użyć narzędzi Data Lake Tools for Visual Studio, aby uruchomić zapytania usługi Hive z poziomu programu Visual Studio. Aby uzyskać więcej informacji na temat programu Hive, zobacz Co to jest apache Hive i HiveQL w usłudze Azure HDInsight?.

Zapytanie interakcyjne w usłudze Azure HDInsight używa programu Hive w usłudze LLAP w usłudze Apache Hive 2.1. Zapytanie interakcyjne umożliwia interakcję ze złożonymi zapytaniami w stylu magazynu danych na dużych, przechowywanych zestawach danych. Uruchamianie zapytań Hive w zapytaniu interaktywnym jest znacznie szybsze niż tradycyjne zadania wsadowe Hive.

Uwaga

Uruchamianie interakcyjnych zapytań Hive jest możliwe tylko po nawiązaniu połączenia z klastrem interakcyjnych zapytań usługi HDInsight.

Możesz również użyć narzędzi Data Lake Tools for Visual Studio, aby zobaczyć, co znajduje się w zadaniu hive. Narzędzia Data Lake Tools for Visual Studio zbierają i ujawniają dzienniki Yarn dla wybranych zadań Hive.

W Eksploratorze serwera wybierz pozycję Azure>HDInsight i wybierz klaster. Ten węzeł jest punktem wyjścia w Eksploratorze serwera dla sekcji, które należy wykonać.

Zobacz tabelę hivesampletable

Wszystkie klastry usługi HDInsight mają domyślną przykładową tabelę Hive o nazwie hivesampletable.

W klastrze wybierz pozycję Bazy danych>hive domyślne>hivesampletable.

  • Aby wyświetlić hivesampletable schemat:

    Rozwiń węzeł hivesampletable. Wyświetlane są nazwy i typy hivesampletable danych kolumn.

  • Aby wyświetlić hivesampletable dane:

    Kliknij prawym przyciskiem myszy element hivesampletable, a następnie wybierz pozycję Wyświetl 100 pierwszych wierszy. Lista 100 wyników zostanie wyświetlona w oknie Tabela hive: hivesampletable . Ta akcja jest równoważna uruchamianiu następującego zapytania Hive przy użyciu sterownika Hive ODBC:

    SELECT * FROM hivesampletable LIMIT 100

    Liczbę wierszy można dostosować, zmieniając liczbę wierszy. Z listy rozwijanej możesz wybrać 50, 100, 200 lub 1000 wierszy.

Tworzenie tabel programu Hive

Do utworzenia tabeli programu Hive można użyć graficznego interfejsu użytkownika lub zapytań programu Hive. Aby uzyskać informacje o korzystaniu z zapytań Hive, zobacz Tworzenie i uruchamianie zapytań Hive.

  1. W klastrze wybierz pozycję Domyślne bazy danych>Hive.

  2. Kliknij prawym przyciskiem myszy pozycję domyślną, a następnie wybierz pozycję Utwórz tabelę.

  3. Skonfiguruj tabelę.

  4. Wybierz przycisk Utwórz tabelę, aby przesłać zadanie, które tworzy nową tabelę Programu Hive.

    Create Table window, Hive, HDInsight cluster, Visual Studio.

Tworzenie i uruchamianie zapytań Hive

Masz dwie opcje umożliwiające utworzenie i uruchomienie zapytań Hive:

  • Tworzenie zapytań ad hoc
  • Tworzenie aplikacji Hive

Tworzenie zapytania ad hoc

Aby utworzyć i uruchomić zapytanie ad hoc:

  1. Kliknij prawym przyciskiem myszy klaster, w którym chcesz uruchomić zapytanie, a następnie wybierz polecenie Napisz zapytanie Hive.

  2. Wprowadź zapytanie hive.

    Edytor Hive obsługuje funkcję IntelliSense. Narzędzia Data Lake Tools for Visual Studio obsługują ładowanie zdalnych metadanych podczas edycji skryptu Hive. Jeśli na przykład wpiszesz , SELECT * FROMfunkcja IntelliSense wyświetli listę wszystkich sugerowanych nazw tabel. Po określeniu nazwy tabeli funkcja IntelliSense wyświetla nazwy kolumn. Narzędzia obsługują większość instrukcji DML programu Hive, podzapytań i wbudowanych sterowników UDF.

    IntelliSense example 1, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    IntelliSense example 2, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    Uwaga

    Funkcja IntelliSense zasugeruje tylko metadane klastra zaznaczonego na pasku narzędzi usługi HDInsight.

    Oto przykładowe zapytanie, którego można użyć:

    SELECT devicemodel, COUNT(devicemodel) AS deviceCount
    FROM hivesampletable
    GROUP BY devicemodel
    ORDER BY devicemodel
    
  3. Wybierz tryb wykonywania:

    • Interaktywne

      Na pierwszej liście rozwijanej wybierz pozycję Interakcyjne, a następnie wybierz pozycję Wykonaj.

      Interactive mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

    • Batch

      Z pierwszej listy rozwijanej wybierz pozycję Batch, a następnie wybierz pozycję Prześlij. Możesz też wybrać ikonę listy rozwijanej obok pozycji Prześlij i wybrać pozycję Zaawansowane.

      Batch mode, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Jeśli wybierzesz opcję zaawansowanego przesyłania, zostanie wyświetlone okno dialogowe Prześlij skrypt . Skonfiguruj nazwę zadania, argumenty, dodatkowe konfiguracje i katalog stanu dla skryptu.

      Submit Script dialog box, Hive ad-hoc query, HDInsight cluster, Visual Studio.

      Uwaga

      Nie można przesyłać partii do klastrów zapytań interakcyjnych. Musisz użyć trybu interaktywnego.

Tworzenie aplikacji Hive

Tworzenie i uruchamianie rozwiązania Hive:

  1. Na pasku menu wybierz pozycję Plik>nowy>projekt.

  2. W oknie Tworzenie nowego projektu wybierz pole wyszukiwania i wpisz Hive. Następnie wybierz pozycję Aplikacja Hive i wybierz pozycję Dalej.

  3. W oknie Konfigurowanie nowego projektu wprowadź nazwę projektu, wybierz lub utwórz projekt Lokalizacja, a następnie wybierz pozycję Utwórz.

    New Hive application, Configure your new project window, HDInsight Visual Studio.

  4. W Eksploratorze rozwiązań kliknij dwukrotnie plik Script.hql, aby otworzyć skrypt.

Wyświetlanie podsumowania i danych wyjściowych zadania

Podsumowanie zadania różni się nieco między trybem usługi Batch i trybem interaktywnym .

Hive job summary windows, batch and interactive mode, Visual Studio.

Użyj ikony Odśwież , aby zaktualizować stan do momentu zmiany stanu zadania na Zakończono.

  • Aby uzyskać szczegółowe informacje o zadaniu w trybie usługi Batch , wybierz linki u dołu, aby wyświetlić zapytanie zadania, dane wyjściowe zadania lub dziennik zadań albo wyświetlić dzienniki usługi Yarn.

  • Aby uzyskać szczegółowe informacje o zadaniu w trybie interaktywnym, zobacz okienka Dane wyjściowe i HiveServer2.

    Hive interactive job output, HDInsight cluster, Visual Studio.

Wyświetlanie grafu zadań

Obecnie wykresy zadań są wyświetlane tylko dla zadań Hive, które używają narzędzia Tez jako aparatu wykonywania. Aby uzyskać informacje na temat włączania aplikacji Tez, zobacz Co to jest apache Hive i HiveQL w usłudze Azure HDInsight?. Zobacz również: Używanie narzędzia Apache Tez zamiast redukcji mapy.

Aby wyświetlić wszystkie operatory wewnątrz wierzchołka, kliknij dwukrotnie wierzchołki grafu zadania. Możesz też wskazać konkretny operator, aby wyświetlić więcej jego szczegółów.

Nawet jeśli tez jest określony jako aparat wykonywania, wykres zadania może nie pojawić się, jeśli żadna aplikacja Tez nie zostanie uruchomiona. Taka sytuacja może wystąpić, ponieważ zadanie nie zawiera instrukcji DML. Lub dlatego, że instrukcje DML mogą zwracać się bez uruchamiania aplikacji Tez. Na przykład SELECT * FROM table1 nie uruchomi aplikacji Tez.

Apache Hive job graph, Visual Studio.

Wyświetlanie szczegółów wykonywania zadań

Na wykresie zadania możesz wybrać pozycję Szczegóły wykonywania zadania, aby uzyskać ustrukturyzowane i wizualizowane informacje dotyczące zadań Hive. Możesz również uzyskać więcej szczegółów zadania. Jeśli wystąpią problemy z wydajnością, możesz użyć widoku, aby uzyskać więcej szczegółów dotyczących problemu. Możesz na przykład pobrać informacje o sposobie działania każdego zadania i szczegółowych informacji o poszczególnych zadaniach (odczyt/zapis danych, harmonogram/godzina rozpoczęcia/zakończenia i inne). Skorzystaj z informacji, aby dostosować konfiguracje zadań lub architekturę systemu w oparciu o wizualizowane informacje.

Task Execution View window, Data Lake Visual Studio Tools.

Wyświetlanie zadań Hive

Istnieje możliwość wyświetlenia zapytań dotyczących zadań, danych wyjściowych zadań, dzienników zadań oraz dzienników Yarn dla zadań Hive.

W najnowszej wersji narzędzi możesz zobaczyć, co znajduje się w zadaniach hive, zbierając i wyświetlając dzienniki usługi Yarn. Dziennik Yarn może być pomocny w badaniu problemów z wydajnością. Aby uzyskać więcej informacji na temat sposobu zbierania dzienników usługi Yarn przez usługę HDInsight, zobacz Access Apache Hadoop YARN application logs (Uzyskiwanie dostępu do dzienników aplikacji usługi Apache Hadoop YARN).

Aby wyświetlić zadania Hive:

  1. Kliknij prawym przyciskiem myszy klaster usługi HDInsight i wybierz polecenie Wyświetl zadania.

    View Jobs, Apache Hive, HDInsight cluster, Visual Studio.

    Zostanie wyświetlona lista zadań Hive uruchomionych w klastrze.

  2. Wybierz zadanie. W oknie Podsumowanie zadania hive wybierz jeden z następujących linków:

    • Zapytanie zadania
    • Dane wyjściowe zadania
    • Dziennik zadań
    • Dziennik usługi Yarn

Uruchamianie skryptów apache Pig

  1. Na pasku menu wybierz pozycję Plik>nowy>projekt.

  2. W oknie Start wybierz pole wyszukiwania i wprowadź ciąg Pig. Następnie wybierz pozycję Aplikacja pig i wybierz przycisk Dalej.

  3. W oknie Konfigurowanie nowego projektu wprowadź nazwę projektu i wybierz lub utwórz lokalizację dla projektu. Następnie wybierz Utwórz.

  4. W okienku Eksplorator rozwiązań IDE kliknij dwukrotnie plik Script.pig, aby otworzyć skrypt.

Opinie i znane problemy

  • Problem, w którym wyniki uruchamiane z wartościami null nie są wyświetlane jako rozwiązane. W przypadku zablokowania na tym problemie należy skontaktować się z zespołem pomocy technicznej.

  • Skrypt HQL tworzony przez program Visual Studio jest kodowany w zależności od ustawienia regionu lokalnego użytkownika. Skrypt nie jest wykonywany poprawnie, jeśli został przesłany do klastra jako plik binarny.

Następne kroki

Ten artykuł zawierał informacje dotyczące sposobu używania pakietu Data Lake Tools for Visual Studio w celu nawiązywania połączenia z klastrami usługi HDInsight z programu Visual Studio. Przedstawiono też sposób uruchamiania zapytania Hive.