Udostępnij za pośrednictwem


Szybki start: tworzenie klastra Apache Hadoop w usłudze Azure HDInsight przy użyciu witryny Azure Portal

W tym artykule dowiesz się, jak tworzyć klastry usługi Apache Hadoop w usłudze HDInsight przy użyciu witryny Azure Portal, a następnie uruchamiać zadania usługi Apache Hive w usłudze HDInsight. Większość zadań usługi Hadoop to zadania wsadowe. Tworzysz klaster, uruchamiasz pewne zadania, a następnie usuwasz klaster. W tym artykule wykonasz wszystkie trzy zadania. Aby uzyskać szczegółowe wyjaśnienia dotyczące dostępnych konfiguracji, zobacz Konfigurowanie klastrów w usłudze HDInsight. Aby uzyskać więcej informacji na temat używania portalu do tworzenia klastrów, zobacz Tworzenie klastrów w portalu.

W tym przewodniku Szybki start użyjesz witryny Azure Portal do utworzenia klastra Hadoop w usłudze HDInsight. Klaster możesz utworzyć również przy użyciu szablonu usługi Azure Resource Manager.

Obecnie usługa HDInsight ma siedem różnych typów klastrów. Każdy typ klastra obsługuje inny zestaw składników. Wszystkie typy klastrów obsługują technologię Hive. Aby uzyskać listę składników obsługiwanych w usłudze HDInsight, zobacz artykuł Nowości w wersjach klastra Hadoop dostarczanych z usługą HDInsight.

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Tworzenie klastra Apache Hadoop

W tej sekcji utworzysz klaster usługi Hadoop w usłudze HDInsight przy użyciu witryny Azure Portal.

  1. Zaloguj się w witrynie Azure Portal.

  2. W menu górnym wybierz pozycję + Utwórz zasób.

    Utwórz zasób klastra usługi HDInsight.

  3. Wybierz pozycję Analiza>usługi Azure HDInsight, aby przejść do strony Tworzenie klastra usługi HDInsight.

  4. Na karcie Podstawowe podaj następujące informacje:

    Właściwości Opis
    Subskrypcja Z listy rozwijanej wybierz subskrypcję platformy Azure używaną dla klastra.
    Grupa zasobów Z listy rozwijanej wybierz istniejącą grupę zasobów lub wybierz pozycję Utwórz nową.
    Nazwa klastra Podaj globalnie unikatową nazwę. Nazwa może składać się z maksymalnie 59 znaków, w tym liter, cyfr i łączników. Pierwsze i ostatnie znaki nazwy nie mogą być łącznikami.
    Region (Region) Z listy rozwijanej wybierz region, w którym jest tworzony klaster. Wybierz lokalizację znajdującą się blisko, aby zapewnić lepszą wydajność.
    Typ klastra Wybierz pozycję Wybierz typ klastra. Następnie wybierz pozycję Hadoop jako typ klastra.
    Wersja Z listy rozwijanej wybierz wersję. Jeśli nie wiesz, co wybrać, użyj domyślnej wersji.
    Nazwa użytkownika i hasło logowania klastra Domyślna nazwa logowania to administrator. Hasło musi mieć długość co najmniej 10 znaków i musi zawierać co najmniej jedną cyfrę, jedną wielką literę i jedną małą literę, jeden znak niefanumeryczny (z wyjątkiem znaków ' ` "). Upewnij się, że nie udostępniasz typowych haseł, takich jak "Pass@word1".
    Nazwa użytkownika protokołu SSH (Secure Shell) Domyślna nazwa użytkownika to sshuser. Możesz podać inną nazwę użytkownika protokołu SSH.
    Używanie hasła logowania klastra dla protokołu SSH Zaznacz to pole wyboru, aby użyć tego samego hasła dla użytkownika SSH co użytkownik podany dla użytkownika logowania klastra.

    Wprowadzenie do usługi HDInsight w systemie Linux udostępnia podstawowe wartości klastra.

    Wybierz pozycję Dalej: Magazyn >> , aby przejść do ustawień magazynu.

  5. Na karcie Magazyn podaj następujące wartości:

    Właściwości opis
    Podstawowy typ magazynu Użyj wartości domyślnej usługi Azure Storage.
    Metoda wybierania Użyj wartości domyślnej Wybierz z listy.
    Konto magazynu podstawowego Użyj listy rozwijanej, aby wybrać istniejące konto magazynu lub wybierz pozycję Utwórz nowe. Jeśli tworzysz nowe konto, nazwa musi mieć długość od 3 do 24 znaków i może zawierać tylko cyfry i małe litery
    Kontener Użyj wartości wypełnianej automatycznie.

    Wprowadzenie do usługi HDInsight w systemie Linux udostępnia wartości magazynu klastra.

    Każdy klaster ma konto usługi Azure Storage lub Azure Data Lake Storage Gen2 zależność. Jest to nazywane domyślnym kontem magazynu. Klaster usługi HDInsight i jego domyślne konto magazynu muszą być kolokowane w tym samym regionie świadczenia usługi Azure. Usunięcie klastrów nie powoduje usunięcia konta magazynu.

    Wybierz kartę Przeglądanie i tworzenie .

  6. Na karcie Przeglądanie i tworzenie sprawdź wartości wybrane we wcześniejszych krokach.

    Zrzut ekranu przedstawiający podsumowanie wprowadzenia do klastra w usłudze HDInsight Linux.

  7. Wybierz pozycję Utwórz. Utworzenie klastra trwa około 20 minut.

    Po utworzeniu klastra w witrynie Azure Portal zostanie wyświetlona strona przeglądu klastra.

    Zrzut ekranu przedstawiający ustawienia klastra rozpoczynania pracy z usługą HDInsight Linux.

Uruchamianie zapytań technologii Apache Hive

Apache Hive jest najbardziej popularnym składnikiem używanym w usłudze HDInsight Istnieje wiele sposobów uruchamiania zadań Hive w usłudze HDInsight. W tym przewodniku Szybki start użyjesz widoku Ambari Hive z portalu. Aby poznać inne metody przesyłania zadań Hive, zobacz temat Używanie Hive w usłudze HDInsight.

Uwaga

Widok Apache Hive nie jest dostępny w usłudze HDInsight 4.0.

  1. Aby otworzyć narzędzie Ambari, na ekranie pokazanym na poprzednim zrzucie ekranu wybierz pozycję Pulpit nawigacyjny klastra. Możesz również przejść do https://ClusterName.azurehdinsight.net lokalizacji ClusterName klastra utworzonego w poprzedniej sekcji.

    Zrzut ekranu przedstawiający pulpit nawigacyjny rozpoczynania pracy z klastrem usługi HDInsight w systemie Linux.

  2. Wprowadź nazwę użytkownika Hadoop i hasło określone w podczas tworzenia klastra. Domyślna nazwa użytkownika to admin.

  3. Otwórz widok Hive View pokazany na poniższym zrzucie ekranu:

    Wybranie pozycji Widok programu Hive z poziomu narzędzia Ambari.

  4. Na karcie QUERY (ZAPYTANIE) wklej poniższe instrukcje HiveQL do arkusza:

    SHOW TABLES;
    

    Widok hive usługi HDInsight Edytor Power Query.

  5. Wybierz polecenie Wykonaj. Poniżej karty QUERY (ZAPYTANIE) zostanie wyświetlona karta RESULTS (WYNIKI) z informacjami o zadaniu.

    Po zakończeniu przetwarzania zapytania na karcie QUERY (ZAPYTANIE) są wyświetlane wyniki operacji. Powinna być widoczna jedna tabela o nazwie hivesampletable. Ta przykładowa tabela składnika Hive jest dostarczana z wszystkimi klastrami usługi HDInsight.

    Wyniki wyświetlania technologii Apache Hive w usłudze HDInsight.

  6. Powtórz kroki 4 i 5, aby uruchomić następujące zapytanie:

    SELECT * FROM hivesampletable;
    
  7. Można także zapisać wyniki zapytania. Wybierz przycisk menu z prawej strony i określ, czy chcesz pobrać wyniki jako plik CSV, czy zapisać je na koncie magazynu skojarzonym z klastrem.

    Zapisz wynik zapytania Apache Hive.

Po ukończeniu zadania hive możesz wyeksportować wyniki do bazy danych Azure SQL Database lub SQL Server, a także zwizualizować wyniki przy użyciu programu Excel. Aby uzyskać więcej informacji na temat korzystania z programu Hive w usłudze HDInsight, zobacz Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache Log4j file (Używanie technologii Apache Hive i HiveQL z usługą Apache Hadoop w usłudze HDInsight w celu przeanalizowania przykładowego pliku Apache Log4j).

Czyszczenie zasobów

Po zakończeniu pracy z przewodnikiem Szybki start możesz usunąć klaster. W usłudze HDInsight dane są przechowywane w usłudze Azure Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany. Opłaty są również naliczane za klaster usługi HDInsight, nawet jeśli nie jest używany. Ponieważ opłaty za klaster są wielokrotnie większe niż opłaty za magazyn, warto usunąć klastry, gdy nie są używane.

Uwaga

Jeśli natychmiast przejdziesz do następnego artykułu, aby dowiedzieć się, jak uruchamiać operacje ETL przy użyciu usługi Hadoop w usłudze HDInsight, warto zachować działanie klastra. Dzieje się tak dlatego, że w samouczku musisz ponownie utworzyć klaster usługi Hadoop. Jeśli jednak nie przejdziesz od razu do następnego artykułu, musisz teraz usunąć klaster.

Usuwanie klastra i/lub domyślnego konta magazynu

  1. Wróć do karty przeglądarki, na której znajduje się witryna Azure Portal. Musisz mieć otwartą stronę omówienia klastra. Jeśli chcesz tylko usunąć klaster, zachowując domyślne konto magazynu, wybierz pozycję Usuń.

    Usuwanie klastra w usłudze Azure HDInsight.

  2. Jeśli chcesz usunąć klaster i domyślne konto magazynu, wybierz nazwę grupy zasobów (wyróżnioną na poprzednim zrzucie ekranu), aby otworzyć stronę grupy zasobów.

  3. Wybierz pozycję Usuń grupę zasobów, aby usunąć grupę zasobów zawierającą klaster i domyślne konto magazynu. Uwaga: usunięcie grupy zasobów powoduje usunięcie konta magazynu. Jeśli chcesz zachować konta magazynu, wybierz opcję usunięcia tylko klastra.

Następne kroki

W tym przewodniku Szybki start przedstawiono sposób tworzenia klastra usługi HDInsight opartego na systemie Linux przy użyciu szablonu usługi Resource Manager oraz wykonywania podstawowych zapytań hive. W następnym artykule dowiesz się, jak przeprowadzić operację wyodrębniania, transformacji i ładowania (ETL, extract, transform, and load) przy użyciu usługi Hadoop w usłudze HDInsight.