Azure HDInsight: Często zadawane pytania

Ten artykuł zawiera odpowiedzi na niektóre z najczęściej zadawanych pytań dotyczących sposobu uruchamiania usługi Azure HDInsight.

Tworzenie lub usuwanie klastrów usługi HDInsight

Jak mogę zaprowizować klaster usługi HDInsight?

Aby zapoznać się z typami klastrów usługi HDInsight i metodami aprowizacji, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Apache Hadoop, Apache Spark, Apache Kafka i nie tylko.

Jak mogę usunąć istniejący klaster usługi HDInsight?

Aby dowiedzieć się więcej na temat usuwania klastra, gdy nie jest już używany, zobacz Usuwanie klastra usługi HDInsight.

Spróbuj pozostawić co najmniej 30 do 60 minut między operacjami tworzenia i usuwania. W przeciwnym razie operacja może zakończyć się niepowodzeniem z następującym komunikatem o błędzie:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Jak mogę wybrać poprawną liczbę rdzeni lub węzłów dla mojego obciążenia?

Odpowiednia liczba rdzeni i innych opcji konfiguracji zależy od różnych czynników.

Aby uzyskać więcej informacji, zobacz Planowanie pojemności dla klastrów usługi HDInsight.

Jakie są różne typy węzłów w klastrze usługi HDInsight?

Zobacz Typy zasobów w klastrach usługi Azure HDInsight.

Jakie są najlepsze rozwiązania dotyczące tworzenia dużych klastrów usługi HDInsight?

  1. Zalecamy skonfigurowanie klastrów usługi HDInsight przy użyciu niestandardowej bazy danych Ambari w celu zwiększenia skalowalności klastra.
  2. Użyj usługi Azure Data Lake Storage Gen2 , aby utworzyć klastry usługi HDInsight, aby korzystać z wyższej przepustowości i innych cech wydajności usługi Azure Data Lake Storage Gen2.
  3. Węzły główne powinny być wystarczająco duże, aby pomieścić wiele usług głównych uruchomionych w tych węzłach.
  4. Niektóre konkretne obciążenia, takie jak zapytanie interakcyjne, również będą potrzebować większych węzłów usługi Zookeeper. Rozważ co najmniej osiem podstawowych maszyn wirtualnych.
  5. W przypadku technologii Hive i Spark użyj zewnętrznego magazynu metadanych Hive.

Pojedyncze składniki

Czy mogę zainstalować dodatkowe składniki w klastrze?

Tak. Aby zainstalować dodatkowe składniki lub dostosować konfigurację klastra, użyj:

  • Skrypty podczas tworzenia lub po jego utworzeniu. Skrypty są wywoływane za pomocą akcji skryptu. Akcja skryptu to opcja konfiguracji, której można użyć w witrynie Azure Portal, poleceniach cmdlet programu Windows PowerShell usługi HDInsight lub zestawie SDK platformy .NET usługi HDInsight. Tej opcji konfiguracji można używać z poziomu witryny Azure Portal, poleceń cmdlet programu Windows PowerShell usługi HDInsight lub zestawu SDK platformy .NET usługi HDInsight.

  • Platforma aplikacji usługi HDInsight do instalowania aplikacji.

Aby uzyskać listę obsługiwanych składników, zobacz Co to są składniki i wersje platformy Apache Hadoop dostępne w usłudze HDInsight?

Czy mogę uaktualnić poszczególne składniki, które są wstępnie zainstalowane w klastrze?

Jeśli uaktualnisz wbudowane składniki lub aplikacje, które są wstępnie zainstalowane w klastrze, wynikowa konfiguracja nie będzie obsługiwana przez firmę Microsoft. Te konfiguracje systemu nie zostały przetestowane przez firmę Microsoft. Spróbuj użyć innej wersji klastra usługi HDInsight, która może już mieć wstępnie zainstalowaną uaktualnioną wersję składnika.

Na przykład uaktualnienie programu Hive jako pojedynczego składnika nie jest obsługiwane. Usługa HDInsight jest usługą zarządzaną, a wiele usług jest zintegrowanych z serwerem Ambari i testowanych. Uaktualnienie programu Hive samodzielnie powoduje zmianę indeksowanych plików binarnych innych składników i spowoduje problemy z integracją składników w klastrze.

Czy platformy Spark i Kafka mogą działać w tym samym klastrze usługi HDInsight?

Nie, nie można uruchomić platformy Apache Kafka i platformy Apache Spark w tym samym klastrze usługi HDInsight. Utwórz oddzielne klastry dla platform Kafka i Spark, aby uniknąć problemów z rywalizacją o zasoby.

Jak mogę zmienić strefę czasową w systemie Ambari?

  1. Otwórz internetowy interfejs użytkownika systemu Ambari w lokalizacji https://CLUSTERNAME.azurehdinsight.net, gdzie CLUSTERNAME jest nazwą klastra.

  2. W prawym górnym rogu wybierz pozycję administrator | Ustawienia.

    Ambari Settings.

  3. W oknie Użytkownik Ustawienia wybierz nową strefę czasową z listy rozwijanej Strefa czasowa, a następnie kliknij przycisk Zapisz.

    Ambari User Settings.

Magazyn metadanych

Jak mogę przeprowadzić migrację z istniejącego magazynu metadanych do usługi Azure SQL Database?

Czy magazyn metadanych Hive jest usuwany po usunięciu klastra?

Zależy to od typu magazynu metadanych skonfigurowanego do użycia przez klaster.

Domyślny magazyn metadanych: domyślny magazyn metadanych jest częścią cyklu życia klastra. Usunięcie klastra spowoduje również usunięcie odpowiedniego magazynu metadanych i metadanych.

W przypadku niestandardowego magazynu metadanych: cykl życia magazynu metadanych nie jest powiązany z cyklem życia klastra. W związku z tym można tworzyć i usuwać klastry bez utraty metadanych. Metadane, takie jak schematy programu Hive, są utrwalane nawet po usunięciu i ponownym utworzeniu klastra usługi HDInsight.

Aby uzyskać więcej informacji, zobacz Używanie zewnętrznych magazynów metadanych w usłudze Azure HDInsight.

Czy migrowanie magazynu metadanych Hive powoduje również migrację domyślnych zasad bazy danych ranger?

Nie, definicja zasad znajduje się w bazie danych Ranger, więc migrowanie bazy danych Ranger spowoduje migrację jej zasad.

Czy można migrować magazyn metadanych Hive z klastra pakietu Enterprise Security Package (ESP) do klastra innego niż ESP, a w drugą stronę?

Tak, można migrować magazyn metadanych Hive z esp do klastra innego niż ESP.

Jak oszacować rozmiar bazy danych magazynu metadanych Hive?

Magazyn metadanych Hive służy do przechowywania metadanych dla źródeł danych używanych przez serwer Hive. Wymagania dotyczące rozmiaru zależą częściowo od liczby i złożoności źródeł danych hive. Tych elementów nie można oszacować z góry. Jak opisano w wytycznych dotyczących magazynu metadanych Hive, możesz zacząć od warstwy S2. Warstwa zapewnia 50 jednostek DTU i 250 GB miejsca do magazynowania, a jeśli widzisz wąskie gardło, przeprowadź skalowanie w górę bazy danych.

Czy obsługujesz dowolną inną bazę danych niż usługa Azure SQL Database jako zewnętrzny magazyn metadanych?

Nie, firma Microsoft obsługuje tylko usługę Azure SQL Database jako zewnętrzny niestandardowy magazyn metadanych.

Czy mogę udostępnić magazyn metadanych w wielu klastrach?

Tak, można udostępniać niestandardowy magazyn metadanych w wielu klastrach, o ile używają one tej samej wersji usługi HDInsight.

Połączenie ivity i sieci wirtualne

Jakie są konsekwencje blokowania portów 22 i 23 w sieci?

Jeśli zablokujesz porty 22 i 23, nie będziesz mieć dostępu SSH do klastra. Te porty nie są używane przez usługę HDInsight.

Więcej informacji można znaleźć w następujących dokumentach:

Czy mogę wdrożyć dodatkową maszynę wirtualną w tej samej podsieci co klaster usługi HDInsight?

Tak, możesz wdrożyć dodatkową maszynę wirtualną w tej samej podsieci co klaster usługi HDInsight. Możliwe są następujące konfiguracje:

Czy należy przechowywać dane na dysku lokalnym węzła brzegowego?

Nie, przechowywanie danych na dysku lokalnym nie jest dobrym pomysłem. Jeśli węzeł ulegnie awarii, wszystkie dane przechowywane lokalnie zostaną utracone. Zalecamy przechowywanie danych w usłudze Azure Data Lake Storage Gen2 lub Azure Blob Storage lub przez zainstalowanie udziału usługi Azure Files na potrzeby przechowywania danych.

Czy mogę dodać istniejący klaster usługi HDInsight do innej sieci wirtualnej?

Nie, nie można. W momencie aprowizacji należy określić sieć wirtualną. Jeśli podczas aprowizacji nie określono żadnej sieci wirtualnej, wdrożenie tworzy sieć wewnętrzną, która nie jest dostępna spoza. Aby uzyskać więcej informacji, zobacz Dodawanie usługi HDInsight do istniejącej sieci wirtualnej.

Zabezpieczenia i certyfikaty

Jakie są zalecenia dotyczące ochrony przed złośliwym oprogramowaniem w klastrach usługi Azure HDInsight?

Jak mogę utworzyć kartę klucza dla klastra ESP usługi HDInsight?

Utwórz kartę klucza Kerberos dla nazwy użytkownika domeny. Później możesz użyć tej tabki kluczy do uwierzytelniania w klastrach przyłączonych do domeny zdalnej bez wprowadzania hasła. Nazwa domeny ma wielkie litery:


ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Kiedy podczas tworzenia tab klucza wymagana jest sól do szyfrowania AES256?

Jeśli nazwa_dzierżawy i nazwa_domeny są inne (na przykład Nazwa_dzierżawy — bob@CONTOSO.ONMICROSOFT.COM & Nazwa_domeny — bob@CONTOSOMicrosoft.ONMICROSOFT.COM), musisz dodać wartość SALT przy użyciu opcji -s.

Jak mogę określić właściwą wartość SALT?

  1. Użyj interakcyjnego logowania kerberos, aby określić odpowiednią wartość soli dla tabu klucza. Logowanie interakcyjne kerberos domyślnie będzie używać najwyższego szyfrowania. Śledzenie powinno być włączone w celu obserwowania soli. Poniżej znajduje się przykład logowania protokołu Kerberos:

$ KRB5_TRAACE=/dev/stdout kinit <username> -V
  1. Przejrzyj dane wyjściowe dla soli "......." Linii.
  2. Użyj tej wartości soli podczas tworzenia tabu klucza.

ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96 -s <SALTvalue>
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q

Czy mogę użyć istniejącej dzierżawy usługi Microsoft Entra do utworzenia klastra usługi HDInsight, który ma esp?

Włącz usługi Microsoft Entra Domain Services przed utworzeniem klastra usługi HDInsight przy użyciu esp. Usługa Hadoop typu open source opiera się na protokole Kerberos na potrzeby uwierzytelniania (w przeciwieństwie do protokołu OAuth).

Aby dołączyć maszyny wirtualne do domeny, musisz mieć kontroler domeny. Microsoft Entra Domain Services jest zarządzanym kontrolerem domeny i jest uważany za rozszerzenie identyfikatora Entra firmy Microsoft. Usługi Microsoft Entra Domain Services udostępniają wszystkie wymagania protokołu Kerberos dotyczące tworzenia bezpiecznego klastra Hadoop w zarządzany sposób. Usługa HDInsight jako usługa zarządzana integruje się z usługami Microsoft Entra Domain Services w celu zapewnienia zabezpieczeń.

Czy mogę użyć certyfikatu z podpisem własnym w konfiguracji protokołu SECURE LDAP usług Microsoft Entra Domain Services i aprowizacji klastra ESP?

Zaleca się użycie certyfikatu wystawionego przez urząd certyfikacji. Jednak korzystanie z certyfikatu z podpisem własnym jest również obsługiwane w esp. Aby uzyskać więcej informacji, zobacz:

Czy mogę zainstalować program Data Analytics Studio (DAS) jako klaster ESP?

Nie, DAS nie jest obsługiwane w klastrach ESP.

Jak mogę ściągnąć działanie logowania wyświetlane w usłudze Ranger?

W przypadku wymagań dotyczących inspekcji firma Microsoft zaleca włączenie dzienników usługi Azure Monitor zgodnie z opisem w temacie Monitorowanie klastrów usługi HDInsight za pomocą dzienników usługi Azure Monitor.

Czy mogę wyłączyć funkcję "Clamscan" w klastrze?

Clamscan to oprogramowanie antywirusowe, które działa w klastrze usługi HDInsight i jest używane przez zabezpieczenia platformy Azure (azsecd) do ochrony klastrów przed atakami wirusowymi. Firma Microsoft zdecydowanie zaleca, aby użytkownicy powstrzymali się od wprowadzania zmian w konfiguracji domyślnej Clamscan .

Ten proces nie zakłóca ani nie zabiera żadnych cykli od innych procesów. Zawsze przyniesie to inny proces. Skoki procesora CPU z Clamscan powinny być widoczne tylko wtedy, gdy system jest bezczynny.

W scenariuszach, w których musisz kontrolować harmonogram, możesz wykonać następujące kroki:

  1. Wyłącz automatyczne wykonywanie przy użyciu następującego polecenia:

    sudo sudo usr/local/bin/azsecd config -s clamav -d Disabled service azsecd restart

  2. Dodaj zadanie Cron, które uruchamia następujące polecenie jako katalog główny:

    /usr/local/bin/azsecd manual -s clamav

Aby uzyskać więcej informacji na temat konfigurowania i uruchamiania zadania cron, zobacz Jak mogę skonfigurować zadanie Cron?

Dlaczego usługa LLAP jest dostępna w klastrach Spark ESP?

Protokół LLAP jest włączony ze względów bezpieczeństwa (Apache Ranger), a nie z wydajnością. Użyj większych maszyn wirtualnych węzłów, aby uwzględnić użycie zasobów protokołu LLAP (na przykład minimalną liczbę maszyn wirtualnych D13V2).

Jak dodać dodatkowe grupy entra firmy Microsoft po utworzeniu klastra ESP?

Istnieją dwa sposoby osiągnięcia tego celu: 1 — można ponownie utworzyć klaster i dodać dodatkową grupę podczas tworzenia klastra. Jeśli używasz synchronizacji w zakresie w usługach Microsoft Entra Domain Services, upewnij się, że grupa B jest uwzględniona w synchronizacji o określonym zakresie. 2 — Dodaj grupę jako zagnieżdżonych podgrupę poprzedniej grupy, która została użyta do utworzenia klastra ESP. Jeśli na przykład utworzono klaster ESP z grupą A, możesz później dodać grupę B jako zagnieżdżona podgrupę A i po około godzinie zostanie ona automatycznie zsynchronizowana i dostępna w klastrze.

Storage

Czy mogę dodać usługę Azure Data Lake Storage Gen2 do istniejącego klastra usługi HDInsight jako dodatkowe konto magazynu?

Nie, obecnie nie można dodać konta magazynu usługi Azure Data Lake Storage Gen2 do klastra, który ma magazyn obiektów blob jako magazyn podstawowy. Aby uzyskać więcej informacji, zobacz Porównanie opcji magazynu.

Jak mogę znaleźć aktualnie połączoną jednostkę usługi dla konta magazynu usługi Data Lake?

Ustawienia można znaleźć w obszarze Dostęp do usługi Data Lake Storage Gen1 we właściwościach klastra w witrynie Azure Portal. Aby uzyskać więcej informacji, zobacz Weryfikowanie konfiguracji klastra.

Jak obliczyć użycie kont magazynu i kontenerów obiektów blob dla klastrów usługi HDInsight?

Wykonaj jedną z następujących czynności:

  • Korzystanie z programu PowerShell

  • Znajdź rozmiar /user/hive/. Kosz/ folder w klastrze usługi HDInsight przy użyciu następującego wiersza polecenia:

    hdfs dfs -du -h /user/hive/.Trash/

Jak skonfigurować inspekcję dla konta magazynu obiektów blob?

Aby przeprowadzić inspekcję kont usługi Blob Storage, skonfiguruj monitorowanie przy użyciu procedury w temacie Monitorowanie konta magazynu w witrynie Azure Portal. Dziennik inspekcji systemu plików HDFS zawiera tylko informacje inspekcji dla lokalnego systemu plików HDFS (hdfs://mycluster). Nie obejmuje ona operacji wykonywanych w magazynie zdalnym.

Jak mogę przesyłać pliki między kontenerem obiektów blob a węzłem głównym usługi HDInsight?

Uruchom skrypt podobny do następującego skryptu powłoki w węźle głównym:

for i in cat filenames.txt
do
   hadoop fs -get $i <local destination>
done

Uwaga

Plik filenames.txt będzie miał bezwzględną ścieżkę plików w kontenerach obiektów blob.

Czy istnieją jakieś wtyczki ranger dla magazynu?

Obecnie dla magazynu obiektów blob i usługi Azure Data Lake Storage Gen1 lub Gen2 nie istnieje wtyczka Ranger. W przypadku klastrów ESP należy użyć usługi Azure Data Lake Storage. Uprawnienia szczegółowe można ustawić przynajmniej ręcznie na poziomie systemu plików przy użyciu narzędzi HDFS. Ponadto w przypadku korzystania z usługi Azure Data Lake Storage klastry ESP będą wykonywać niektóre z kontroli dostępu systemu plików przy użyciu identyfikatora Entra firmy Microsoft na poziomie klastra.

Zasady dostępu do danych można przypisać do grup zabezpieczeń użytkowników przy użyciu Eksplorator usługi Azure Storage. Aby uzyskać więcej informacji, zobacz:

Czy mogę zwiększyć magazyn systemu plików HDFS w klastrze bez zwiększania rozmiaru dysku węzłów roboczych?

L.p. Nie można zwiększyć rozmiaru dysku dowolnego węzła roboczego. Dlatego jedynym sposobem na zwiększenie rozmiaru dysku jest usunięcie klastra i ponowne utworzenie go przy użyciu większych maszyn wirtualnych procesu roboczego. Nie używaj systemu plików HDFS do przechowywania żadnych danych usługi HDInsight, ponieważ dane są usuwane po usunięciu klastra. Zamiast tego przechowuj dane na platformie Azure. Skalowanie klastra w górę może również dodać dodatkową pojemność do klastra usługi HDInsight.

Węzły brzegowe

Czy mogę dodać węzeł brzegowy po utworzeniu klastra?

Jak nawiązać połączenie z węzłem brzegowym?

Po utworzeniu węzła brzegowego można nawiązać z nim połączenie przy użyciu protokołu SSH na porcie 22. Nazwę węzła krawędzi można znaleźć w portalu klastra. Nazwy zwykle kończą się ciągiem -ed.

Dlaczego utrwalone skrypty nie są uruchamiane automatycznie w nowo utworzonych węzłach brzegowych?

Skrypty utrwalone służą do dostosowywania nowych węzłów roboczych dodanych do klastra za pomocą operacji skalowania. Utrwalone skrypty nie mają zastosowania do węzłów brzegowych.

Interfejs API REST

Jakie są wywołania interfejsu API REST w celu ściągnięcia widoku zapytania Tez z klastra?

Następujące punkty końcowe REST umożliwiają ściąganie niezbędnych informacji w formacie JSON. Użyj podstawowych nagłówków uwierzytelniania, aby wysyłać żądania.

  • Tez Query View: nazwa< https:// cluster.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/>
  • Tez Dag View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/>

Jak mogę pobrać szczegóły konfiguracji z klastra usługi HDI przy użyciu użytkownika Entra firmy Microsoft?

Aby wynegocjować odpowiednie tokeny uwierzytelniania z użytkownikiem firmy Microsoft Entra, przejdź przez bramę przy użyciu następującego formatu:

  • <cluster dnsname>https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Jak mogę używać rozwiązania Ambari RESTful do monitorowania wydajności usługi YARN?

Jeśli wywołasz polecenie Curl w tej samej sieci wirtualnej lub równorzędnej sieci wirtualnej, polecenie to:


curl -u <cluster login username> -sS -G
http://<headnodehost>:8080/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu

Jeśli wywołasz polecenie spoza sieci wirtualnej lub z sieci wirtualnej bez komunikacji równorzędnej, format polecenia to:

  • W przypadku klastra innego niż ESP:

    
    curl -u <cluster login username> -sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    
  • W przypadku klastra ESP:

    
    curl -u <cluster login username>-sS -G 
    https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
    

Uwaga

Program Curl monituje o podanie hasła. Musisz wprowadzić prawidłowe hasło dla nazwy użytkownika logowania klastra.

Rozliczenia

Ile kosztuje wdrożenie klastra usługi HDInsight?

Aby uzyskać więcej informacji na temat cen i często zadawanych pytań związanych z rozliczeniami, zobacz stronę Cennik usługi Azure HDInsight.

Kiedy uruchamianie i zatrzymywanie rozliczeń usługi HDInsight?

Naliczanie opłat rozpoczyna się w momencie utworzenia klastra usługi HDInsight i kończy się wraz z jego usunięciem. Rozliczenia są naliczane proporcjonalnie na minutę.

Jak mogę anulować moją subskrypcję?

Aby uzyskać informacje na temat sposobu anulowania subskrypcji, zobacz Anulowanie subskrypcji platformy Azure.

Co się stanie po anulowaniu subskrypcji w przypadku subskrypcji z płatnością zgodnie z rzeczywistym użyciem?

Aby uzyskać informacje o subskrypcji po jej anulowaniu, zobacz Co się stanie po anulowaniu subskrypcji?

Hive

Dlaczego wersja programu Hive jest wyświetlana jako 1.2.1000 zamiast 2.1 w interfejsie użytkownika systemu Ambari, mimo że korzystam z klastra usługi HDInsight 3.6?

Mimo że w interfejsie użytkownika systemu Ambari pojawia się tylko 1.2, usługa HDInsight 3.6 zawiera zarówno hive 1.2, jak i Hive 2.1.

Inne często zadawane pytania

Co oferuje usługa HDInsight na potrzeby przetwarzania strumienia w czasie rzeczywistym?

Aby uzyskać informacje na temat możliwości integracji przetwarzania strumienia, zobacz Wybieranie technologii przetwarzania strumieniowego na platformie Azure.

Czy istnieje sposób dynamicznego zabicia węzła głównego klastra, gdy klaster jest bezczynny przez określony okres?

Nie można wykonać tej akcji za pomocą klastrów usługi HDInsight. W tych scenariuszach możesz użyć usługi Azure Data Factory.

Jakie oferty zgodności oferuje usługa HDInsight?

Aby uzyskać informacje o zgodności, zobacz Centrum zaufania firmy Microsoft.