Q: Vilka är de olika typerna av noder i ett HDInsight-kluster?

Se Resurstyper i Azure HDInsight-kluster .

Q: Hur gör jag för att ändra tidszon i Ambari?

Öppna Ambari Web UI på , där CLUSTERNAME är namnet på https://CLUSTERNAME.azurehdinsight.net klustret. I det övre högra hörnet väljer du admin | Inställningar. I fönstret Användarinställningar väljer du den nya tidszonen i listrutan Tidszon och väljer sedan Spara.

Question 1

Hur gör jag för att etablera ett HDInsight-kluster?

Accepted Answer

Information om hur du granskar typerna av HDInsight-kluster och etableringsmetoderna finns i Konfigurera kluster i HDInsight med Apache Hadoop, Apache Spark, Apache Kafka med mera.

Question 2

Hur gör jag för att ta bort ett befintligt HDInsight-kluster?

Accepted Answer

Mer information om hur du tar bort ett kluster när det inte längre används finns i Ta bort ett HDInsight-kluster.

Försök att lämna minst 30 till 60 minuter mellan skapande- och borttagningsåtgärder. Annars kan åtgärden misslyckas med följande felmeddelande:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Question 3

Hur gör jag för att välja rätt antal kärnor eller noder för min arbetsbelastning?

Accepted Answer

Det lämpliga antalet kärnor och andra konfigurationsalternativ beror på olika faktorer.

Mer information finns i Kapacitetsplanering för HDInsight-kluster.

Question 4

Vilka är de olika typerna av noder i ett HDInsight-kluster?

Accepted Answer

Se Resurstyper i Azure HDInsight-kluster.

Question 5

Vilka är metodtipsen för att skapa stora HDInsight-kluster?

Accepted Answer

Rekommenderar att du konfigurerar HDInsight-kluster med en anpassad Ambari DB för att förbättra klustrets skalbarhet.
Använd Azure Data Lake Storage Gen2 för att skapa HDInsight-kluster för att dra nytta av högre bandbredd och andra prestandaegenskaper för Azure Data Lake Storage Gen2.
Huvudnoderna bör vara tillräckligt stora för att rymma flera huvudtjänster som körs på dessa noder.
Vissa specifika arbetsbelastningar som Interaktiv fråga behöver också större Zookeeper-noder. Överväg minst åtta virtuella kärndatorer.
När det gäller Hive och Spark använder du externt Hive-metaarkiv.

Question 6

Kan jag installera fler komponenter i mitt kluster?

Accepted Answer

Ja. Om du vill installera fler komponenter eller anpassa klusterkonfigurationen använder du:

Skript under eller efter skapandet. Skript anropas via skriptåtgärd. Skriptåtgärd är ett konfigurationsalternativ som du kan använda från Azure Portal, HDInsight Windows PowerShell-cmdletar eller HDInsight .NET SDK. Det här konfigurationsalternativet kan användas från Azure Portal, HDInsight Windows PowerShell-cmdletar eller HDInsight .NET SDK.
HDInsight Application Platform för att installera program.

En lista över komponenter som stöds finns i Vilka Apache Hadoop-komponenter och -versioner är tillgängliga med HDInsight?

Question 7

Kan jag uppgradera de enskilda komponenter som är förinstallerade i klustret?

Accepted Answer

Om du uppgraderar inbyggda komponenter eller program som är förinstallerade i klustret stöds inte den resulterande konfigurationen av Microsoft. Dessa systemkonfigurationer har inte testats av Microsoft. Försök att använda en annan version av HDInsight-klustret som kanske redan har den uppgraderade versionen av komponenten förinstallerad.

Du kan till exempel inte uppgradera Hive som en enskild komponent. HDInsight är en hanterad tjänst och många tjänster är integrerade med Ambari-servern och testas. Om du uppgraderar en Hive på egen hand ändras indexerade binärfiler för andra komponenter, vilket orsakar problem med komponentintegrering i klustret.

Question 8

Kan Spark och Kafka köras i samma HDInsight-kluster?

Accepted Answer

Nej, det går inte att köra Apache Kafka och Apache Spark på samma HDInsight-kluster. Skapa separata kluster för Kafka och Spark för att undvika problem med resurskonkurrering.

Question 9

Hur gör jag för att ändra tidszon i Ambari?

Accepted Answer

Öppna Ambari Web UI på , där CLUSTERNAME är namnet på https://CLUSTERNAME.azurehdinsight.netklustret.
I det övre högra hörnet väljer du admin | Inställningar.
I fönstret Användarinställningar väljer du den nya tidszonen i listrutan Tidszon och väljer sedan Spara.

Question 10

Hur kan jag migrera från det befintliga metaarkivet till Azure SQL Database?

Accepted Answer

Information om hur du migrerar från SQL Server till Azure SQL Database finns i Självstudie: Migrera SQL Server till en enkel databas eller pooldatabas i Azure SQL Database offline med DMS.

Question 11

Tas Hive-metaarkivet bort när klustret tas bort?

Accepted Answer

Det beror på vilken typ av metaarkiv som klustret är konfigurerat att använda.

För ett standardmetaarkiv: Standardmetaarkivet är en del av klusterlivscykeln. När du tar bort ett kluster tas även motsvarande metaarkiv och metadata bort.

För ett anpassat metaarkiv: Livscykeln för metaarkivet är inte kopplad till ett klusters livscykel. Därför kan du skapa och ta bort kluster utan att förlora metadata. Metadata som dina Hive-scheman bevaras även efter att du har tagit bort och återskapat HDInsight-klustret.

Mer information finns i Använda externa metadatalager i Azure HDInsight.

Question 12

Migrerar migrering av ett Hive-metaarkiv även standardprinciperna för Ranger-databasen?

Accepted Answer

Nej, principdefinitionen finns i Ranger-databasen, så om du migrerar Ranger-databasen migreras principen.

Question 13

Kan du migrera ett Hive-metaarkiv från ett ESP-kluster (Enterprise Security Package) till ett icke-ESP-kluster och tvärtom?

Accepted Answer

Ja, du kan migrera ett Hive-metaarkiv från en ESP till ett icke-ESP-kluster.

Question 14

Hur beräknar jag storleken på en Hive-metaarkivdatabas?

Accepted Answer

Ett Hive-metaarkiv används för att lagra metadata för datakällor som används av Hive-servern. Storlekskraven beror delvis på antalet och komplexiteten i dina Hive-datakällor. Dessa objekt kan inte beräknas i förväg. Som beskrivs i Riktlinjerna för Hive-metaarkiv kan du börja med en S2-nivå. Nivån ger 50 DTU och 250 GB lagringsutrymme, och om du ser en flaskhals skalar du upp databasen.

Question 15

Har du stöd för andra databaser än Azure SQL Database som ett externt metaarkiv?

Accepted Answer

Nej, Microsoft stöder endast Azure SQL Database som ett externt anpassat metaarkiv.

Question 16

Kan jag dela ett metaarkiv i flera kluster?

Accepted Answer

Ja, du kan dela anpassat metaarkiv i flera kluster så länge de använder samma version av HDInsight.

Question 17

Vilka är konsekvenserna av att blockera portarna 22 och 23 i mitt nätverk?

Accepted Answer

Om du blockerar port 22 och port 23 har du inte SSH-åtkomst till klustret. Dessa portar används inte av HDInsight-tjänsten.

Mer information finns i följande dokument.

Question 18

Kan jag distribuera fler virtuella datorer i samma undernät som ett HDInsight-kluster?

Accepted Answer

Ja, du kan distribuera fler virtuella datorer i samma undernät som ett HDInsight-kluster. Följande konfigurationer är möjliga:

Gränsnoder: Du kan lägga till ytterligare en kantnod i klustret enligt beskrivningen i Använda tomma kantnoder i Apache Hadoop-kluster i HDInsight.
Fristående noder: Du kan lägga till en fristående virtuell dator i samma undernät och komma åt klustret från den virtuella datorn med hjälp av den privata slutpunkten https://-int.azurehdinsight.net. Mer information finns i Kontrollera nätverkstrafik.

Question 19

Ska jag lagra data på en gränsnods lokala disk?

Accepted Answer

Nej, det är ingen bra idé att lagra data på en lokal disk. Om noden misslyckas går alla data som lagras lokalt förlorade. Vi rekommenderar att du lagrar data i Azure Data Lake Storage Gen2 eller Azure Blob Storage, eller genom att montera en Azure Files-resurs för lagring av data.

Question 20

Kan jag lägga till ett befintligt HDInsight-kluster i ett annat virtuellt nätverk?

Accepted Answer

Nej, det kan du inte. Det virtuella nätverket bör anges vid tidpunkten för etableringen. Om inget virtuellt nätverk anges under etableringen skapar distributionen ett internt nätverk som inte är tillgängligt utifrån. Mer information finns i Lägga till HDInsight i ett befintligt virtuellt nätverk.

Question 21

Vilka är rekommendationerna för skydd mot skadlig kod i Azure HDInsight-kluster?

Accepted Answer

Information om skydd mot skadlig kod finns i Microsoft Antimalware för Azure Cloud Services och Virtual Machines.

Question 22

Hur gör jag för att skapa en nyckelflik för ett HDInsight ESP-kluster?

Accepted Answer

Skapa en Kerberos-nyckelflik för ditt domänanvändarnamn. Du kan senare använda den här nyckelfliken för att autentisera till fjärranslutna domänanslutna kluster utan att ange ett lösenord. Domännamnet är versalt:


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 23

När krävs saltning för AES256-kryptering när du skapar nyckelfliken?

Accepted Answer

Om ditt TenantName & DomainName skiljer sig (till exempel TenantName – bob@CONTOSO.ONMICROSOFT.COM & DomainName – ) bob@CONTOSOMicrosoft.ONMICROSOFT.COMmåste du lägga till ett SALT-värde med alternativet -s.

Question 24

Hur gör jag för att fastställa rätt SALT-värde?

Accepted Answer

Använd en interaktiv Kerberos-inloggning för att fastställa rätt saltvärde för nyckelfliken. Interaktiv Kerberos-inloggning använder den högsta krypteringen som standard. Spårning ska aktiveras för att observera saltet. Nedan visas en Kerberos-exempelinloggning:


$ KRB5_TRAACE=/dev/stdout kinit  -V

Titta igenom utdata för saltet "......." linje.
Använd det här saltvärdet när du skapar nyckelfliken.


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96 -s 
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 25

Kan jag använda en befintlig Microsoft Entra-klient för att skapa ett HDInsight-kluster som har ESP?

Accepted Answer

Aktivera Microsoft Entra Domain Services innan du kan skapa ett HDInsight-kluster med ESP. Hadoop med öppen källkod förlitar sig på Kerberos för autentisering (till skillnad från OAuth).

Om du vill ansluta virtuella datorer till en domän måste du ha en domänkontrollant. Microsoft Entra Domain Services är den hanterade domänkontrollanten och anses vara en förlängning av Microsoft Entra-ID. Microsoft Entra Domain Services tillhandahåller alla Kerberos-krav för att skapa ett säkert Hadoop-kluster på ett hanterat sätt. HDInsight som en hanterad tjänst integreras med Microsoft Entra Domain Services för att tillhandahålla säkerhet.

Question 26

Kan jag använda ett självsignerat certifikat i en säker LDAP-konfiguration av Microsoft Entra Domain Services och etablera ett ESP-kluster?

Accepted Answer

Vi rekommenderar att du använder ett certifikat som utfärdats av en certifikatutfärdare. Men att använda ett självsignerat certifikat stöds också på ESP. Mer information finns i:

Question 27

Kan jag installera Data Analytics Studio (DAS) som ett ESP-kluster?

Accepted Answer

Nej, DAS stöds inte i ESP-kluster.

Question 28

Hur hämtar jag inloggningsaktiviteten som visas i Ranger?

Accepted Answer

För granskningskrav rekommenderar Microsoft att du aktiverar Azure Monitor-loggar enligt beskrivningen i Använda Azure Monitor-loggar för att övervaka HDInsight-kluster.

Question 29

Kan jag inaktivera "Clamscan" i mitt kluster?

Accepted Answer

Clamscan är antivirusprogrammet som körs på HDInsight-klustret och används av Azure Security (azsecd) för att skydda dina kluster mot virusattacker. Microsoft rekommenderar starkt att användarna avstår från att göra några ändringar i standardkonfigurationen Clamscan .

Den här processen stör inte eller tar inga cykler bort från andra processer. Det kommer alltid att ge efter för andra processer. CPU-toppar från Clamscan bör endast visas när systemet är inaktivt.

I scenarier där du måste styra schemat kan du använda följande steg:

Inaktivera automatisk körning med följande kommando:

sudo usr/local/bin/azsecd config -s clamav -d Disabled sudo service azsecd restart
Lägg till ett Cron-jobb som kör följande kommando som rot:

/usr/local/bin/azsecd manual -s clamav

Mer information om hur du konfigurerar och kör ett cron-jobb finns i Hur gör jag för att konfigurera ett Cron-jobb?

Question 30

Varför är LLAP tillgängligt i Spark ESP-kluster?

Accepted Answer

LLAP är aktiverat av säkerhetsskäl (Apache Ranger), inte prestanda. Använd virtuella datorer med större noder för att hantera resursanvändningen för LLAP (till exempel minsta D13V2).

Question 31

Hur lägger jag till ytterligare Microsoft Entra-grupper när jag har skapat ett ESP-kluster?

Accepted Answer

Det finns två sätt att uppnå det här målet: 1 – Du kan återskapa klustret och lägga till den extra gruppen när klustret skapas. Om du använder begränsad synkronisering i Microsoft Entra Domain Services kontrollerar du att grupp B ingår i den begränsade synkroniseringen. 2 – Lägg till gruppen som en kapslad undergrupp i föregående grupp som användes för att skapa ESP-klustret. Om du till exempel har skapat ett ESP-kluster med gruppen Akan du senare lägga till gruppen B som en kapslad undergrupp av A och efter ungefär en timme synkroniseras det och blir tillgängligt i klustret automatiskt.

Question 32

Kan jag lägga till ett Azure Data Lake Storage Gen2 till ett befintligt HDInsight-kluster som ytterligare ett lagringskonto?

Accepted Answer

Nej, det går för närvarande inte att lägga till ett Azure Data Lake Storage Gen2-lagringskonto i ett kluster som har bloblagring som primär lagring. Mer information finns i Jämför lagringsalternativ.

Question 33

Hur hittar jag det länkade tjänstens huvudnamn för ett Data Lake-lagringskonto?

Accepted Answer

Du hittar dina inställningar i Data Lake Storage Gen1-åtkomst under dina klusteregenskaper i Azure Portal. Mer information finns i Verifiera klusterkonfiguration.

Question 34

Hur beräknar jag användningen av lagringskonton och blobcontainrar för mina HDInsight-kluster?

Accepted Answer

Gör något av följande:

Använda PowerShell
Hitta storleken på /user/hive/. Papperskorg/ mapp i HDInsight-klustret med hjälp av följande kommandorad:

hdfs dfs -du -h /user/hive/.Trash/

Question 35

Hur konfigurerar jag granskning för mitt bloblagringskonto?

Accepted Answer

Om du vill granska bloblagringskonton konfigurerar du övervakning med hjälp av proceduren i Övervaka ett lagringskonto i Azure Portal. En HDFS-granskningslogg innehåller endast granskningsinformation för det lokala HDFS-filsystemet (hdfs://mycluster). Den innehåller inte åtgärder som utförs på fjärrlagring.

Question 36

Hur kan jag överföra filer mellan en blobcontainer och en HDInsight-huvudnod?

Accepted Answer

Kör ett skript som liknar följande gränssnittsskript på huvudnoden:

for i in cat filenames.txt
do
   hadoop fs -get $i 
done

Kommentar

Filen filenames.txt har den absoluta sökvägen till filerna i blobcontainrarna.

Question 37

Finns det några Ranger-plugin-program för lagring?

Accepted Answer

För närvarande finns det inget Ranger-plugin-program för bloblagring och Azure Data Lake Storage Gen1 eller Gen2. För ESP-kluster bör du använda Azure Data Lake Storage. Du kan åtminstone ange detaljerade behörigheter manuellt på filsystemnivå med hjälp av HDFS-verktyg. När du använder Azure Data Lake Storage gör ESP-kluster dessutom en del av filsystemets åtkomstkontroll med hjälp av Microsoft Entra-ID på klusternivå.

Du kan tilldela dataåtkomstprinciper till användarnas säkerhetsgrupper med hjälp av Azure Storage Explorer. Mer information finns i:

Question 38

Kan jag öka HDFS-lagringen i ett kluster utan att öka diskstorleken för arbetsnoder?

Accepted Answer

Nej. Du kan inte öka diskstorleken för någon arbetsnod. Så det enda sättet att öka diskstorleken är att släppa klustret och återskapa det med större virtuella arbetsdatorer. Använd inte HDFS för att lagra någon av dina HDInsight-data, eftersom data tas bort om du tar bort klustret. Lagra i stället dina data i Azure. Att skala upp klustret kan också lägga till ytterligare kapacitet i HDInsight-klustret.

Question 39

Kan jag lägga till en kantnod när klustret har skapats?

Accepted Answer

Se Använda tomma gränsnoder i Apache Hadoop-kluster i HDInsight.

Question 40

Hur ansluter jag till en kantnod?

Accepted Answer

När du har skapat en gränsnod kan du ansluta till den med hjälp av SSH på port 22. Du hittar namnet på gränsnoden från klusterportalen. Namnen slutar vanligtvis med -ed.

Question 41

Varför körs inte bevarade skript automatiskt på nyligen skapade gränsnoder?

Accepted Answer

Du använder beständiga skript för att anpassa nya arbetsnoder som lagts till i klustret genom skalningsåtgärder. Beständiga skript gäller inte för kantnoder.

Question 42

Vilka ÄR REST API-anropen för att hämta en Tez-frågevy från klustret?

Accepted Answer

Du kan använda följande REST-slutpunkter för att hämta nödvändig information i JSON-format. Använd grundläggande autentiseringshuvuden för att göra begäranden.

Tez Query View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/>
Tez Dag View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/>

Question 43

Hur gör jag för att hämta konfigurationsinformationen från HDI-klustret med hjälp av en Microsoft Entra-användare?

Accepted Answer

Om du vill förhandla om rätt autentiseringstoken med din Microsoft Entra-användare går du igenom gatewayen med följande format:

https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Question 44

Hur gör jag för att använda Ambari RESTful för att övervaka YARN-prestanda?

Accepted Answer

Om du anropar Curl-kommandot i samma virtuella nätverk eller ett peer-kopplat virtuellt nätverk är kommandot:


curl -u  -sS -G
http://:8080/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Om du anropar kommandot utanför det virtuella nätverket eller från ett icke-peer-kopplat virtuellt nätverk är kommandoformatet:

För ett icke-ESP-kluster:


curl -u  -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

För ett ESP-kluster:


curl -u -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Kommentar

Curl uppmanar dig att ange ett lösenord. Du måste ange ett giltigt lösenord för användarnamnet för klusterinloggning.

Question 45

Hur mycket kostar det att distribuera ett HDInsight-kluster?

Accepted Answer

Mer information om priser och vanliga frågor och svar om fakturering finns på sidan priser för Azure HDInsight.

Question 46

När startar och slutar HDInsight-faktureringen?

Accepted Answer

Debiteringen för HDInsight-klustret börjar när ett kluster skapas och stoppas när klustret tas bort. Faktureringen är proportionell per minut.

Question 47

Hur gör jag för att avbryta min prenumeration?

Accepted Answer

Information om hur du avbryter din prenumeration finns i Avbryt din Azure-prenumeration.

Question 48

Vad händer när jag har avbrutit min prenumeration för betala per användning-prenumeration?

Accepted Answer

Information om din prenumeration när den har avbrutits finns i Vad händer när jag har avbrutit min prenumeration?

Question 49

Varför visas Hive-versionen som 1.2.1000 i stället för 2.1 i Ambari-användargränssnittet trots att jag kör ett HDInsight 3.6-kluster?

Accepted Answer

Även om endast 1.2 visas i Ambari-användargränssnittet innehåller HDInsight 3.6 både Hive 1.2 och Hive 2.1.

Question 50

Vad erbjuder HDInsight för dataströmbearbetningsfunktioner i realtid?

Accepted Answer

Information om integreringsfunktioner för dataströmbearbetning finns i Välja en dataströmbearbetningsteknik i Azure.

Question 51

Finns det något sätt att dynamiskt döda huvudnoden i klustret när klustret är inaktivt under en viss period?

Accepted Answer

Du kan inte utföra den här åtgärden med HDInsight-kluster. Du kan använda Azure Data Factory för dessa scenarier.

Question 52

Vilka efterlevnadserbjudanden erbjuder HDInsight?

Accepted Answer

Information om efterlevnad finns i Microsoft Trust Center.

Dela via

Azure HDInsight: Vanliga frågor och svar

Skapa eller ta bort HDInsight-kluster