Q: Quali sono i vari tipi di nodi in un cluster HDInsight?

Vedere Tipi di risorse nei cluster di Azure HDInsight .

Q: Come si modifica il fuso orario in Ambari?

Accedere all'interfaccia utente Web Ambari all'indirizzo https://CLUSTERNAME.azurehdinsight.net , dove CLUSTERNAME corrisponde al nome del cluster in uso. Nell'angolo in alto a destra selezionare admin | Settings (Amministrazione | Impostazioni). Nella finestra User Settings (Impostazioni utente) selezionare il nuovo fuso orario dall'elenco a discesa Timezone (Fuso orario) e quindi fare clic su Save (Salva).

Question 1

Come si effettua il provisioning di un cluster HDInsight?

Accepted Answer

Per esaminare i tipi di cluster HDInsight e i metodi di provisioning, vedere Configurare i cluster in HDInsight con Apache Hadoop, Apache Spark, Apache Kafka e altri.

Question 2

Come si elimina un cluster HDInsight esistente?

Accepted Answer

Per altre informazioni sull'eliminazione di un cluster quando non è più in uso, vedere Eliminare un cluster HDInsight.

Lasciar trascorrere almeno 30-60 minuti tra le operazioni di creazione ed eliminazione. In caso contrario, l'operazione potrebbe non riuscire con il messaggio di errore seguente:

Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.

Question 3

Come si seleziona il numero corretto di core o nodi per il carico di lavoro?

Accepted Answer

Il numero appropriato di core e altre opzioni di configurazione dipendono da diversi fattori.

Per altre informazioni, vedere Pianificazione della capacità per i cluster HDInsight.

Question 4

Quali sono i vari tipi di nodi in un cluster HDInsight?

Accepted Answer

Vedere Tipi di risorse nei cluster di Azure HDInsight.

Question 5

Quali sono le procedure consigliate per la creazione di cluster HDInsight di grandi dimensioni?

Accepted Answer

È consigliabile configurare i cluster HDInsight con un database Ambari personalizzato per migliorare la scalabilità del cluster.
Usare Azure Data Lake Storage Gen2 per creare cluster HDInsight in grado di sfruttare la maggiore larghezza di banda e altre caratteristiche per le prestazioni di Azure Data Lake Storage Gen2.
I nodi head devono essere sufficientemente grandi per contenere più servizi master in esecuzione in questi nodi.
Alcuni carichi di lavoro specifici, ad esempio Interactive Query, necessitano anche di nodi Zookeeper di dimensioni maggiori. Prendere in considerazione almeno otto macchine virtuali core.
Nel caso di Hive e Spark, usare il metastore Hive esterno.

Question 6

È possibile installare componenti aggiuntivi nel cluster?

Accepted Answer

Sì. Per installare componenti aggiuntivi o personalizzare la configurazione del cluster, usare:

Script durante o dopo la creazione. Gli script vengono richiamati tramite un'azione script. Un'azione script è un'opzione di configurazione che può essere usata dal portale di Azure, dai cmdlet di Windows PowerShell per HDInsight o da .NET SDK per HDInsight. Questa opzione di configurazione può essere usata dal portale di Azure, dai cmdlet di Windows PowerShell per HDInsight o da .NET SDK per HDInsight.
Piattaforma di applicazioni HDInsight per installare le applicazioni.

Per un elenco dei componenti supportati, vedere Componenti e versioni di Apache Hadoop disponibili in HDInsight

Question 7

È possibile aggiornare i singoli componenti preinstallati nel cluster?

Accepted Answer

Se si aggiornano componenti predefiniti o applicazioni preinstallate nel cluster, la configurazione risultante non sarà supportata da Microsoft. Queste configurazioni di sistema non sono state testate da Microsoft. Provare a usare una versione diversa del cluster HDInsight che potrebbe già disporre della versione aggiornata del componente preinstallato.

Ad esempio, l'aggiornamento di Hive come singolo componente non è supportato. HDInsight è un servizio gestito e molti servizi sono integrati con il server Ambari e testati. L'aggiornamento di Hive come singolo componente comporta la modifica dei file binari indicizzati di altri componenti e causerà problemi di integrazione dei componenti nel cluster.

Question 8

È possibile eseguire Spark e Kafka nello stesso cluster HDInsight?

Accepted Answer

No, non è possibile eseguire Apache Kafka e Apache Spark nello stesso cluster HDInsight. Creare cluster separati per Kafka e Spark per evitare problemi di contesa delle risorse.

Question 9

Come si modifica il fuso orario in Ambari?

Accepted Answer

Accedere all'interfaccia utente Web Ambari all'indirizzo https://CLUSTERNAME.azurehdinsight.net, dove CLUSTERNAME corrisponde al nome del cluster in uso.
Nell'angolo in alto a destra selezionare admin | Settings (Amministrazione | Impostazioni).
Nella finestra User Settings (Impostazioni utente) selezionare il nuovo fuso orario dall'elenco a discesa Timezone (Fuso orario) e quindi fare clic su Save (Salva).

Question 10

Come è possibile eseguire la migrazione dal metastore esistente al database SQL di Azure?

Accepted Answer

Per eseguire la migrazione da SQL Server al database SQL di Azure, vedere Esercitazione: Eseguire la migrazione offline di SQL Server a un database singolo o in pool nel database SQL di Azure usando il Servizio Migrazione del database.

Question 11

Il metastore Hive viene eliminato quando viene eliminato il cluster?

Accepted Answer

Dipende dal tipo di metastore che è stato configurato per il cluster.

Per un metastore predefinito: il metastore predefinito fa parte del ciclo di vita del cluster. Quando si elimina un cluster verranno eliminati anche il metastore e i metadati corrispondenti.

Per un metastore personalizzato: il ciclo di vita del metastore non è associato al ciclo di vita di un cluster. È quindi possibile creare ed eliminare cluster senza perdere metadati. I metadati come ad esempio gli schemi di Hive verranno mantenuti anche dopo aver eliminato e ricreato il cluster HDInsight.

Per altre informazioni, vedere Use external metadata stores in Azure HDInsight (Usare archivi di metadati esterni in Azure HDInsight).

Question 12

La migrazione di un metastore Hive include anche la migrazione dei criteri predefiniti del database Ranger?

Accepted Answer

No, la definizione dei criteri si trova nel database Ranger, quindi per trasferire i criteri sarà necessario eseguire la migrazione del database Ranger.

Question 13

È possibile eseguire la migrazione di un metastore Hive da un cluster Enterprise Security Package (ESP) a un cluster non Enterprise Security Package e viceversa?

Accepted Answer

Sì, è possibile eseguire la migrazione di un metastore Hive da un cluster Enterprise Security Package a un cluster non Enterprise Security Package.

Question 14

Come è possibile stimare le dimensioni di un database metastore Hive?

Accepted Answer

Un metastore Hive viene usato per archiviare i metadati per le origini dati usate dal server Hive. I requisiti di dimensioni dipendono in parte dal numero e dalla complessità delle origini dati Hive. Questi elementi non possono essere stimati in anticipo. Come descritto in Linee guida per i metastore Hive, è possibile iniziare con un livello S2. Il livello offre 50 DTU e 250 GB di spazio di archiviazione e, se si verifica un collo di bottiglia, aumentare le prestazioni del database.

Question 15

Come metastore esterno sono supportati anche altri database oltre al database SQL di Azure?

Accepted Answer

No, Microsoft supporta solo il database SQL di Azure come metastore personalizzato esterno.

Question 16

È possibile condividere un metastore tra più cluster?

Accepted Answer

Sì, è possibile condividere metastore personalizzati tra più cluster, purché usino la stessa versione di HDInsight.

Question 17

Quali sono le implicazioni del blocco delle porte 22 e 23 sulla rete?

Accepted Answer

Se si bloccano le porte 22 e 23, non si concederà l'accesso SSH al cluster. Queste porte non vengono usate dal servizio HDInsight.

Per altre informazioni, vedere i documenti seguenti:

Question 18

È possibile distribuire una macchina virtuale aggiuntiva all'interno della stessa subnet di un cluster HDInsight?

Accepted Answer

Sì, è possibile distribuire una macchina virtuale aggiuntiva all'interno della stessa subnet di un cluster HDInsight. Sono disponibili le configurazioni seguenti:

Nodi perimetrali: è possibile aggiungere un altro nodo perimetrale al cluster, come descritto in Usare nodi perimetrali vuoti nei cluster Apache Hadoop in HDInsight.
Nodi autonomi: è possibile aggiungere una macchina virtuale autonoma alla stessa subnet e accedere al cluster da tale macchina virtuale usando l'endpoint privato https://-int.azurehdinsight.net. Per altre informazioni, vedere Controllare il traffico di rete.

Question 19

È consigliabile archiviare i dati nel disco locale di un nodo perimetrale?

Accepted Answer

No, non è consigliabile archiviare i dati in un disco locale. Se si verifica un errore nel nodo, tutti i dati archiviati in locale andranno persi. È consigliabile archiviare i dati in Azure Data Lake Storage Gen2 o nell'archiviazione BLOB di Azure oppure montando una condivisione file di Azure per archiviare i dati.

Question 20

È possibile aggiungere un cluster HDInsight esistente a un'altra rete virtuale?

Accepted Answer

No, non è possibile. La rete virtuale deve essere specificata al momento del provisioning. Se durante il provisioning non viene specificata alcuna rete virtuale, la distribuzione crea una rete interna non accessibile dall'esterno. Per altre informazioni, vedere Aggiungere HDInsight a una rete virtuale esistente.

Question 21

Quali sono le raccomandazioni per la protezione da malware nei cluster Azure HDInsight?

Accepted Answer

Per informazioni sulla protezione da malware, vedere Microsoft Antimalware per Servizi cloud di Azure e macchine virtuali.

Question 22

Come si crea un file keytab per un cluster ESP (Enterprise Security Package) HDInsight?

Accepted Answer

Creare un file keytab Kerberos per il nome utente del dominio. Sarà possibile usare il file keytab in un secondo momento per eseguire l'autenticazione a cluster remoti aggiunti a un dominio senza immettere una password. Il nome di dominio è in caratteri maiuscoli:


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 23

Quando è necessario il salting per la crittografia AES256 durante la creazione del keytab?

Accepted Answer

Se tenantName e DomainName sono diversi (ad esempio TenantName – bob@CONTOSO.ONMICROSOFT.COM & DomainName – bob@CONTOSOMicrosoft.ONMICROSOFT.COM), è necessario aggiungere un valore SALT usando l'opzione -s.

Question 24

Ricerca per categorie determinare il valore SALT corretto?

Accepted Answer

Usare un account di accesso Kerberos interattivo per determinare il valore salt appropriato per il keytab. Per impostazione predefinita, l'account di accesso Kerberos interattivo userà la crittografia più elevata. La traccia deve essere abilitata per osservare il salt. Di seguito è riportato un esempio di accesso Kerberos:


$ KRB5_TRAACE=/dev/stdout kinit  -V

Esaminare l'output del salt "......." Linea.
Usare questo valore salt durante la creazione del keytab.


ktutil
ktutil: addent -password -p @ -k 1 -e aes256-cts-hmac-sha1-96 -s 
Password for @: 
ktutil: wkt .keytab
ktutil: q

Question 25

È possibile usare un tenant Di Microsoft Entra esistente per creare un cluster HDInsight con ESP?

Accepted Answer

Abilitare Microsoft Entra Domain Services prima di creare un cluster HDInsight con ESP. Hadoop open source si basa su Kerberos per l'autenticazione e la sicurezza, anziché su OAuth.

Per aggiungere macchine virtuali a un dominio, è necessario disporre di un controller di dominio. Microsoft Entra Domain Services è il controller di dominio gestito ed è considerato un'estensione dell'ID Microsoft Entra. Microsoft Entra Domain Services fornisce tutti i requisiti Kerberos per creare un cluster Hadoop sicuro in modo gestito. HDInsight come servizio gestito si integra con Microsoft Entra Domain Services per garantire la sicurezza.

Question 26

È possibile usare un certificato autofirmato in una configurazione LDAP sicura di Microsoft Entra Domain Services ed effettuare il provisioning di un cluster ESP?

Accepted Answer

È consigliabile usare un certificato rilasciato da un'autorità di certificazione. Tuttavia, in ESP è supportato anche l'uso di un certificato autofirmato. Per altre informazioni, vedi:

Question 27

È possibile installare Data Analytics Studio (DAS) come cluster ESP?

Accepted Answer

No, DAS non è supportato nei cluster ESP.

Question 28

Come è possibile eseguire il pull dell'attività di accesso visualizzata in Ranger?

Accepted Answer

Per i requisiti di controllo, Microsoft consiglia di abilitare i log di Monitoraggio di Azure come descritto in Usare i log di Monitoraggio di Azure per monitorare i cluster HDInsight.

Question 29

È possibile disabilitare 'Clamscan' nel cluster?

Accepted Answer

Clamscan è il software antivirus che viene eseguito nel cluster HDInsight e usato dal servizio di sicurezza di Azure (azsecd) per proteggere i cluster da attacchi virus. Microsoft consiglia fortemente agli utenti di evitare di apportare modifiche alla configurazione di Clamscan predefinita.

Questo processo non interferisce con altri processi né sottrae cicli da altri processi. Darà sempre la precedenza ad altri processi. I picchi di CPU da Clamscan devono essere visibili solo quando il sistema è inattivo.

Negli scenari in cui è necessario controllare la pianificazione, è possibile seguire questa procedura:

Disabilitare l'esecuzione automatica usando il comando seguente:

sudo usr/local/bin/azsecd config -s clamav -d Disabled sudo service azsecd restart
Aggiungere un processo cron che esegue il comando seguente come utente ROOT:

/usr/local/bin/azsecd manual -s clamav

Per altre informazioni su come configurare ed eseguire un processo cron, vedere How do I set up a Cron job? (Come si configura un processo cron).

Question 30

Perché LLAP è disponibile nei cluster ESP (Enterprise Security Package) Spark?

Accepted Answer

LLAP è abilitato per motivi di sicurezza (Apache Ranger), non per le prestazioni. Usare macchine virtuali con nodi di dimensioni maggiori per gestire l'utilizzo delle risorse di LLAP (ad esempio, almeno D13V2).

Question 31

Come è possibile aggiungere altri gruppi di Microsoft Entra dopo la creazione di un cluster ESP?

Accepted Answer

Esistono due modi per raggiungere questo obiettivo: 1. È possibile ricreare il cluster e aggiungere il gruppo aggiuntivo al momento della creazione del cluster. Se si usa la sincronizzazione con ambito in Microsoft Entra Domain Services, assicurarsi che il gruppo B sia incluso nella sincronizzazione con ambito. 2. Aggiungere il gruppo come sottogruppo annidato del gruppo precedente usato per creare il cluster ESP. Ad esempio, se è stato creato un cluster ESP con il gruppo A, sarà possibile aggiungere in un secondo momento il gruppo B come sottogruppo annidato di A e dopo circa un'ora sarà sincronizzato e disponibile automaticamente nel cluster.

Question 32

È possibile aggiungere un'istanza di Azure Data Lake Storage Gen2 a un cluster HDInsight esistente come account di archiviazione aggiuntivo?

Accepted Answer

No, attualmente non è possibile aggiungere un account di archiviazione Azure Data Lake Storage Gen2 a un cluster con archiviazione BLOB come risorsa di archiviazione primaria. Per altre informazioni, vedere Confrontare le opzioni di archiviazione.

Question 33

Come è possibile trovare l'entità servizio attualmente collegata per un account Data Lake Storage?

Accepted Answer

È possibile trovare le impostazioni in Accesso a Data Lake Storage Gen1 nelle proprietà del cluster nel portale di Azure. Per altre informazioni, vedere Verificare la configurazione del cluster.

Question 34

Come è possibile calcolare l'utilizzo degli account di archiviazione e dei contenitori BLOB per i cluster HDInsight?

Accepted Answer

Eseguire una di queste azioni:

Usare PowerShell
Trovare le dimensioni della cartella /user/hive/.Trash/ nel cluster HDInsight, usando la riga di comando seguente:

hdfs dfs -du -h /user/hive/.Trash/

Question 35

Come è possibile configurare il controllo per l'account di archiviazione BLOB?

Accepted Answer

Per controllare gli account di archiviazione BLOB, configurare il monitoraggio usando la procedura descritta in Monitorare un account di archiviazione nel portale di Azure. Un log di controllo HDFS fornisce solo informazioni di controllo esclusivamente per il file system HDFS locale (hdfs://mycluster). Non include le operazioni eseguite nell'archiviazione remota.

Question 36

Come è possibile trasferire file tra un contenitore BLOB e un nodo head HDInsight?

Accepted Answer

Eseguire uno script simile allo script della shell seguente nel nodo head:

for i in cat filenames.txt
do
   hadoop fs -get $i 
done

Nota

Il file filenames.txt avrà il percorso assoluto dei file nei contenitori BLOB.

Question 37

Sono disponibili plug-in Ranger per l'archiviazione?

Accepted Answer

Attualmente non esiste alcun plug-in Ranger per l'archiviazione BLOB e Azure Data Lake Storage Gen1 o Gen2. Per i cluster ESP, è consigliabile usare Azure Data Lake Storage. È almeno possibile impostare manualmente le autorizzazioni specifiche al livello del file system usando gli strumenti HDFS. Inoltre, quando si usa Azure Data Lake Archiviazione, i cluster ESP eseguiranno alcuni dei controlli di accesso del file system usando Microsoft Entra ID a livello di cluster.

È possibile assegnare criteri di accesso ai dati ai gruppi di sicurezza degli utenti usando Azure Storage Explorer. Per altre informazioni, vedi:

Question 38

È possibile aumentare lo spazio di archiviazione HDFS in un cluster senza aumentare le dimensioni del disco dei nodi di lavoro?

Accepted Answer

No. Non è possibile aumentare le dimensioni del disco di alcun nodo di lavoro. L'unico modo per aumentare le dimensioni del disco è quindi eliminare il cluster e ricrearlo con macchine virtuali con nodi di lavoro di dimensioni più elevate. Non usare HDFS per archiviare i dati di HDInsight, perché se si elimina il cluster i dati verranno eliminati. Archiviare invece i dati in Azure. Anche l'aumento delle prestazioni del cluster può aggiungere ulteriore capacità al cluster HDInsight.

Question 39

È possibile aggiungere un nodo perimetrale dopo la creazione del cluster?

Accepted Answer

Vedere Usare i nodi perimetrali vuoti sui cluster Apache Hadoop in HDInsight.

Question 40

Come è possibile connettersi a un nodo perimetrale?

Accepted Answer

Dopo aver creato un nodo perimetrale, è possibile connettersi ad esso usando SSH sulla porta 22. Il nome del nodo perimetrale è disponibile nel portale del cluster. I nomi terminano in genere con -ed.

Question 41

Perché gli script persistenti non vengono eseguiti automaticamente nei nodi perimetrali appena creati?

Accepted Answer

Gli script persistenti vengono usati per personalizzare i nuovi nodi di lavoro aggiunti al cluster tramite operazioni di dimensionamento. Gli script persistenti non si applicano ai nodi perimetrali.

Question 42

Quali sono le chiamate API REST per eseguire il pull di una visualizzazione query Tez dal cluster?

Accepted Answer

È possibile usare gli endpoint REST seguenti per eseguire il pull delle informazioni necessarie in formato JSON. Per effettuare le richieste, usare le intestazioni di autenticazione di base.

Tez Query View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/>
Tez Dag View: https://< cluster name.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/>

Question 43

Ricerca per categorie recuperare i dettagli di configurazione dal cluster HDI usando un utente di Microsoft Entra?

Accepted Answer

Per negoziare token di autenticazione appropriati con l'utente di Microsoft Entra, passare attraverso il gateway usando il formato seguente:

https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1

Question 44

Ricerca per categorie usare Ambari RESTful per monitorare le prestazioni di YARN?

Accepted Answer

Se si chiama il comando curl nella stessa rete virtuale o in una rete virtuale con peering, il comando è:


curl -u  -sS -G
http://:8080/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Se si chiama il comando curl dall'esterno della rete virtuale o da una rete virtuale senza peering, il comando è:

Per un cluster non ESP:


curl -u  -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Per un cluster ESP:


curl -u -sS -G 
https://.azurehdinsight.net/api/v1/clusters//services/YARN/components/NODEMANAGER?fields=metrics/cpu

Nota

Curl richiede una password. È necessario immettere una password valida per il nome utente di accesso del cluster.

Question 45

Quanto costa distribuire un cluster HDInsight?

Accepted Answer

Per altre informazioni sui prezzi e sulle domande frequenti relative alla fatturazione, vedere la pagina Prezzi di Azure HDInsight.

Question 46

Quando inizia e termina la fatturazione di HDInsight?

Accepted Answer

La fatturazione del cluster HDInsight inizia dopo la creazione del cluster e si interrompe solo quando questo viene eliminato. La fatturazione è calcolata al minuto ripartita su base proporzionale.

Question 47

Come è possibile annullare la sottoscrizione?

Accepted Answer

Per informazioni su come annullare la sottoscrizione, vedere Annullare la sottoscrizione di Azure.

Question 48

Per le sottoscrizioni con pagamento in base al consumo, cosa accade dopo l'annullamento della sottoscrizione?

Accepted Answer

Per informazioni sulla sottoscrizione dopo l'annullamento, vedere Cosa accade dopo l'annullamento della sottoscrizione?

Question 49

Perché la versione di Hive viene visualizzata come 1.2.1000 anziché 2.1 nell'interfaccia utente di Ambari anche se si esegue un cluster HDInsight 3.6?

Accepted Answer

Anche se nell'interfaccia utente di Ambari viene visualizzata solo la versione 1.2, HDInsight 3.6 contiene sia Hive 1.2 che Hive 2.1.

Question 50

Cosa offre HDInsight per le funzionalità di elaborazione dei flussi in tempo reale?

Accepted Answer

Per informazioni sulle funzionalità di integrazione dell'elaborazione dei flussi, vedere Scelta di una tecnologia di elaborazione dei flussi in Azure.

Question 51

Esiste un modo per terminare in modo dinamico il nodo head del cluster quando il cluster è inattivo per un periodo di tempo specifico?

Accepted Answer

Non è possibile eseguire questa azione con i cluster HDInsight. Per questi scenari, è consigliabile usare Azure Data Factory.

Question 52

Quali sono le offerte di conformità disponibili per HDInsight?

Accepted Answer

Per informazioni sulla conformità, vedere il Centro protezione Microsoft.

Condividi tramite

Azure HDInsight: domande frequenti

Creazione o eliminazione di cluster HDInsight