Avvio rapido: Creare un cluster Apache Spark in Azure HDInsight usando il portale di Azure

In questa guida introduttiva si usa il portale di Azure per creare un cluster Apache Spark in Azure HDInsight. Si crea quindi un notebook di Jupyter e lo si usa per eseguire query Spark SQL sulle tabelle Apache Hive. Azure HDInsight è un servizio di analisi open source gestito e a spettro completo per le aziende. Il framework Apache Spark per HDInsight consente di velocizzare cluster computing e analisi dei dati grazie all'elaborazione in memoria. Jupyter Notebook consente di interagire con i dati, combinare il codice con il testo markdown ed eseguire visualizzazioni semplici.

Per una spiegazione approfondita delle configurazioni disponibili, vedere Configurare i cluster in HDInsight. Per altre informazioni sull'uso del portale per creare cluster, vedere Creare cluster nel portale.

Se si usano più cluster insieme, è possibile creare una rete virtuale; se si usa un cluster Spark può anche voler usare Hive Warehouse Connector. Per altre informazioni, vedere Pianificare una rete virtuale per Azure HDInsight e Integrare Apache Spark e Apache Hive con Hive Warehouse Connector.

Importante

La fatturazione per i cluster HDInsight viene ripartita al minuto, indipendentemente dal fatto che vengano usati o meno. Assicurarsi di eliminare il cluster al termine dell'uso. Per altre informazioni, vedere la sezione Pulire le risorse di questo articolo.

Prerequisiti

Un account Azure con una sottoscrizione attiva. Creare un account gratuito.

Creare un cluster Apache Spark in HDInsight

Usare il portale di Azure per creare un cluster HDInsight che usa BLOB del servizio di archiviazione di Azure come risorsa di archiviazione del cluster. Per altre informazioni sull'uso di Data Lake Storage Gen2, vedere Avvio rapido: Configurare cluster in HDInsight.

Accedi al portale di Azure.
Nel menu in alto selezionare + Crea una risorsa.
Selezionare Analytics>Azure HDInsight per passare alla pagina Crea cluster HDInsight.

Nella scheda Informazioni di base specificare le informazioni seguenti:

Proprietà	Description
Subscription	Nell'elenco a discesa selezionare la sottoscrizione di Azure usata per il cluster.
Gruppo di risorse	Nell'elenco a discesa selezionare il gruppo di risorse esistente oppure selezionare Crea nuovo.
Nome del cluster	Immettere un nome univoco globale.
Area geografica	Nell'elenco a discesa selezionare un'area in cui viene creato il cluster.
Zona di disponibilità	Facoltativo: specificare una zona di disponibilità in cui distribuire il cluster
Tipo di cluster	Selezionare il tipo di cluster per aprire un elenco. Nell'elenco selezionare Spark.
Versione del cluster	Questo campo viene popolato automaticamente con la versione predefinita dopo che è stato selezionato il tipo di cluster.
Nome utente di accesso al cluster	Immettere il nome utente dell'account di accesso del cluster. Il nome predefinito è admin. Questo account viene usato per accedere a Jupyter Notebook più avanti nella guida introduttiva.
Password di accesso del cluster	Immettere la password di accesso al cluster.
Nome utente Secure Shell (SSH)	Immettere il nome utente SSH. Il nome utente SSH usato per questa guida introduttiva è sshuser. Per impostazione predefinita, questo account condivide la stessa password dell'account di accesso del cluster .

Screenshot che mostra la creazione di un cluster HDInsight con la scheda

Selezionare Avanti: Archiviazione >> per passare alla pagina Archiviazione .

In Archiviazione specificare i valori seguenti:

Proprietà	Description
Tipo di archiviazione primario	Usare il valore predefinito Archiviazione di Azure.
Metodo di selezione	Usare il valore predefinito Seleziona dall'elenco.
Account di archiviazione primario	Usare il valore inserito automaticamente.
Contenitore	Usare il valore inserito automaticamente.

Screenshot che mostra l'opzione Crea cluster HDInsight con la scheda Archiviazione selezionata.

Selezionare Rivedi e crea per continuare.

In Rivedi e crea selezionare Crea. La creazione del cluster richiede circa 20 minuti. Prima di procedere con la sessione successiva, è necessario creare il cluster.

Se si verifica un problema con la creazione di cluster HDInsight, è possibile che non si disponga delle autorizzazioni appropriate per farlo. Per altre informazioni, vedere Requisiti di controllo di accesso.

Creare un notebook di Jupyter

Jupyter Notebook è un ambiente notebook interattivo che supporta vari linguaggi di programmazione. Il notebook consente di interagire con i dati, combinare il codice con il testo markdown ed eseguire visualizzazioni semplici.

Da un Web browser passare a https://CLUSTERNAME.azurehdinsight.net/jupyter, dove CLUSTERNAME è il nome del cluster. Se richiesto, immettere le credenziali di accesso del cluster per il cluster.
Selezionare Nuovo>PySpark per creare un notebook.

Viene creato e aperto un nuovo notebook con il nome Untitled(Untitled.pynb).

Eseguire istruzioni SQL di Apache Spark

SQL (Structured Query Language) è il linguaggio più comune e ampiamente usato per l'esecuzione di query e la definizione dei dati. Spark SQL funziona come estensione di Apache Spark per l'elaborazione di dati strutturati, usando la sintassi SQL familiare.

Verificare che il kernel sia pronto. Il kernel è pronto quando viene visualizzato un cerchio vuoto accanto al nome del kernel nel notebook. Il cerchio pieno indica che il kernel è occupato.

Quando si avvia il notebook per la prima volta, il kernel esegue alcune attività in background. Attendere che il kernel sia pronto.
Incollare il codice seguente in una cella vuota e quindi premere MAIUSC + INVIO per eseguire il codice. Il comando elenca le tabelle Hive nel cluster:
```
%%sql
SHOW TABLES
```
Quando si usa jupyter Notebook con il cluster HDInsight, si ottiene un set di impostazioni sqlContext che è possibile usare per eseguire query Hive usando Spark SQL. %%sql indica a Jupyter Notebook di usare il set di impostazioni sqlContext per eseguire la query Hive. La query recupera le prime 10 righe da una tabella Hive (hivesampletable) fornita con tutti i cluster HDInsight per impostazione predefinita. Per ottenere i risultati sono necessari circa 30 secondi. L'output è simile al seguente:

is quickstart." border="true":::

Ogni volta che si esegue una query in Jupyter, il titolo della finestra del Web browser mostra uno stato (Occupato) insieme al titolo del notebook. È anche visibile un cerchio pieno accanto al testo PySpark nell'angolo in alto a destra.
Eseguire un'altra query per visualizzare i dati in hivesampletable.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
La schermata verrà aggiornata per visualizzare l'output della query.

Insight" border="true":::
Dal menu File del notebook selezionare Chiudi e arresta. Spegnere il notebook rilascia le risorse del cluster.

Pulire le risorse

HDInsight salva i dati in Archiviazione di Azure o In Azure Data Lake Storage, in modo da poter eliminare in modo sicuro un cluster quando non è in uso. Vengono addebitati i costi anche per i cluster HDInsight che non sono in uso. Poiché i costi per il cluster sono decisamente superiori a quelli per l'archiviazione, eliminare i cluster quando non vengono usati è una scelta economicamente conveniente. Se si prevede di svolgere subito l'esercitazione elencata nei passaggi successivi, si può mantenere il cluster.

Tornare al portale di Azure e selezionare Elimina.

Eliminazione di un cluster HDInsight nel portale di Azure. sight cluster" border="true":::

È anche possibile selezionare il nome del gruppo di risorse per aprire la pagina del gruppo di risorse e quindi selezionare Elimina gruppo di risorse. Eliminando il gruppo di risorse, si eliminano sia il cluster HDInsight che l'account di archiviazione predefinito.

Passaggi successivi

In questa guida introduttiva si è appreso come creare un cluster Apache Spark in HDInsight ed eseguire una query Spark SQL di base. Passare all'esercitazione successiva per imparare come usare un cluster HDInsight per eseguire query interattive su dati di esempio.

Eseguire query interattive su Apache Spark

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-10-08