Condividi tramite


Avvio rapido: Distribuire un cluster Apache Spark gestito di Azure con Azure Databricks

Il servizio Istanza gestita di Azure per Apache Cassandra consente operazioni di distribuzione e ridimensionamento automatizzate per i data center Apache Cassandra open source gestiti. Questa funzionalità accelera gli scenari ibridi e consente di ridurre la manutenzione in corso.

Questa guida introduttiva illustra come usare il portale di Azure per creare un cluster Apache Spark completamente gestito all'interno della rete virtuale di Azure del cluster Istanza gestita di Azure per Apache Cassandra. Il cluster Spark viene creato in Azure Databricks. Successivamente, è possibile creare o collegare notebook al cluster, leggere i dati da origini dati diverse e analizzare le informazioni dettagliate.

Per altre informazioni, vedere Distribuire Azure Databricks nella rete virtuale di Azure (inserimento della rete virtuale).

Prerequisiti

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Creare un cluster di Azure Databricks

Seguire questa procedura per creare un cluster Azure Databricks in una rete virtuale con Istanza gestita di Azure per Apache Cassandra:

  1. Accedere al portale di Azure.

  2. Nel riquadro sinistro individuare Gruppi di risorse. Passare al gruppo di risorse che contiene la rete virtuale in cui è distribuita l'istanza gestita.

  3. Aprire la risorsa rete virtuale e prendere nota dello spazio indirizzi.

    Screenshot che mostra come ottenere lo spazio di indirizzi della rete virtuale.

  4. Nel gruppo di risorse selezionare Aggiungi e cercare Azure Databricks nel campo di ricerca.

    Screenshot che mostra una ricerca di Azure Databricks.

  5. Selezionare Crea per creare un account Azure Databricks.

    Screenshot che mostra l'offerta di Azure Databricks con l'opzione Crea selezionata.

  6. Immettere i valori seguenti:

    • Nome area di lavoro: specificare un nome per l'area di lavoro di Azure Databricks.
    • Area: assicurarsi di selezionare la stessa area della rete virtuale.
    • Piano tariffario: selezionare Standard, Premium o Versione di valutazione. Per altre informazioni su questi livelli, vedere la pagina dei prezzi di Azure Databricks.

    Screenshot che mostra una finestra di dialogo in cui è possibile immettere il nome, l'area e il piano tariffario dell'area di lavoro per l'account Azure Databricks.

  7. Selezionare la scheda Rete e immettere i dettagli seguenti:

    • Distribuire l'area di lavoro di Azure Databricks nella rete virtuale: selezionare .
    • Rete virtuale: dall'elenco a discesa scegliere la rete virtuale in cui è presente l'istanza gestita.
    • Nome subnet pubblica: inserire un nome per la subnet pubblica.
    • Intervallo CIDR della subnet pubblica: immettere un intervallo IP per la subnet pubblica.
    • Nome subnet privata: Inserisci un nome per la subnet privata.
    • Intervallo CIDR del subnet privato: immettere un intervallo IP per il subnet privato.

    Per evitare conflitti di intervallo, assicurarsi di selezionare intervalli più elevati. Se necessario, utilizzare un calcolatore di subnet visivo per suddividere le gamme.

    Screenshot che mostra il Visual Subnet Calculator con due indirizzi di rete identici evidenziati.

    Lo screenshot seguente mostra i dettagli di esempio nel riquadro di rete.

    Screenshot che mostra i nomi di subnet pubblici e privati specificati.

  8. Selezionare Rivedi e crea e quindi crea per distribuire l'area di lavoro.

  9. Aprire l'area di lavoro dopo la creazione dell'area di lavoro.

  10. Si verrà reindirizzati al portale di Azure Databricks. Nel portale selezionare New Cluster (Nuovo cluster).

  11. Nel riquadro Nuovo cluster accettare i valori predefiniti per tutti i campi diversi dai campi seguenti:

    • Nome del cluster: Inserire un nome per il cluster.
    • Versione di Databricks Runtime: è consigliabile selezionare Il runtime di Azure Databricks versione 7.5 o successiva per il supporto di Spark 3.x.

    Screenshot che mostra la finestra di dialogo Nuovo cluster con una versione del runtime di Azure Databricks selezionata.

  12. Espandere Opzioni avanzate e aggiungere la configurazione seguente. Assicurarsi di sostituire gli indirizzi IP e le credenziali del nodo.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Aggiungere la libreria del connettore Cassandra apache Spark al cluster per connettersi agli endpoint Cassandra nativi e di Azure Cosmos DB. Nel cluster selezionare Librerie>Installa nuovo>Maven e quindi aggiungere com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 nel campo Coordinate Maven.

    Screenshot che mostra la ricerca di pacchetti Maven in Azure Databricks.

  14. Selezionare Installa.

Pulire le risorse

Se non si intende continuare a usare questo cluster di istanza gestita, seguire questa procedura per eliminarlo:

  1. Nel menu a sinistra del portale di Azure, selezionare Gruppi di risorse.
  2. Nell'elenco selezionare il gruppo di risorse creato per questa guida introduttiva.
  3. Nel riquadro Panoramica del gruppo di risorse selezionare Elimina gruppo di risorse.
  4. Nel riquadro successivo immettere il nome del gruppo di risorse da eliminare e quindi selezionare Elimina.

Passo successivo

In questa guida introduttiva si è appreso come creare un cluster Apache Spark completamente gestito all'interno della rete virtuale del cluster Istanza gestita di Azure per Apache Cassandra. Informazioni su come gestire le risorse del cluster e del data center.