Eventi
31 mar, 23 - 2 apr, 23
Il più grande evento di apprendimento di Fabric, Power BI e SQL. 31 marzo - 2 aprile. Usare il codice FABINSIDER per salvare $400.
Iscriviti oggi stessoQuesto browser non è più supportato.
Esegui l'aggiornamento a Microsoft Edge per sfruttare i vantaggi di funzionalità più recenti, aggiornamenti della sicurezza e supporto tecnico.
Questa esercitazione illustra come usare il plug-in Azure Toolkit for IntelliJ per sviluppare applicazioni Apache Spark scritte in Scala e quindi inviarle a un pool di Apache Spark serverless direttamente dall'ambiente di sviluppo integrato (IDE) di IntelliJ. È possibile usare il plug-in in vari modi:
In questa esercitazione apprenderai a:
Plug-in Azure Toolkit versione 3.27.0-2019.2 - Eseguire l'installazione dal repository di plug-in IntelliJ
Plug-in Scala - Eseguire l'installazione dal repository di plug-in IntelliJ.
Il prerequisito seguente si applica solo agli utenti di Windows:
Quando si esegue l'applicazione Spark Scala locale in un computer Windows, potrebbe essere restituita un'eccezione, come spiegato in SPARK-2356, che si verifica a causa di un file WinUtils.exe mancante in Windows. Per risolvere questo errore, scaricare il file eseguibile WinUtils in un percorso come C:\WinUtils\bin. È quindi necessario aggiungere una variabile di ambiente HADOOP_HOME e impostare il valore della variabile su C:\WinUtils.
Avviare IntelliJ IDEA e selezionare Crea nuovo progetto per aprire la finestra Nuovo progetto.
Selezionare Apache Spark/HDInsight nel riquadro sinistro.
Selezionare Spark Project with Samples(Scala) (Progetto Spark con esempi (Scala)) dalla finestra principale.
Nell'elenco Strumento di compilazione selezionare uno dei tipi seguenti:
Selezionare Avanti.
Nella finestra Nuovo progetto specificare le informazioni seguenti:
Proprietà | Descrizione |
---|---|
Nome progetto | Immetti un nome. In questa esercitazione viene usato myApp . |
Posizione del progetto | Immettere il percorso desiderato in cui salvare il progetto. |
Project SDK (SDK progetto) | Potrebbe essere vuoto al primo uso di IDEA. Selezionare New (Nuovo) e passare al proprio JDK. |
Versione Spark | La creazione guidata integra la versione corretta dell'SDK di Spark e Scala. Qui è possibile scegliere la versione di Spark necessaria. |
Selezionare Fine. Potrebbero occorrere alcuni minuti prima che il progetto diventi disponibile.
Il progetto Spark crea automaticamente un artefatto. Per visualizzare l'artefatto, eseguire questa operazione:
a. Dalla barra dei menu passare a File>Struttura del progetto....
b. Dalla finestra Struttura del progetto, selezionare Artefatti.
c. Selezionare Annulla dopo aver visualizzato l'elemento.
Trovare LogQuery in myApp>src>main>scala>sample>LogQuery. Questa esercitazione usa LogQuery per l'esecuzione.
Accedere alla sottoscrizione di Azure per connettersi ai pool di Spark.
Dalla barra dei menu, passare a Visualizza>strumento Windows>Azure Explorer.
Da Azure Explorer, fare clic con il pulsante destro del mouse sul nodo Azure e quindi scegliere Sign In (Accedi).
Nella finestra di dialogo Azure Sign In (Accesso ad Azure) scegliere Accesso dispositivo e quindi selezionare Accedi.
Nella finestra di dialogo Accesso dispositivo selezionare Copia e apri.
Nell'interfaccia del browser incollare il codice e quindi selezionare Avanti.
Immettere le credenziali di Azure e quindi chiudere il browser.
Dopo l'accesso, la finestra di dialogo Selezionare le sottoscrizioni elenca tutte le sottoscrizioni di Azure associate alle credenziali. Selezionare la sottoscrizione e quindi Seleziona.
In Azure Explorer espandere Apache Spark on Synapse (Apache Spark in Synapse) per visualizzare le aree di lavoro disponibili nelle sottoscrizioni.
Per visualizzare i pool di Spark, è possibile espandere ulteriormente un'area di lavoro.
Dopo aver creato un'applicazione Scala, è possibile eseguirla in modalità remota.
Aprire la finestra Run/Debug Configurations (Esecuzione/Debug configurazioni) selezionando l'icona.
Nella finestra di dialogo Run/Debug Configurations (Esecuzione/Debug configurazioni) selezionare + e quindi Apache Spark on Synapse.
Nella finestra Run/Debug Configurations (Esecuzione/Debug configurazioni) specificare i valori seguenti e quindi selezionare OK:
Proprietà | valore |
---|---|
Pool di Spark | Selezionare i pool di Spark in cui eseguire l'applicazione. |
Selezionare un artefatto da inviare | Lasciare l'impostazione predefinita. |
Nome della classe principale | Il valore predefinito corrisponde alla classe principale del file selezionato. È possibile modificare la classe selezionando i puntini di sospensione (...) e scegliendo una classe diversa. |
Configurazioni del processo | È possibile modificare i valori e la chiave predefiniti. Per altre informazioni, vedere Apache Livy REST API (API REST di Apache Livy). |
Argomenti della riga di comando | È possibile immettere gli argomenti divisi da uno spazio per la classe principale, se necessario. |
Referenced Jars (file JAR di riferimento) e Referenced Files (file di riferimento) | È possibile immettere i percorsi per file e jar di riferimento, se presenti. È anche possibile selezionare i file nel file system virtuale di Azure, che attualmente supporta solo cluster di Azure Data Lake Storage Gen2. Per altre informazioni, vedere Configurazione di Apache Spark e Come caricare risorse nel cluster. |
Archivio di caricamento del processo | Espandere per visualizzare le opzioni aggiuntive. |
Tipo di archiviazione | Nell'elenco a discesa selezionare Use Azure Blob to upload (Usa BLOB di Azure per caricare) o Use cluster default storage account to upload (Usa l'account di archiviazione predefinito del cluster per caricare). |
Account di archiviazione | Immettere l'account di archiviazione. |
Chiave di archiviazione | Immettere la chiave di archiviazione. |
Contenitore di archiviazione | Selezionare il contenitore di archiviazione dall'elenco a discesa una volta immessi Account di archiviazione e chiave di archiviazione. |
Selezionare l'icona SparkJobRun per inviare il progetto al pool di Spark selezionato. La scheda Remote Spark Job in Cluster (Processo Spark remoto nel cluster) visualizza lo stato dell'esecuzione del processo, nella parte inferiore. È possibile arrestare l'applicazione selezionando il rosso.
È possibile seguire le istruzioni riportate di seguito per configurare l'esecuzione locale e il debug locale per il processo di Apache Spark.
Aprire la finestra di dialogo Run/Debug Configurations (Esecuzione/Debug configurazioni) e selezionare il segno più (+). Selezionare quindi l'opzione Apache Spark on Synapse (Apache Spark in Synapse). Per salvare, immettere le informazioni per Nome e Nome della classe principale.
Quindi selezionare il pulsante per la riproduzione locale.
Una volta completata l'esecuzione locale, se lo script include l'output, è possibile controllare il file di output da data>default (dati > predefinito).
Aprire lo script LogQuery e impostare i punti di interruzione.
Selezionare l'icona Local debug (Debug locale) per eseguire il debug locale.
In Azure Explorer è possibile eseguire varie operazioni all'interno di Azure Toolkit for IntelliJ. Dalla barra dei menu, passare a Visualizza>strumento Windows>Azure Explorer.
Da Azure Explorer passare a Apache Spark on Synapse (Apache Spark in Synapse) ed espandere la voce.
Fare clic con il pulsante destro del mouse su un'area di lavoro, scegliere Launch workspace per aprire il sito Web.
È possibile eseguire la console locale Spark (Scala) o eseguire la console della sessione Spark Livy interattiva (Scala).
Assicurarsi di aver soddisfatto il prerequisito relativo al file WINUTILS.EXE.
Dalla barra dei menu passare a Run>Edit Configurations... (Esegui > Modifica configurazioni).
Dalla finestra Run/Debug Configurations (Esecuzione/Debug configurazioni) nel riquadro a sinistra, passare a Apache Spark on Synapse>[Spark on Synapse] myApp (Apache Spark in Synapse > [Spark in Synapse] myApp).
Nella finestra principale selezionare la scheda Locally Run (Esecuzione locale).
Specificare i valori seguenti e quindi selezionare OK:
Proprietà | valore |
---|---|
Variabili di ambiente | Verificare che il valore di HADOOP_HOME sia corretto. |
WINUTILS.exe location (Percorso di WINUTILS.exe) | Assicurarsi che il percorso sia corretto. |
Da Project (Progetto) passare a myApp>src>main>scala>myApp.
Dalla barra dei menu passare a Tools>Spark Console>Run Spark Local Console(Scala) (Strumenti > Console Spark > Esegui console locale Spark - Scala).
Potrebbero venire visualizzate due finestre di dialogo in cui viene chiesto se si vuole correggere automaticamente le dipendenze. In caso affermativo, selezionare Auto Fix (Correggi automaticamente).
La console dovrebbe essere simile all'immagine seguente. Nella finestra della console digitare sc.appName
e quindi premere CTRL+INVIO. Verrà visualizzato il risultato. È possibile arrestare la console locale selezionando il pulsante rosso.
È supportata solo in IntelliJ 2018.2 e 2018.3.
Dalla barra dei menu passare a Run>Edit Configurations... (Esegui > Modifica configurazioni).
Dalla finestra Run/Debug Configurations (Esecuzione/Debug configurazioni) nel riquadro a sinistra, passare a Apache Spark on Synapse>[Spark on Synapse] myApp (Apache Spark in Synapse > [Spark in Synapse] myApp).
Dalla finestra principale selezionare la scheda Remotely Run in Cluster (Esecuzione remota nel cluster).
Specificare i valori seguenti e quindi selezionare OK:
Proprietà | valore |
---|---|
Nome della classe principale | Selezionare il nome della classe principale. |
Pool di Spark | Selezionare i pool di Spark in cui eseguire l'applicazione. |
Da Project (Progetto) passare a myApp>src>main>scala>myApp.
Dalla barra dei menu passare a Tools>Spark Console>Run Spark Livy Interactive Session Console(Scala) (Strumenti > Console Spark > Esegui console della sessione Spark Livy interattiva -Scala).
La console dovrebbe essere simile all'immagine seguente. Nella finestra della console digitare sc.appName
e quindi premere CTRL+INVIO. Verrà visualizzato il risultato. È possibile arrestare la console locale selezionando il pulsante rosso.
È possibile scegliere di visualizzare il risultato dello script inviando codice alla console locale o alla console della sessione Livy interattiva (Scala). A tale scopo, è possibile evidenziare il codice nel file Scala e quindi fare clic con il pulsante destro del mouse su Send Selection To Spark Console (Invia selezione alla console Spark). Il codice selezionato verrà inviato alla console ed eseguito. Il risultato verrà visualizzato dopo il codice nella console. La console controllerà gli errori, se presenti.
Eventi
31 mar, 23 - 2 apr, 23
Il più grande evento di apprendimento di Fabric, Power BI e SQL. 31 marzo - 2 aprile. Usare il codice FABINSIDER per salvare $400.
Iscriviti oggi stessoFormazione
Modulo
Analizzare i dati con Apache Spark in Azure Synapse Analytics - Training
<div|Apache Spark is a core technology for large-scale data analytics. Learn how to use Spark in Azure Synapse Analytics to analyze and visualize data in a data lake. </div|
Documentazione
Creare, sviluppare e gestire notebook di Synapse - Azure Synapse Analytics
Questo articolo illustra come creare e sviluppare notebook di Synapse per la preparazione e la visualizzazione dei dati.
Visualizzazioni Python - Azure Synapse Analytics
Usare i notebook Python e Azure Synapse per visualizzare i dati
Panoramica di Apache Spark in Azure Synapse Analytics - Azure Synapse Analytics
Questo articolo fornisce un'introduzione ad Apache Spark in Azure Synapse Analytics e presenta i diversi scenari in cui è possibile usare Spark.