Usare Spark nei notebook

Completato

È possibile eseguire molti tipi diversi di applicazione in Spark, tra cui codice in Script Python o Scala, codice Java compilato come archivio Java (JAR) e altri ancora. Spark viene comunemente usato in due tipi di carico di lavoro:

  • Processi di elaborazione in batch o in streaming per inserire, pulire e trasformare i dati, spesso in esecuzione come parte di una pipeline automatizzata.
  • Sessioni di analisi interattive per esplorare, analizzare e visualizzare i dati.

Esecuzione del codice Spark nei notebook

Azure Databricks include un'interfaccia del notebook integrata per l'uso di Spark. I notebook offrono un modo intuitivo per combinare il codice con le note Markdown, comunemente usate da data scientist e analisti dei dati. L'aspetto dell'esperienza integrata dei notebook in Azure Databricks è simile a quello dei notebook di Jupyter, una piattaforma per notebook open source molto diffusa.

Screenshot di un notebook in Azure Databricks.

I notebook sono costituiti da una o più celle, ognuna delle quali contiene codice o Markdown. Le celle di codice nei notebook hanno alcune funzionalità che consentono di essere più produttivi, tra cui:

  • Supporto per l'evidenziazione della sintassi e gli errori.
  • Completamento automatico del codice.
  • Visualizzazioni interattive dei dati.
  • Possibilità di esportare i risultati.

Suggerimento

Per altre informazioni sull'uso dei notebook in Azure Databricks, vedere l'articolo Notebook nella documentazione di Azure Databricks.