Creare il primo flusso di lavoro con un processo di Azure Databricks
Questo articolo illustra un processo di Azure Databricks che orchestra le attività per leggere ed elaborare un set di dati di esempio. Questa guida introduttiva spiega come:
- Creare un nuovo notebook e aggiungere codice per recuperare un set di dati di esempio contenente i nomi dei bambini più diffusi per anno.
- Salvare il set di dati di esempio in Unity Catalog.
- Creare un nuovo notebook e aggiungere codice per leggere il set di dati dal catalogo unity, filtrarlo in base all'anno e visualizzare i risultati.
- Creare un nuovo processo e configurare due attività usando i notebook.
- Eseguire il processo e visualizzare i risultati.
Requisiti
Se l'area di lavoro è abilitata per Unity Catalog e i flussi di lavoro serverless sono abilitati, per impostazione predefinita, il processo viene eseguito nel calcolo serverless. Non è necessaria l'autorizzazione di creazione del cluster per eseguire il processo con calcolo serverless.
In caso contrario, è necessario disporre dell'autorizzazione di creazione del cluster per creare risorse di calcolo o autorizzazioni per tutte le risorse di calcolo.
È necessario disporre di un volume in Unity Catalog. Questo articolo usa un volume denominato my-volume
in uno schema denominato default
all'interno di un catalogo denominato main
. Inoltre, è necessario disporre delle autorizzazioni seguenti in Unity Catalog:
READ VOLUME
eWRITE VOLUME
, oALL PRIVILEGES
per ilmy-volume
volume.USE SCHEMA
oALL PRIVILEGES
per lodefault
schema.USE CATALOG
oppureALL PRIVILEGES
per ilmain
catalogo.
Per impostare queste autorizzazioni, vedere l'amministratore di Databricks o i privilegi di Unity Catalog e gli oggetti a protezione diretta.
Creare i notebook
Recuperare e salvare i dati
Per creare un notebook per recuperare il set di dati di esempio e salvarlo in Unity Catalog:
Passare alla pagina di destinazione di Azure Databricks e fare clic su Nuovo nella barra laterale e selezionare Notebook. Databricks crea e apre un nuovo notebook vuoto nella cartella predefinita. La lingua predefinita è la lingua usata più di recente e il notebook viene collegato automaticamente alla risorsa di calcolo usata più di recente.
Se necessario, modificare il linguaggio predefinito in Python.
Copiare il codice Python seguente e incollarlo nella prima cella del notebook.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Leggere e visualizzare dati filtrati
Per creare un notebook per leggere e presentare i dati per il filtro:
Passare alla pagina di destinazione di Azure Databricks e fare clic su Nuovo nella barra laterale e selezionare Notebook. Databricks crea e apre un nuovo notebook vuoto nella cartella predefinita. La lingua predefinita è la lingua usata più di recente e il notebook viene collegato automaticamente alla risorsa di calcolo usata più di recente.
Se necessario, modificare il linguaggio predefinito in Python.
Copiare il codice Python seguente e incollarlo nella prima cella del notebook.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Creare un processo
Fare clic su Flussi di lavoro nella barra laterale.
Fare clic su .
La scheda Attività viene visualizzata con la finestra di dialogo Crea attività.
Sostituire Aggiungi un nome per il processo con il nome del processo.
Nel campo Nome attività immettere un nome per l'attività, ad esempio retrieve-baby-names.
Nel menu a discesa Tipo selezionare Notebook.
Usare il browser file per trovare il primo notebook creato, fare clic sul nome del notebook e fare clic su Conferma.
Fare clic su Crea attività.
Fare clic sotto l'attività appena creata per aggiungere un'altra attività.
Nel campo Nome attività immettere un nome per l'attività, ad esempio filter-baby-names.
Nel menu a discesa Tipo selezionare Notebook.
Usare il browser file per trovare il secondo notebook creato, fare clic sul nome del notebook e fare clic su Conferma.
Fare clic su Aggiungi in Parametri. Nel campo Chiave immettere
year
. Nel campo Valore immettere2014
.Fare clic su Crea attività.
Eseguire il processo
Per eseguire immediatamente il processo, fare clic nell'angolo superiore destro. È anche possibile eseguire il processo facendo clic sulla scheda Esecuzioni e facendo clic su Esegui ora nella tabella Esecuzioni attive.
Visualizzare i dettagli dell'esecuzione
Fare clic sulla scheda Esecuzioni e fare clic sul collegamento per l'esecuzione nella tabella Esecuzioni attive o nella tabella Esecuzioni completate (ultimi 60 giorni).
Fare clic su una delle due attività per visualizzare l'output e i dettagli. Ad esempio, fare clic sull'attività filter-baby-names per visualizzare l'output ed eseguire i dettagli per l'attività di filtro:
Eseguire con parametri diversi
Per rieseguare il processo e filtrare i nomi dei bambini per un anno diverso:
- Fare clic accanto a Esegui ora e selezionare Esegui ora con parametri diversi oppure fare clic su Esegui ora con parametri diversi nella tabella Esecuzioni attive.
- Nel campo Valore immettere
2015
. - Fai clic su Esegui.
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per