Esercitazione: Usare un notebook con Apache Spark per eseguire query su un database KQL

Importante

Microsoft Fabric è attualmente in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto di versione preliminare che può essere modificato sostanzialmente prima che venga rilasciato. Microsoft non garantisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

I notebook sono entrambi documenti leggibili contenenti descrizioni di analisi dei dati e risultati e documenti eseguibili che possono essere eseguiti per eseguire l'analisi dei dati. In questo articolo viene illustrato come usare un notebook di Microsoft Fabric per leggere e scrivere dati in un database KQL usando Apache Spark. Questa esercitazione usa set di dati e notebook precreati sia in Analisi in tempo reale che negli ambienti di Ingegneria dei dati in Microsoft Fabric. Per altre informazioni sui notebook, vedere Come usare i notebook di Microsoft Fabric.

In particolare, si apprenderà come:

  • Creare un database KQL
  • Importare un notebook
  • Scrivere dati in un database KQL usando Apache Spark
  • Eseguire query sui dati da un database KQL

Prerequisiti

1- Creare un database KQL

  1. Aprire il commutatore dell'esperienza nella parte inferiore del riquadro di spostamento e selezionare Analisi in tempo reale.

  2. Selezionare il riquadro database KQL (anteprima).

    Screenshot del nuovo riquadro del database KQL in Real-Time Analytics.

  3. Nel campo Nome database KQL immettere nycGreenTaxi e quindi selezionare Crea.

    Il database KQL è ora stato creato nel contesto dell'area di lavoro selezionata.

  4. Copiare l'URI di query dalla scheda dei dettagli del database nel dashboard del database e incollarla da un punto all'altro, ad esempio un blocco note, da usare in un passaggio successivo.

     Screenshot della scheda dei dettagli del database che mostra i dettagli del database. L'opzione URI di query denominata Copia URI è evidenziata.

2- Scaricare il notebook di Nyc GreenTaxi

È stato creato un notebook di esempio che consente di eseguire tutti i passaggi necessari per caricare i dati nel database usando il connettore Spark.

  1. Aprire il repository di esempi di Fabric in GitHub per scaricare il notebook KQL di NYC GreenTaxi KQL.

    Screenshot del repository GitHub che mostra il notebook nyc GreenTaxi. L'opzione Raw è evidenziata.

  2. Salvare il notebook in locale nel dispositivo.

    Nota

    Il notebook deve essere salvato nel .ipynb formato di file.

3- Importare il notebook

Il resto di questo flusso di lavoro si verifica nella sezione Ingegneria dei dati del prodotto e usa un notebook Spark per caricare ed eseguire query sui dati nel database KQL.

  1. Aprire il commutatore dell'esperienza nella parte inferiore del riquadro di spostamento e selezionare Ingegneria dei dati.

  2. Selezionare Importa notebook.

    Screenshot delle opzioni dell'elemento in Ingegneria dei dati. L'elemento denominato Importa notebook è evidenziato.

  3. Nella finestra Importa stato selezionare Carica.

    Screenshot della finestra Importa stato. Il pulsante denominato Carica è evidenziato.

  4. Selezionare il notebook nyc GreenTaxi scaricato in un passaggio precedente.

  5. Al termine dell'importazione, tornare all'area di lavoro per aprire questo notebook.

4- Ottenere dati

Per eseguire query sul database usando il connettore Spark, è necessario concedere l'accesso in lettura e scrittura al contenitore BLOB nyc GreenTaxi.

Selezionare il pulsante play per eseguire le celle seguenti oppure selezionare la cella e premere MAIUSC+ INVIO. Ripetere questo passaggio per ogni cella di codice.

Nota

Attendere che venga visualizzato il segno di spunta di completamento prima di eseguire la cella successiva.

  1. Eseguire la cella seguente per abilitare l'accesso al contenitore BLOB nyc GreenTaxi.

    Screenshot della prima cella di codice che mostra le informazioni di accesso all'archiviazione.

  2. In KustoURI incollare l'URI querycopiato in precedenza anziché il testo segnaposto.

  3. Modificare il nome del database segnaposto in nycGreenTaxi.

  4. Modificare il nome della tabella segnaposto in GreenTaxiData.

    Screenshot della seconda cella di codice che mostra le informazioni sul database di destinazione. L'URI query, il nome del database e il nome della tabella sono evidenziati.

  5. Eseguire la cella.

  6. Eseguire la cella successiva per scrivere dati nel database. Il completamento di questo passaggio potrebbe richiedere alcuni minuti.

    Screenshot della terza cella di codice che mostra il mapping delle tabelle e il comando di inserimento.

Il database ora dispone di dati caricati in una tabella denominata GreenTaxiData.

5- Eseguire il notebook

Eseguire le due celle rimanenti in sequenza per eseguire query sui dati dalla tabella. I risultati mostrano i primi 20 prezzi più alti e più bassi dei taxi e distanze registrate per anno.

Screenshot della quarta e quinta cella di codice che mostra i risultati della query.

6- Pulire le risorse

Pulire gli elementi creati passando all'area di lavoro in cui sono stati creati.

  1. Nell'area di lavoro passare il puntatore del mouse sul notebook da eliminare, selezionare il menu Altro [...] >Elimina.

    Screenshot dell'area di lavoro che mostra il menu a discesa del notebook di NYC GreenTaxi. L'opzione denominata Elimina è evidenziata.

  2. Selezionare Elimina. Non è possibile ripristinare il notebook dopo l'eliminazione.

Passaggi successivi