Condividi tramite


Esplorare i dati nel database con mirroring con notebook

È possibile esplorare i dati replicati dal database con mirroring con query Spark nei notebook.

I notebook sono un potente elemento di codice che consente di sviluppare processi Apache Spark e esperimenti di Machine Learning sui dati. È possibile usare i notebook in Fabric Lakehouse per esplorare le tabelle con mirroring.

Prerequisiti

Creare un collegamento

È prima necessario creare un collegamento dalle tabelle con mirroring in Lakehouse e quindi creare notebook con query Spark in Lakehouse.

  1. Nel portale infrastruttura aprire Ingegneria dei dati.

  2. Se non è già stato creato un Lakehouse, selezionare Lakehouse e creare un nuovo Lakehouse assegnandogli un nome.

  3. Selezionare Recupera dati ->Nuovo collegamento.

  4. Selezionare Microsoft OneLake.

  5. È possibile visualizzare tutti i database con mirroring nell'area di lavoro Infrastruttura.

  6. Selezionare il database con mirroring da aggiungere a Lakehouse come collegamento.

  7. Selezionare le tabelle desiderate dal database con mirroring.

  8. Selezionare Avanti, quindi Crea.

  9. In Esplora risorse è ora possibile visualizzare i dati della tabella selezionati in Lakehouse. Screenshot del portale di Infrastruttura che mostra Lakehouse Explorer che mostra le tabelle e i dati del database con mirroring.

    Suggerimento

    È possibile aggiungere altri dati direttamente in Lakehouse o usare collegamenti come S3, ADLS Gen2. È possibile passare all'endpoint di analisi SQL di Lakehouse e unire i dati in tutte queste origini con dati con mirroring senza problemi.

  10. Per esplorare questi dati in Spark, selezionare i ... puntini accanto a qualsiasi tabella. Selezionare Nuovo notebook o Notebook esistente per iniziare l'analisi. Screenshot del portale di Fabric che mostra il menu di scelta rapida per aprire una tabella di database con mirroring in un notebook.

  11. Il notebook verrà aperto automaticamente e il frame di dati verrà caricato con una SELECT ... LIMIT 1000 query Spark SQL.

    • Il caricamento completo dei nuovi notebook può richiedere fino a due minuti. È possibile evitare questo ritardo usando un notebook esistente con una sessione attiva. Screenshot del portale di Infrastruttura che mostra i dati di una tabella di database con mirroring in un nuovo notebook con una query Spark SQL.