Individuare i dati
Azure Databricks offre una suite di strumenti e prodotti che semplificano l'individuazione degli asset di dati accessibili tramite databricks Data Intelligence Platform. Questo articolo offre una panoramica di come individuare e visualizzare in anteprima i dati già configurati per l'accesso nell'area di lavoro.
- Per connettersi alle origini dati, vedere Connettersi alle origini dati.
- Per informazioni su come ottenere l'accesso ai dati nel Marketplace di Databricks, vedere Informazioni su Databricks Marketplace.
Gli argomenti di questa sezione sono incentrati sull'esplorazione di oggetti dati e file di dati. Per informazioni sull'uso di asset come notebook, query SQL, librerie e modelli, vedere Esplorare l'area di lavoro.
Per indicazioni sulla generazione di statistiche di riepilogo per set di dati o altre attività associate all'analisi esplorativa dei dati (EDA), vedere Analisi esplorativa dei dati in Azure Databricks: Strumenti e tecniche.
Gli strumenti di individuazione dei dati in Azure Databricks rientrano nelle categorie generali seguenti:
- Informazioni dettagliate, riepilogo e ricerca assistita dall'intelligenza artificiale.
- Ricerca per parole chiave.
- Catalog l'esplorazione tramite l'interfaccia utente.
- Elenco a livello di codice ed esplorazione dei metadati.
Gli strumenti di individuazione dei dati sono ottimizzati per i dati regolati da Unity Catalog. Gli asset di dati che non sono stati registrati come oggetti Unity Catalog potrebbero non essere rilevabili seguendo alcuni di questi approcci.
Catalog Explorer offre strumenti per l'esplorazione e la governance degli asset di dati. È possibile accedere Catalog Explorer usando l'icona Catalog nella barra laterale dell'area di lavoro. Vedere Che cos'è Catalog Explorer?.
I notebook e l'editor di query SQL forniscono anche un navigatore catalog per l'esplorazione degli oggetti di database. Fare clic sull'icona Catalog in queste interfacce per espandere o comprimere il catalog strumento di navigazione senza uscire dall'editor di codice.
Dopo aver individuato un set di dati di interesse, è possibile usare la scheda Insights per informazioni su come vengono usati i dati nell'area di lavoro. Vedere Visualizzare query frequenti e utenti di un table.
È possibile usare il comando SHOW
su tutti gli oggetti di database per individuare gli asset registrati in Unity Catalog. Usare il comando LIST
, il comando "magic" %fs
o le Utilità di Databricks per list file.
Vedere Esplorare l'archiviazione e trovare i file di dati ed Esplorare gli oggetti di database.
È possibile esaminare i commenti per ottenere informazioni sul contenuto dei set di dati disponibili nel lakehouse. I commenti possono essere set sugli oggetti dati, tra cui catalogs, schemi, tablese columns. È possibile visualizzare i commenti in Esplora Catalog o usando il comando DESCRIBE
per un oggetto .
Catalog Explorer può fornire commenti generati dall'intelligenza artificiale per tables, rendendo facile per i proprietari dei dati fornire una panoramica completa dei set di dati. Consulta Aggiungi commenti generati dall'intelligenza artificiale agli oggetti Catalog di Unity.
Gli utenti possono anche fornire facoltativamente commenti su tables e altri oggetti di database usando markdown, che viene renderizzato in Catalog Explorer. Vedere Aggiungere commenti ai dati e agli asset IA.
È possibile usare la barra di ricerca in Azure Databricks per trovare tables registrato a Unity Catalog. È possibile eseguire una ricerca di parole chiave o usare la ricerca semantica per trovare set di dati o columns correlati alla query di ricerca. La ricerca restituisce solo i risultati per tables di cui si dispone dell'autorizzazione per visualizzare. Ricerca recensioni table nomi, column nomi, table commenti e column commenti. Vedere Cercare oggetti dell'area di lavoro.