Condividi tramite


Guide sui dati

Databricks Data Intelligence Platform consente ai professionisti dei dati in tutta l'organizzazione di collaborare e produrre soluzioni di dati usando asset e strumenti di dati condivisi e regolati in modo sicuro.

Questo articolo cerca di identificare il punto di partenza corretto per il caso d'uso.

Molte attività in Azure Databricks richiedono autorizzazioni elevate. Molte organizzazioni limitano queste autorizzazioni elevate a un numero ridotto di utenti o team. Questo articolo consente di evitare ambiguità di azioni che possono essere completate dalla maggior parte degli utenti dell'area di lavoro dalle azioni limitate agli utenti con privilegi.

Gli amministratori dell'area di lavoro possono aiutare a determinare se è necessario richiedere l'accesso agli asset o richiedere autorizzazioni elevate.

Trovare e accedere ai dati

Questa sezione offre una breve panoramica delle attività che consentono di individuare gli asset di dati disponibili. La maggior parte di queste attività presuppone che un amministratore abbia configurato le autorizzazioni per gli asset di dati. Consultare Configurare l'accesso ai dati.

Area delle funzionalità Resources
Individuazione dei dati Per una panoramica più dettagliata delle attività di individuazione dei dati, vedere Individuare i dati.
Catalogs I cataloghi sono l'oggetto di primo livello nel modello di governance dei dati di Unity Catalog. Usare il Catalog Explorer per trovare tabelle, visualizzazioni e altri asset di dati. Consulta Esplora gli oggetti del database.
Archiviazione connessa Se si ha accesso alle risorse di calcolo, è possibile usare i comandi predefiniti per esplorare i file nell'archiviazione connessa. Vedere Esplorare l'archiviazione e trovare i file di dati.
Caricare file locali Per impostazione predefinita, gli utenti hanno le autorizzazioni per caricare file di dati di piccole dimensioni dal computer locale, come i file CSV. Consulta Creare o modificare una tabella tramite caricamento di file.

Lavorare con i dati

Questa sezione offre una panoramica delle attività di dati comuni e degli strumenti usati per eseguire tali attività.

Per tutte le attività descritte, gli utenti devono disporre delle autorizzazioni appropriate per strumenti, risorse di calcolo, dati e altri artefatti dell'area di lavoro. Vedere Configurare l'accesso ai dati e Configurare aree di lavoro e infrastruttura.

Area delle funzionalità Resources
Oggetti di database Oltre a tabelle e viste, Azure Databricks usa altri oggetti di database a protezione diretta, ad esempio volumi, per gestire in modo sicuro i dati. Consultare gli oggetti Database in Azure Databricks.
Autorizzazioni per i dati Il catalogo unity gestisce tutte le operazioni di lettura e scrittura nelle aree di lavoro abilitate. Per completare queste operazioni, è necessario disporre di autorizzazioni adeguate. Vedere oggetti proteggibili in Unity Catalog.
ETL I carichi di lavoro di estrazione, trasformazione e caricamento (ETL) sono tra gli usi più comuni per Apache Spark e Azure Databricks e la maggior parte della piattaforma include funzionalità create e ottimizzate per ETL. Vedere Esercitazione: Creare una pipeline ETL con le pipeline dichiarative di Lakeflow Spark.
Queries
  • Tutte le trasformazioni, i report, le analisi o le esecuzioni di training del modello iniziano con una query su una tabella, una vista o file di dati. È possibile eseguire query sui dati usando l'elaborazione batch o di flusso. Consulta Query data.
  • Effettuare query ad hoc usando l'editor di query SQL o i notebook per interrogare tabelle, viste e altri asset di dati. Consulta Scrivi query ed esplora i dati nel nuovo editor SQL e nei notebook di Databricks.
Cruscotti e analisi approfondite
  • I dashboard di intelligenza artificiale/BI consentono di estrarre e visualizzare facilmente informazioni dettagliate nell'interfaccia utente. Vedere Dashboard.
  • Gli spazi Genie usano prompt di testo per rispondere alle domande e offrire approfondimenti basati sui tuoi dati. Vedere Che cos'è uno spazio di intelligenza artificiale/BI Genie.
Ingest
Transformations Azure Databricks usa la sintassi e gli strumenti comuni per le trasformazioni che vanno dalla complessità delle istruzioni SQL CTAS alle applicazioni di streaming quasi in tempo reale.
Intelligenza artificiale e Machine Learning Databricks Data Intelligence Platform offre una suite di strumenti per l'analisi scientifica dei dati, l'apprendimento automatico e le applicazioni di intelligenza artificiale. Consulta intelligenza artificiale e apprendimento automatico su Databricks.

Configurare l'accesso ai dati

La maggior parte delle aree di lavoro di Azure Databricks si basa su un amministratore dell'area di lavoro o su altri utenti esperti per configurare le connessioni a origini dati esterne e applicare privilegi agli asset di dati in base all'appartenenza al team, all'area o ai ruoli. Questa sezione offre una panoramica delle attività comuni per la configurazione e il controllo dell'accesso ai dati che richiedono autorizzazioni elevate.

Note

Prima di richiedere autorizzazioni elevate per configurare una nuova connessione a un'origine dati, verifica se ti mancano solo privilegi su una connessione, un catalogo o una tabella esistente. Se un'origine dati non è disponibile, consultare l'organizzazione per ottenere i criteri per l'aggiunta di nuovi dati all'area di lavoro.

Area delle funzionalità Resources
Catalogo Unity
  • Unity Catalog supporta le funzionalità di governance dei dati integrate nella piattaforma data intelligence di Databricks. Consultare Che cos'è il Catalogo Unity?.
  • Gli amministratori dell'account Databricks, gli amministratori dell'area di lavoro e gli amministratori del metastore hanno privilegi predefiniti per gestire i privilegi dei dati di Unity Catalog per gli utenti. Consulta Gestire i privilegi in Unity Catalog.
Connessioni e accesso
Sharing
  • La Delta Sharing è il nucleo della piattaforma di condivisione dei dati sicura di Azure Databricks, che include Databricks Marketplace e Clean Rooms. Consulta Condividi i dati e le risorse di intelligenza artificiale in modo sicuro con gli utenti di altre organizzazioni.
  • Gli amministratori possono creare nuovi cataloghi. I cataloghi forniscono un'astrazione di alto livello per l'isolamento dei dati e possono essere associati a singole aree di lavoro o condivise in tutte le aree di lavoro in un account. Vedi Creare cataloghi. Le dashboard AI/BI incoraggiano i proprietari a inserire le proprie credenziali al momento della pubblicazione, assicurandosi che i visualizzatori possano ottenere informazioni dettagliate dai risultati condivisi. Per informazioni dettagliate, vedere Condividere un dashboard.

Configurare aree di lavoro e infrastruttura

Questa sezione offre una panoramica delle attività comuni associate all'amministrazione degli asset e dell'infrastruttura dell'area di lavoro. In generale, gli asset dell'area di lavoro includono quanto segue:

  • risorse di calcolo: Le risorse di calcolo includono cluster interattivi multiuso, warehouse SQL, cluster di processo ed elaborazione delle pipeline. Un utente o un carico di lavoro deve disporre delle autorizzazioni per connettersi all'esecuzione di risorse di calcolo per elaborare la logica specificata.

    Note

    Gli utenti che non hanno accesso per connettersi ad alcuna risorsa di calcolo hanno funzionalità molto limitate in Azure Databricks.

  • Strumenti della piattaforma: la piattaforma data intelligence di Databricks offre una suite di strumenti personalizzati per diversi casi d'uso e utenti, ad esempio notebook, Databricks SQL e Mosaic AI. Gli amministratori possono personalizzare le impostazioni che includono comportamenti predefiniti, funzionalità facoltative e accesso utente per molti di questi strumenti.

  • Artefatti: Gli artefatti includono notebook, query, dashboard, file, librerie, pipeline e processi. Gli artefatti contengono codice e configurazioni creati dagli utenti per eseguire le azioni desiderate sui dati.

Important

All'utente che crea un asset dell'area di lavoro viene assegnato il ruolo di proprietario per impostazione predefinita. Per la maggior parte degli asset, i proprietari possono concedere autorizzazioni a qualsiasi altro utente o gruppo nell'area di lavoro.

Per garantire che i dati e il codice siano sicuri, Databricks consiglia di configurare il ruolo proprietario per tutti gli artefatti e le risorse di calcolo distribuite in un'area di lavoro di produzione.

Area delle funzionalità Resources
Diritti dell'area di lavoro I diritti dell'area di lavoro includono l'accesso all'area di lavoro di base, l'accesso a Databricks SQL e la creazione di cluster senza restrizioni. Vedere Gestire i diritti.
Criteri di accesso alle risorse di calcolo &
  • La maggior parte dei costi in Azure Databricks riguarda le risorse di calcolo. Controllare quali utenti hanno la possibilità di configurare, distribuire, avviare e usare varie risorse è fondamentale per controllare i costi. Vedere Panoramica del calcolo classico.
  • I criteri di calcolo funzionano in combinazione con i diritti di calcolo dell'area di lavoro per garantire che gli utenti autorizzati distribuiscono solo le risorse di calcolo seguendo le regole di configurazione specificate. Vedere Creare e gestire i criteri di calcolo.
  • Gli amministratori possono configurare comportamenti predefiniti, criteri di accesso ai dati e accesso utente a SQL Warehouse. Vedere impostazioni amministrative del magazzino SQL.
Strumenti della piattaforma Usare la console di amministrazione per configurare i comportamenti che vanno dalla personalizzazione dell'aspetto dell'area di lavoro all'abilitazione o alla disabilitazione di prodotti e funzionalità. Vedi Gestisci l'area di lavoro.
ACL dell'area di lavoro Gli elenchi di controllo di accesso dell'area di lavoro controllano il modo in cui gli utenti e i gruppi possono interagire con gli asset dell'area di lavoro, tra cui risorse di calcolo, artefatti di codice e processi. Vedere Elenchi di controllo di accesso.

Produzione di carichi di lavoro

Tutti i prodotti Azure Databricks sono creati per accelerare il percorso dallo sviluppo alla produzione e per la scalabilità e la stabilità. In questa sezione viene fornita una breve introduzione alla suite di strumenti consigliati per il recupero dei carichi di lavoro nell'ambiente di produzione.

Area delle funzionalità Resources
Pipeline ETL Lakeflow Spark Declarative Pipelines fornisce una sintassi dichiarativa per la compilazione e la produzione di pipeline ETL. Vedere Pipeline dichiarative di Lakeflow Spark.
Orchestration Le attività consentono di definire flussi di lavoro complessi con dipendenze, trigger e pianificazioni. Consulta Attività di Lakeflow.
CI/CD I bundle di asset di Databricks semplificano la gestione e la distribuzione di dati, asset e artefatti tra aree di lavoro. Consulta Che cosa sono i pacchetti di risorse di Databricks?.