Ambito della piattaforma lakehouse

Un framework moderno per i dati e la piattaforma di intelligenza artificiale

Per illustrare l'ambito della piattaforma di business intelligence per i dati di Databricks, è utile innanzitutto definire un framework di base per la piattaforma moderna per i dati e l'intelligenza artificiale:

Framework di analisi dei dati cloud

Panoramica dell'ambito lakehouse

Databricks Data Intelligence Platform copre il framework completo della piattaforma dati moderna. Si basa sull'architettura lakehouse e basata su un motore di data intelligence che comprende le qualità uniche dei dati. Si tratta di una base aperta e unificata per carichi di lavoro ETL, ML/AI e DWH/BI e offre Unity Catalog come soluzione di governance centralizzata per i dati e l'intelligenza artificiale.

Utenti del framework della piattaforma

Il framework illustra i membri primari del team di dati (persona) che lavorano con le applicazioni nel framework:

  • I data engineer forniscono a data scientist e business analyst dati accurati e riproducibili per informazioni tempestive sul processo decisionale e in tempo reale. Implementano processi ETL altamente coerenti e affidabili per aumentare la fiducia e la fiducia degli utenti nei dati. Assicurano che i dati siano ben integrati con i vari pilastri dell'azienda e in genere seguano le procedure consigliate per la progettazione del software.
  • I data scientist combinano competenze analitiche e comprensione aziendale per trasformare i dati in dati analitici strategici e modelli predittivi. Si tratta di una soluzione efficace per tradurre le sfide aziendali in soluzioni basate sui dati, sia che attraverso informazioni analitiche retrospettive o modellazione predittiva di tipo forward-looking. Sfruttando la modellazione dei dati e le tecniche di Machine Learning, progettano, sviluppano e distribuiscono modelli che svelano modelli, tendenze e previsioni dai dati. Agiscono come ponte, convertendo narrazioni di dati complesse in storie comprensibili, assicurando che gli stakeholder aziendali non solo comprendano, ma possono anche agire sulle raccomandazioni basate sui dati, a sua volta guidando un approccio incentrato sui dati alla risoluzione dei problemi all'interno di un'organizzazione.
  • I tecnici ml (ingegneri di Machine Learning) guidano l'applicazione pratica di data science in prodotti e soluzioni creando, distribuendo e mantenendo modelli di Machine Learning. Il loro obiettivo principale è quello di orientarsi verso l'aspetto tecnico dello sviluppo e della distribuzione dei modelli. I tecnici ml garantiscono affidabilità, affidabilità e scalabilità dei sistemi di Machine Learning in ambienti live, risolvendo le sfide correlate alla qualità dei dati, all'infrastruttura e alle prestazioni. Integrando i modelli di intelligenza artificiale e Machine Learning nei processi aziendali operativi e nei prodotti rivolti agli utenti, facilitano l'uso della data science nella risoluzione delle sfide aziendali, garantendo che i modelli non rimangano solo nella ricerca, ma favorisce un valore aziendale tangibile.
  • Gli analisti aziendali consentono agli stakeholder e ai team aziendali di usare dati interattivi. Spesso interpretano i dati e creano report o altri documenti per la leadership usando gli strumenti di business intelligence standard. In genere sono il punto di contatto per i colleghi non tecnici e operativi per domande di analisi rapida.
  • I partner commerciali sono stakeholder importanti in un mondo aziendale sempre più in rete. Sono definiti come società o persona con cui un'azienda ha una relazione formale per raggiungere un obiettivo comune e può includere fornitori, fornitori, distributori e altri partner di terze parti. La condivisione dei dati è un aspetto importante delle partnership commerciali, in quanto consente il trasferimento e lo scambio di dati per migliorare la collaborazione e il processo decisionale basato sui dati.

Domini del framework della piattaforma

La piattaforma è costituita da più domini:

  • Archiviazione: Nel cloud i dati vengono archiviati principalmente in archivi di oggetti cloud scalabili, efficienti e resilienti forniti dai provider di servizi cloud.
  • Governance: funzionalità relative alla governance dei dati, ad esempio il controllo di accesso, il controllo, la gestione dei metadati, il rilevamento della derivazione, il monitoraggio per tutti i dati e gli asset di intelligenza artificiale.
  • Motore di intelligenza artificiale: il motore di intelligenza artificiale offre funzionalità di intelligenza artificiale generative per l'intera piattaforma.
  • Inserimento e trasformazione Le funzionalità per i carichi di lavoro ETL.
  • Analisi avanzata, Machine Learning e intelligenza artificiale Tutte le funzionalità relative all'apprendimento automatico, all'intelligenza artificiale, all'intelligenza artificiale generativa e anche all'analisi di streaming.
  • Data warehouse Il dominio che supporta i casi d'uso DWH e BI.
  • Dominio di orchestrazione per la gestione centrale del flusso di lavoro e il
  • Strumenti ETL & DS: gli strumenti front-end usati principalmente dai data engineer, dai data scientist e dai tecnici ml per il lavoro.
  • Strumenti di business intelligence: gli strumenti front-end usati principalmente dagli analisti bi per il lavoro.
  • Collaborazione: funzionalità per la condivisione dei dati tra due o più parti.

Ambito della piattaforma Databricks

Databricks Data Intelligence Platform e i relativi componenti possono essere mappati al framework nel modo seguente:

Ambito del lago

Download: Ambito dei componenti lakehouse - Databricks

Soprattutto, Databricks Data Intelligence Platform copre tutti i carichi di lavoro pertinenti per il dominio dati in una sola piattaforma, con Apache Spark/Photon come motore:

  • Inserimento e trasformazione

    Per l'inserimento dei dati, il caricatore automatico elabora in modo incrementale e automatico i file di destinazione nell'archiviazione cloud in processi pianificati o continui, senza la necessità di gestire le informazioni sullo stato. Una volta inseriti, i dati non elaborati devono essere trasformati in modo che siano pronti per BI e ML/I. Databricks offre potenti funzionalità ETL per data engineer, data scientist e analisti.

    DLT (Delta Live Tables ) consente la scrittura di processi ETL in modo dichiarativo, semplificando l'intero processo di implementazione. La qualità dei dati può essere migliorata definendo le aspettative dei dati.

  • Analisi avanzata, ML e intelligenza artificiale

    La piattaforma include l'intelligenza artificiale di Databricks Mosaic, un set di strumenti di Machine Learning e intelligenza artificiale completamente integrati per machine learning tradizionale e deep learning, oltre a generativi modelli di intelligenza artificiale e linguaggio di grandi dimensioni.The platform include Databricks Mosaic AI, un set di strumenti di Machine Learning e intelligenza artificiale completamente integrati per machine learning tradizionale e deep learning, oltre a generativi modelli di intelligenza artificiale e linguaggio di grandi dimensioni. Illustra l'intero flusso di lavoro, dalla preparazione dei dati alla creazione di modelli di Machine Learning e Deep Learning, a Mosaic AI Model Serving.

    Spark Structured Streaming e DLT consentono l'analisi in tempo reale.

  • Data warehouse

    Databricks Data Intelligence Platform offre anche una soluzione data warehouse completa con Databricks SQL, gestita centralmente dal catalogo Unity con controllo di accesso granulare.

Mapping delle funzionalità di Databricks Data Intelligence Platform agli altri livelli del framework, dal basso verso l'alto:

  • Archiviazione nel cloud

    Tutti i dati per il lakehouse vengono archiviati nell'archivio oggetti del provider di servizi cloud. Databricks supporta tre provider di servizi cloud: AWS, Azure e GCP. I file in vari formati strutturati e semistrutturati (ad esempio, Parquet, CSV, JSON, Avro) e formati non strutturati (ad esempio, immagini) vengono inseriti e trasformati usando processi batch o di streaming.

    Delta Lake è il formato di dati consigliato per il lakehouse (transazioni di file, affidabilità, coerenza, aggiornamenti e così via) ed è completamente open source per evitare il blocco. E Delta Universal Format (UniForm) consente di leggere le tabelle Delta con client di lettura Iceberg.

    Non vengono usati formati di dati proprietari nella piattaforma data intelligence di Databricks.

  • Governance dei dati

    Oltre al livello di archiviazione, Unity Catalog offre un'ampia gamma di funzionalità di governance dei dati, tra cui la gestione dei metadati nel metastore, il controllo di accesso, il controllo, l'individuazione dei dati, la derivazione dei dati.

    Il monitoraggio di Lakehouse offre metriche di qualità predefinite per gli asset di dati e intelligenza artificiale e dashboard generati automaticamente per visualizzare queste metriche.

    Le origini SQL esterne possono essere integrate nel lakehouse e nel catalogo Unity tramite la federazione lakehouse.

  • Motore di intelligenza artificiale

    La piattaforma di data intelligence si basa sull'architettura lakehouse e migliorata dal motore di data intelligence DatabricksIQ. DatabricksIQ combina l'intelligenza artificiale generativa con i vantaggi di unificazione dell'architettura lakehouse per comprendere la semantica univoca dei dati. Ricerca intelligente e Assistente Databricks sono espampli dei servizi basati sull'intelligenza artificiale che semplificano l'uso della piattaforma per ogni utente.

  • Orchestrazione

    I flussi di lavoro di Databricks consentono di eseguire carichi di lavoro diversi per il ciclo di vita completo dei dati e dell'intelligenza artificiale in qualsiasi cloud. Consentono di orchestrare processi e tabelle live Delta per SQL, Spark, notebook, DBT, MODELLI di Machine Learning e altro ancora.

  • Strumenti ETL & DS

    A livello di consumo, i data engineer e i tecnici ml lavorano in genere con la piattaforma usando gli IDE. I data scientist preferiscono spesso notebook e usano i runtime ml e intelligenza artificiale e il sistema del flusso di lavoro di Machine Learning per tenere traccia degli esperimenti e gestire il ciclo di vita del modello.

  • Strumenti bi

    Gli analisti aziendali usano in genere lo strumento di business intelligence preferito per accedere al data warehouse di Databricks. Databricks SQL può essere sottoposto a query tramite diversi strumenti di analisi e bi, vedere BI e visualizzazione

    Inoltre, la piattaforma offre strumenti di query e analisi predefiniti:

    • Dashboard per creare visualizzazioni dei dati e condividere informazioni dettagliate in modo di trascinamento della selezione.
    • Editor SQL per gli analisti SQL per analizzare i dati.
  • Collaborazione

    La condivisione delta è un protocollo aperto sviluppato da Databricks per la condivisione sicura dei dati con altre organizzazioni indipendentemente dalle piattaforme di elaborazione usate.

    Databricks Marketplace è un forum aperto per lo scambio di prodotti dati. Sfrutta la condivisione Delta per offrire ai provider di dati gli strumenti per condividere i prodotti dati in modo sicuro e i consumer di dati possono esplorare ed espandere l'accesso ai dati e ai servizi dati di cui hanno bisogno.