Informazioni su Azure Databricks
Azure Databricks è una piattaforma unificata di analisi aperta per la creazione, la distribuzione, la condivisione e la gestione di dati, analisi e soluzioni di intelligenza artificiale di livello aziendale su larga scala. Databricks Data Intelligence Platform si integra con l'archiviazione cloud e la sicurezza nell'account cloud e gestisce e distribuisce l'infrastruttura cloud per conto dell'utente.
Come funziona una piattaforma di data intelligence?
Azure Databricks usa l'intelligenza artificiale generativa con data lakehouse per comprendere la semantica univoca dei dati. Ottimizza quindi automaticamente le prestazioni e gestisce l'infrastruttura in base alle esigenze aziendali.
L'elaborazione del linguaggio naturale apprende il linguaggio dell'azienda, in modo da poter cercare e individuare i dati ponendo una domanda nelle proprie parole. L'assistenza per il linguaggio naturale consente di scrivere codice, risolvere gli errori e trovare risposte nella documentazione.
Infine, le applicazioni di dati e intelligenza artificiale possono basarsi su governance e sicurezza avanzate. È possibile integrare API come OpenAI senza compromettere la privacy dei dati e il controllo IP.
Che cos'è Azure Databricks usato per?
Azure Databricks offre strumenti che consentono di connettere le origini dati a un'unica piattaforma per elaborare, archiviare, condividere, analizzare, modellare e monetizzare i set di dati con soluzioni da BI a intelligenza artificiale generativa.
L'area di lavoro di Azure Databricks offre un'interfaccia unificata e strumenti per la maggior parte delle attività di dati, tra cui:
- Pianificazione e gestione dell'elaborazione dati, in particolare ETL
- Generazione di dashboard e visualizzazioni
- Gestione di sicurezza, governance, disponibilità elevata e ripristino di emergenza
- Individuazione, annotazione ed esplorazione dei dati
- Modellazione, rilevamento e gestione di modelli di Machine Learning (ML)
- Soluzioni di intelligenza artificiale generative
Integrazione gestita con open source
Databricks ha un forte impegno per la community open source. Databricks gestisce gli aggiornamenti delle integrazioni open source nelle versioni di Databricks Runtime. Le tecnologie seguenti sono progetti open source creati originariamente dai dipendenti di Databricks:
Strumenti e accesso a livello di codice
Azure Databricks gestisce numerosi strumenti proprietari che integrano ed espandono queste tecnologie per aggiungere prestazioni ottimizzate e facilità d'uso, ad esempio:
Oltre all'interfaccia utente dell'area di lavoro, è possibile interagire con Azure Databricks a livello di codice con gli strumenti seguenti:
- REST API
- CLI
- Terraform
Come funziona Azure Databricks con Azure?
L'architettura della piattaforma Azure Databricks comprende due parti principali:
- L'infrastruttura usata da Azure Databricks per distribuire, configurare e gestire la piattaforma e i servizi.
- L'infrastruttura di proprietà del cliente gestita in collaborazione da Azure Databricks e dall'azienda.
A differenza di molte aziende di dati aziendali, Azure Databricks non forza la migrazione dei dati in sistemi di archiviazione proprietari per l'uso della piattaforma. Si configura invece un'area di lavoro di Azure Databricks configurando integrazioni sicure tra la piattaforma Azure Databricks e l'account cloud e quindi Azure Databricks distribuisce i cluster di calcolo usando le risorse cloud nell'account per elaborare e archiviare i dati nell'archiviazione oggetti e altri servizi integrati gestiti.
Unity Catalog estende ulteriormente questa relazione, consentendo di gestire le autorizzazioni per l'accesso ai dati usando una sintassi SQL familiare da Azure Databricks.
Le aree di lavoro di Azure Databricks soddisfano i requisiti di sicurezza e di rete di alcune delle aziende più grandi e più importanti del mondo. Azure Databricks semplifica l'avvio della piattaforma da parte dei nuovi utenti. Rimuove molti dei carichi di lavoro e delle preoccupazioni dell'uso dell'infrastruttura cloud, senza limitare le personalizzazioni e controllare i dati, le operazioni e i team di sicurezza esperti richiedono.
Quali sono i casi d'uso comuni per Azure Databricks?
I casi d'uso in Azure Databricks sono diversi in quanto i dati elaborati nella piattaforma e i numerosi utenti che lavorano con i dati come parte principale del proprio lavoro. I casi d'uso seguenti evidenziano il modo in cui gli utenti dell'organizzazione possono sfruttare Azure Databricks per eseguire attività essenziali per l'elaborazione, l'archiviazione e l'analisi dei dati che determinano funzioni e decisioni aziendali critiche.
Creare un data lakehouse aziendale
Data lakehouse combina i punti di forza dei data warehouse aziendali e dei data lake per accelerare, semplificare e unificare le soluzioni di dati aziendali. I data engineer, i data scientist, gli analisti e i sistemi di produzione possono tutti usare data lakehouse come singola fonte di verità, consentendo l'accesso tempestivo ai dati coerenti e riducendo le complessità della compilazione, della gestione e della sincronizzazione di molti sistemi dati distribuiti. Vedere Che cos'è un data lakehouse?.
ETL e ingegneria dei dati
Sia che si generino dashboard o applicazioni di intelligenza artificiale, l'ingegneria dei dati fornisce la spina dorsale per le aziende incentrate sui dati assicurandosi che i dati siano disponibili, puliti e archiviati in modelli di dati che consentano l'individuazione e l'uso efficienti. Azure Databricks combina la potenza di Apache Spark con Delta Lake e strumenti personalizzati per offrire un'esperienza ETL (estrazione, trasformazione, caricamento) senza precedenti. È possibile usare SQL, Python e Scala per comporre la logica ETL e quindi orchestrare la distribuzione pianificata dei processi con pochi clic.
Le tabelle live delta semplificano ulteriormente l'ETL gestendo in modo intelligente le dipendenze tra set di dati e distribuendo e ridimensionando automaticamente l'infrastruttura di produzione per garantire la distribuzione tempestiva e accurata dei dati in base alle specifiche.
Azure Databricks offre numerosi strumenti personalizzati per l'inserimento dati, tra cui il caricatore automatico, uno strumento efficiente e scalabile per il caricamento incrementale e idempotente dei dati dall'archiviazione di oggetti cloud e dai data lake nel data lakehouse.
Machine Learning, intelligenza artificiale e data science
Azure Databricks Machine Learning espande le funzionalità di base della piattaforma con una suite di strumenti personalizzati in base alle esigenze di data scientist e ingegneri di Machine Learning, tra cui MLflow e Databricks Runtime per Machine Learning.
Modelli linguistici di grandi dimensioni e intelligenza artificiale generativa
Databricks Runtime per Machine Learning include librerie come Hugging Face Transformers che consentono di integrare modelli con training preliminare esistenti o altre librerie open source nel flusso di lavoro. L'integrazione di Databricks MLflow semplifica l'uso del servizio di rilevamento MLflow con pipeline, modelli ed elaborazione dei trasformatori. È anche possibile integrare modelli o soluzioni OpenAI da partner come John Snow Labs nei flussi di lavoro di Databricks.
Con Azure Databricks è possibile personalizzare un LLM sui dati per l'attività specifica. Grazie al supporto degli strumenti open source, ad esempio Hugging Face e DeepSpeed, è possibile prendere in modo efficiente una base LLM e iniziare a eseguire il training con i propri dati per avere maggiore precisione per il dominio e il carico di lavoro.
Azure Databricks offre inoltre funzioni di intelligenza artificiale che gli analisti di dati SQL possono usare per accedere ai modelli LLM, tra cui OpenAI, direttamente all'interno delle pipeline di dati e dei flussi di lavoro. Vedere Funzioni di intelligenza artificiale in Azure Databricks.
Data warehousing, analisi e BI
Azure Databricks combina interfacce utente semplici da usare con risorse di calcolo convenienti e un'archiviazione scalabile infinitamente scalabile e conveniente per offrire una potente piattaforma per l'esecuzione di query analitiche. Gli amministratori configurano cluster di calcolo scalabili come sql warehouse, consentendo agli utenti finali di eseguire query senza doversi preoccupare delle complessità del lavoro nel cloud. Gli utenti SQL possono eseguire query sui dati nel lakehouse usando l'editor di query SQL o nei notebook. I notebook supportano Python, R e Scala oltre a SQL e consentono agli utenti di incorporare le stesse visualizzazioni disponibili nei dashboard legacy insieme a collegamenti, immagini e commenti scritti in markdown.
Governance dei dati e condivisione dei dati sicura
Unity Catalog offre un modello di governance dei dati unificato per data lakehouse. Gli amministratori cloud configurano e integrano autorizzazioni di controllo di accesso grossolano per Unity Catalog e quindi gli amministratori di Azure Databricks possono gestire le autorizzazioni per team e utenti singoli. I privilegi vengono gestiti con elenchi di controllo di accesso (ACL) tramite interfacce utente o sintassi SQL descrittive, rendendo più semplice per gli amministratori del database proteggere l'accesso ai dati senza dover ridimensionare la gestione degli accessi in identità (IAM) e la rete nativa del cloud.
Il catalogo di Unity semplifica l'esecuzione di analisi sicure nel cloud e offre una divisione di responsabilità che consente di limitare il reskilling o l'upskilling necessario sia per gli amministratori che per gli utenti finali della piattaforma. Vedere Che cos'è Unity Catalog?.
Il lakehouse rende la condivisione dei dati all'interno dell'organizzazione semplice come concedere l'accesso alle query a una tabella o a una vista. Per la condivisione all'esterno dell'ambiente sicuro, Unity Catalog include una versione gestita di Condivisione Delta.
Orchestrazione di devOps, CI/CD e attività
I cicli di vita di sviluppo per pipeline ETL, modelli di Machine Learning e dashboard di analisi presentano sfide specifiche. Azure Databricks consente a tutti gli utenti di sfruttare una singola origine dati, riducendo le attività duplicate e la creazione di report non sincronizzati. Fornendo inoltre una suite di strumenti comuni per il controllo delle versioni, l'automazione, la pianificazione, la distribuzione di codice e risorse di produzione, è possibile semplificare il sovraccarico per il monitoraggio, l'orchestrazione e le operazioni. I processi pianificano notebook di Azure Databricks, query SQL e altro codice arbitrario. Le cartelle Git consentono di sincronizzare i progetti di Azure Databricks con diversi provider Git più diffusi. Per una panoramica completa degli strumenti, vedere Strumenti di sviluppo.
Analisi in tempo reale e in streaming
Azure Databricks sfrutta apache Spark Structured Streaming per lavorare con lo streaming di dati e modifiche incrementali dei dati. Structured Streaming si integra strettamente con Delta Lake e queste tecnologie forniscono le basi sia per le tabelle Live Delta che per il caricatore automatico. Vedere Streaming in Azure Databricks.