febbraio 2019

Articolo
03/01/2024

Queste funzionalità e i miglioramenti della piattaforma Azure Databricks sono stati rilasciati a febbraio 2019.

Nota

Le versioni vengono gestite in staging. L'account Azure Databricks potrebbe non essere aggiornato fino a una settimana dopo la data di rilascio iniziale.

Databricks Light disponibile a livello generale

26 febbraio - 5 marzo 2019: versione 2.92

Databricks Light (noto anche come Ingegneria dei dati Light) è ora disponibile. Databricks Light è il pacchetto databricks del runtime Apache Spark open source. Offre un'opzione di runtime per i processi che non richiedono i vantaggi in termini prestazioni avanzate, affidabilità o scalabilità automatica offerti da Databricks Runtime. È possibile selezionare Databricks Light solo quando si crea un cluster per eseguire un processo JAR, Python o spark-submit. Non è invece possibile selezionare questo runtime per i cluster in cui vengono eseguiti i carichi di lavoro dei processi di notebook o interattivi. Vedere Databricks Light.

MLflow gestito nell'anteprima pubblica di Azure Databricks

26 febbraio - 5 marzo 2019: versione 2.92

MLflow è una piattaforma open source per la gestione del ciclo di vita end-to-end di Machine Learning. Affronta tre funzioni principali:

Rilevamento degli esperimenti per registrare e confrontare parametri e risultati.
Gestione e distribuzione di modelli da un'ampia gamma di librerie di Machine Learning a un'ampia gamma di piattaforme di gestione e inferenza del modello.
Creazione di pacchetti di codice ML in un formato riutilizzabile riproducibile da condividere con altri data scientist o trasferire in produzione.

Azure Databricks offre ora una versione completamente gestita e ospitata di MLflow integrata con funzionalità di sicurezza aziendali, disponibilità elevata e altre funzionalità dell'area di lavoro di Azure Databricks, ad esempio la gestione degli esperimenti, la gestione delle esecuzioni e l'acquisizione delle revisioni dei notebook. MLflow in Azure Databricks offre un'esperienza integrata per il rilevamento e la protezione delle esecuzioni di training dei modelli di Machine Learning e l'esecuzione dei progetti di Machine Learning. Usando MLflow gestito in Azure Databricks, si ottengono i vantaggi di entrambe le piattaforme, tra cui:

Aree di lavoro: tenere traccia e organizzare in modo collaborativo esperimenti e risultati all'interno delle aree di lavoro di Azure Databricks con un server di rilevamento MLflow ospitato e un'interfaccia utente dell'esperimento integrata. Quando si usa MLflow nei notebook, Azure Databricks acquisisce automaticamente le revisioni dei notebook in modo da poter riprodurre lo stesso codice ed eseguirli in un secondo momento.
Sicurezza: sfruttare un modello di sicurezza comune per l'intero ciclo di vita di Machine Learning tramite ACL.
Processi: eseguire progetti MLflow come processi di Azure Databricks in modalità remota e direttamente dai notebook di Azure Databricks.

Ecco una demo di un flusso di lavoro di rilevamento in un'area di lavoro di Azure Databricks:

Track runs and organize experiment workflow

Per informazioni dettagliate, vedere Tenere traccia delle esecuzioni di training di Machine Learning e Deep Learning ed Eseguire progetti MLflow in Azure Databricks.

Il connettore Azure Data Lake Storage Gen2 è disponibile a livello generale

15 febbraio 2019

Azure Data Lake Archiviazione Gen2 (ADLS Gen2), la soluzione Data Lake di nuova generazione per l'analisi di Big Data, è ora disponibile a livello generale, come il connettore ADLS Gen2 per Azure Databricks. Siamo lieti anche di annunciare che ADLS Gen2 supporta Databricks Delta quando si eseguono cluster in Databricks Runtime 5.2 e versioni successive.

Python 3 ora è la versione predefinita quando si creano cluster

12-19 febbraio 2019: Versione 2.91

La versione predefinita di Python per i cluster creati con l'interfaccia utente è passata da Python 2 a Python 3. L'impostazione predefinita per i cluster creati usando l'API REST è ancora Python 2.

I cluster esistenti non modificheranno le versioni di Python. Tuttavia, se si ha l'abitudine di prendere l'impostazione predefinita di Python 2 quando si creano nuovi cluster, è necessario iniziare a prestare attenzione alla selezione della versione di Python.

Default Python version

Delta Lake disponibile a livello generale

1 febbraio 2019

Ora tutti possono sfruttare i vantaggi del potente livello di archiviazione transazionale di Databricks Delta e delle letture super veloci: a partire dal 1° febbraio Delta Lake è disponibile a livello generale e disponibile in tutte le versioni supportate di Databricks Runtime. Per informazioni su Delta, vedere Che cos'è Delta Lake?.

Share via