Caricare i dati per l’apprendimento automatico e il Deep Learning

Questa sezione fornisce informazioni sul caricamento dei dati in modo specifico per applicazioni di apprendimento automatico e Deep Learning. Per informazioni generali sul caricamento dei dati, vedere Connettori Standard in Lakeflow Connect.

Archiviare file per il caricamento dei dati e l'impostazione del checkpoint dei modelli

È possibile che le applicazioni di apprendimento automatico debbano usare risorse di archiviazione condivise per il caricamento dei dati e l'impostazione del checkpoint dei modelli. Questo aspetto è particolarmente importante per Deep Learning distribuito.

Azure Databricks offre Unity Catalog, una soluzione di governance unificata per i dati e gli asset di intelligenza artificiale. È possibile usare Unity Catalog per l'accesso ai dati in un cluster tramite API di file locali e Spark.

Caricare dati tabulari

È possibile caricare dati di Machine Learning tabulari da tabelle o file( ad esempio, vedere leggere i file CSV). È possibile convertire DataFrame di Apache Spark in DataFrame di pandas usando il metodo PySparktoPandas(), e quindi eseguire facoltativamente la conversione in formato NumPy usando il metodo PySparkto_numpy().

Preparare i dati per ottimizzare i modelli linguistici di grandi dimensioni

È possibile impostare i dati per ottimizzare i modelli linguistici open source di grandi dimensioni con Hugging Face Transformers e Hugging Face Datasets.

Impostare i dati per ottimizzare i modelli Hugging Face

Impostare i dati per il training di Deep Learning distribuito

Questa sezione illustra l'impostazione dei dati per il training di Deep Learning distribuito tramite Mosaic Streaming e TFRecords.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-05-09