Načtení dat pro strojové učení a hluboké učení

Tato část obsahuje informace o načítání dat určené speciálně pro aplikace ML a DL. Obecné informace o načítání dat najdete v tématu Standardní konektory v Lakeflow Connect.

Ukládání souborů pro načítání dat a vytváření kontrolních bodů modelu

Aplikace strojového učení mohou pro načítání dat a vytváření kontrolních bodů modelu potřebovat využití sdíleného úložiště. Je to důležité hlavně pro distribuované hluboké učení.

Azure Databricks poskytuje Unity Catalog, jednotné řešení správy pro data a prostředky AI. Katalog Unity můžete použít pro přístup k datům v clusteru pomocí rozhraní SPARK i místních rozhraní API souborů.

Načítání tabulkových dat

Data tabulkového strojového učení můžete načíst z tabulek nebo souborů (viz například Čtení souborů CSV). Datové rámce Apache Spark můžete převést na datové rámce pandas pomocí metody PySparktoPandas(), a pak volitelně převést na formát NumPy pomocí metody PySparkto_numpy().

Příprava dat na vyladění velkých jazykových modelů

K vyladění opensourcových velkých jazykových modelů můžete připravit data s Hugging Face Transformers a Hugging Face Datasets.

Příprava dat na vyladění modelů Hugging Face

Příprava dat pro distribuované trénování hlubokého učení

Tato část se zabývá přípravou dat pro distribuované trénování hlubokého učení s využitím streamingu Mosaic a TFRecords.

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-05-03