Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato část obsahuje informace o načítání dat určené speciálně pro aplikace ML a DL. Obecné informace o načítání dat najdete v tématu Standardní konektory v Lakeflow Connect.
Ukládání souborů pro načítání dat a vytváření kontrolních bodů modelu
Aplikace strojového učení mohou pro načítání dat a vytváření kontrolních bodů modelu potřebovat využití sdíleného úložiště. Je to důležité hlavně pro distribuované hluboké učení.
Azure Databricks poskytuje Unity Catalog, jednotné řešení správy pro data a prostředky AI. Katalog Unity můžete použít pro přístup k datům v clusteru pomocí rozhraní SPARK i místních rozhraní API souborů.
Načítání tabulkových dat
Data tabulkového strojového učení můžete načíst z tabulek nebo souborů (viz například Čtení souborů CSV). Datové rámce Apache Spark můžete převést na datové rámce pandas pomocí metody PySparktoPandas(), a pak volitelně převést na formát NumPy pomocí metody PySparkto_numpy().
Příprava dat na vyladění velkých jazykových modelů
K vyladění opensourcových velkých jazykových modelů můžete připravit data s Hugging Face Transformers a Hugging Face Datasets.
Příprava dat na vyladění modelů Hugging Face
Příprava dat pro distribuované trénování hlubokého učení
Tato část se zabývá přípravou dat pro distribuované trénování hlubokého učení s využitím streamingu Mosaic a TFRecords.