Megosztás a következőn keresztül:


Adatok betöltése gépi tanuláshoz és mély tanuláshoz

Ez a szakasz az adatok gépi tanulási és mély tanulási alkalmazásokba történő betöltésével kapcsolatos információkat tartalmaz. Az adatok betöltésével kapcsolatos általános információkért tekintse meg az adatok Databricks lakehouse-ba való betöltését ismertető témakört.

Fájlok tárolása az adatok betöltéséhez és modell-ellenőrzőpont létrehozásához

Előfordulhat, hogy a gépi tanulási alkalmazásoknak megosztott tárolót kell használniuk az adatok betöltéséhez és a modell-ellenőrzőpont létrehozásához. Ez különösen az elosztott mély tanulás esetében fontos.

Az Azure Databricks biztosítja a Databricks fájlrendszert (DBFS) a fürt adatainak a Spark és a helyi fájl API-k használatával történő eléréséhez.

Táblázatos adatok betöltése

Táblázatos gépi tanulási adatokat tölthet be táblákból vagy fájlokból (például lásd: CSV-fájlok olvasása). Az Apache Spark DataFrame-eket a PySpark metódussal toPandas()pandas DataFrame-ekre konvertálhatja, majd a PySpark metódussal to_numpy()igény szerint NumPy formátumra konvertálhatja.

Adatok előkészítése a nagy nyelvi modellek finomhangolásához

Előkészítheti az adatokat a nyílt forráskód nagy nyelvi modellek finomhangolására a Face Transformers és az Ölelés Face-adatkészletek használatával.

Adatok előkészítése a Face-modellek ölelésének finomhangolásához

Adatok előkészítése elosztott mélytanulási képzéshez

Ez a szakasz az elosztott mélytanulási képzések adatainak előkészítését ismerteti a Mozaikstreamelés és a TFRecords használatával.