Adatok betöltése gépi tanuláshoz és mély tanuláshoz
Ez a szakasz az adatok gépi tanulási és mély tanulási alkalmazásokba történő betöltésével kapcsolatos információkat tartalmaz. Az adatok betöltésével kapcsolatos általános információkért tekintse meg az adatok Databricks lakehouse-ba való betöltését ismertető témakört.
Fájlok tárolása az adatok betöltéséhez és modell-ellenőrzőpont létrehozásához
Előfordulhat, hogy a gépi tanulási alkalmazásoknak megosztott tárolót kell használniuk az adatok betöltéséhez és a modell-ellenőrzőpont létrehozásához. Ez különösen az elosztott mély tanulás esetében fontos.
Az Azure Databricks biztosítja a Databricks fájlrendszert (DBFS) a fürt adatainak a Spark és a helyi fájl API-k használatával történő eléréséhez.
Táblázatos adatok betöltése
Táblázatos gépi tanulási adatokat tölthet be táblákból vagy fájlokból (például lásd: CSV-fájlok olvasása). Az Apache Spark DataFrame-eket a PySpark metódussal toPandas()
pandas DataFrame-ekre konvertálhatja, majd a PySpark metódussal to_numpy()
igény szerint NumPy formátumra konvertálhatja.
Adatok előkészítése a nagy nyelvi modellek finomhangolásához
Előkészítheti az adatokat a nyílt forráskód nagy nyelvi modellek finomhangolására a Face Transformers és az Ölelés Face-adatkészletek használatával.
Adatok előkészítése a Face-modellek ölelésének finomhangolásához
Adatok előkészítése elosztott mélytanulási képzéshez
Ez a szakasz az elosztott mélytanulási képzések adatainak előkészítését ismerteti a Mozaikstreamelés és a TFRecords használatával.