Läsa in data för maskininlärning och djupinlärning
Det här avsnittet innehåller information om att läsa in data specifikt för ML- och DL-program. Allmän information om inläsning av data finns i Mata in data i ett Databricks lakehouse.
Lagra filer för datainläsning och modellkontrollpunkter
Maskininlärningsprogram kan behöva använda delad lagring för datainläsning och modellkontrollpunkter. Detta är särskilt viktigt för distribuerad djupinlärning.
Azure Databricks tillhandahåller Databricks File System (DBFS) för åtkomst till data i ett kluster med både Spark- och lokala fil-API:er.
Läsa in tabelldata
Du kan läsa in tabellbaserade maskininlärningsdata från tabeller eller filer (till exempel läsa och skriva till CSV-filer). Du kan konvertera Apache Spark DataFrames till Pandas DataFrames med hjälp av PySpark-metoden toPandas()
och sedan konvertera till NumPy-format med pyspark-metoden to_numpy()
.
Förbereda data för att finjustera stora språkmodeller
Du kan förbereda dina data för finjustering av stora språkmodeller med öppen källkod med Hugging Face Transformers och Hugging Face Datasets.
Förbereda data för finjustering av Hugging Face-modeller
Förbereda data för distribuerad träning
Det här avsnittet beskriver tre metoder för att förbereda data för distribuerad träning: Mosaic Streaming, Petastorm och TFRecords.
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för