Gegevens laden voor machine learning en deep learning

Artikel
03/01/2024

Dit gedeelte bevat informatie over het laden van gegevens voor specifiek ML- en DL-toepassingen. Zie Gegevens opnemen in een Databricks Lakehouse voor algemene informatie over het laden van gegevens.

Bestanden opslaan voor gegevens laden en modelcontrolepunten

Machine learning-toepassingen moeten mogelijk gebruikmaken van gedeelde opslag voor het laden van gegevens en modelcontrolepunten. Dit is vooral belangrijk voor gedistribueerde deep learning.

Azure Databricks biedt het Databricks File System (DBFS) voor toegang tot gegevens in een cluster met behulp van spark- en lokale bestands-API's.

Tabulaire gegevens laden

U kunt machine learning-gegevens in tabelvorm laden uit tabellen of bestanden (zie bijvoorbeeld Lezen en schrijven naar CSV-bestanden). U kunt Apache Spark DataFrames converteren naar pandas DataFrames met behulp van de PySpark-methodetoPandas() en desgewenst converteren naar NumPy-indeling met behulp van de PySpark-methodeto_numpy().

Gegevens voorbereiden om grote taalmodellen af te stemmen

U kunt uw gegevens voorbereiden voor het verfijnen van open source grote taalmodellen met Hugging Face Transformers en Hugging Face Datasets.

Gegevens voorbereiden voor het afstemmen van Hugging Face-modellen

Gegevens voorbereiden voor gedistribueerde training

In deze sectie worden twee methoden beschreven voor het voorbereiden van gegevens voor gedistribueerde training: Petastorm en TFRecords.

Gegevens voorbereiden voor gedistribueerde training
- Petastorm (aanbevolen)
- TFRecord

Gegevens laden voor machine learning en deep learning

Bestanden opslaan voor gegevens laden en modelcontrolepunten

Tabulaire gegevens laden

Gegevens voorbereiden om grote taalmodellen af te stemmen

Gegevens voorbereiden voor gedistribueerde training

Aanvullende resources