Vorbereiten von Daten für die Optimierung von Hugging Face-Modellen

2025-02-04

In diesem Artikel wird gezeigt, wie Sie Ihre Daten für die Optimierung großer Open Source-Sprachmodelle mit Hugging Face Transformers und Hugging Face Datasets vorbereiten.

Anforderungen

Databricks Runtime für Machine Learning 13.0 oder höher. Die Beispiele in diesem Leitfaden verwenden Hugging Face Datasets, die in Databricks Runtime 13.0 ML und höher enthalten sind.
Ein Arbeitsbereich mit aktiviertem Unity-Katalog. Sie müssen auch über die folgenden Berechtigungen verfügen, um Daten in ein Unity-Katalogvolume zu schreiben:
- Die Berechtigung WRITE VOLUME für das Volume, auf das Sie Dateien hochladen möchten.
- Die USE SCHEMA-Berechtigung im übergeordneten Schema.
- Die Berechtigung USE CATALOG für den übergeordneten Katalog.
Erhebliche Rechenressourcen zum Herunterladen großer Datasets. Das große Dataset, das im bereitgestellten Beispielnotizbuch verwendet wird, benötigt mehr als einen Tag, um es herunterzuladen.

Laden von Daten aus Hugging Face

Hugging Face Datasets ist eine Hugging Face-Bibliothek für den Zugriff auf und die Freigabe von Datasets für Audioaufgaben, Aufgaben für maschinelles Sehen und NLP-Aufgaben (Natural Language Processing, linguistische Datenverarbeitung). Mit datasets von Hugging Face können Sie Daten aus verschiedenen Quellen laden. Die datasets-Bibliothek verfügt über Hilfsprogramme zum Lesen von Datasets aus dem Hugging Face-Hub. Es gibt viele Datasets, die über den Hugging Face-Hub mithilfe der load_dataset-Funktion heruntergeladen und gelesen werden können. Weitere Informationen zum Laden von Daten mit Hugging Face Datasets finden Sie in der Hugging Face-Dokumentation.

from datasets import load_dataset
dataset = load_dataset("imdb")

Einige Datasets im Hugging Face-Hub stellen die Größe der Daten bereit, die heruntergeladen und generiert werden, wenn load_dataset aufgerufen wird. Sie können load_dataset_builder verwenden, um die Größen zu ermitteln, bevor Sie das Dataset mit load_dataset herunterladen.

from datasets import load_dataset_builder
from psutil._common import bytes2human

def print_dataset_size_if_provided(*args, **kwargs):
  dataset_builder = load_dataset_builder(*args, **kwargs)

  if dataset_builder.info.download_size and dataset_builder.info.dataset_size:
    print(f'download_size={bytes2human(dataset_builder.info.download_size)}, dataset_size={bytes2human(dataset_builder.info.dataset_size)}')
  else:
    print('Dataset size is not provided by uploader')

print_dataset_size_if_provided("imdb")

Informationen zum Herunterladen und Vorbereiten von Datasets in Azure Databricks für unterschiedliche Datengrößen finden Sie im Notebook mit bewährten Methoden zum Herunterladen von Datasets aus Hugging Face.

Formatieren Ihrer Trainings- und Auswertungsdaten

Um Ihre eigenen Daten für die Modelloptimierung zu verwenden, müssen Sie zunächst Ihre Trainings- und Auswertungsdaten in Spark-DataFrames formatieren. Laden Sie dann die DataFrames mithilfe der Hugging Face-Bibliothek datasets.

Formatieren Sie zunächst Ihre Trainingsdaten in einer Tabelle, die den Erwartungen des Trainers entspricht. Für die Textklassifizierung ist dies eine Tabelle mit zwei Spalten: einer Textspalte und einer Spalte mit Bezeichnungen.

Für die Optimierung müssen Sie ein Modell bereitstellen. Die Hugging Face Transformer-Bibliothek AutoClasses erleichtert das Laden von Modellen und Konfigurationseinstellungen, einschließlich einer Vielzahl von Auto Models für die linguistische Datenverarbeitung.

Beispielsweise stellt transformers Hugging Face AutoModelForSequenceClassification als Modellladeprogramm für die Textklassifizierung bereit, das ganzzahlige IDs als Kategoriebezeichnungen erwartet. Wenn Sie jedoch über einen DataFrame mit Zeichenfolgenbezeichnungen verfügen, müssen Sie beim Erstellen des Modells auch Zuordnungen zwischen ganzzahligen Bezeichnungen und Zeichenfolgenbezeichnungen angeben. Sie können diese Informationen wie folgt abrufen:

labels = df.select(df.label).groupBy(df.label).count().collect()
id2label = {index: row.label for (index, row) in enumerate(labels)}
label2id = {row.label: index for (index, row) in enumerate(labels)}

Erstellen Sie dann die ganzzahligen IDs als Bezeichnungsspalte mit einer Pandas-UDF:

from pyspark.sql.functions import pandas_udf
import pandas as pd
@pandas_udf('integer')
def replace_labels_with_ids(labels: pd.Series) -> pd.Series:
  return labels.apply(lambda x: label2id[x])

df_id_labels = df.select(replace_labels_with_ids(df.label).alias('label'), df.text)

Laden eines Hugging Face-Datasets aus einem Spark-DataFrame

Hugging Face datasets unterstützt das Laden aus Spark-DataFrames mithilfe von datasets.Dataset.from_spark. Weitere Informationen zur Methode from_spark() finden Sie in der Dokumentation zu Hugging Face.

Wenn Sie beispielsweise über die DataFrames train_df und test_df verfügen, können Sie für beide Datasets mit dem folgenden Code erstellen:

import datasets
train_dataset = datasets.Dataset.from_spark(train_df, cache_dir="/Volumes/main/default/my-volume/train")
test_dataset = datasets.Dataset.from_spark(test_df, cache_dir="/Volumes/main/default/my-volume/test")

Dataset.from_spark speichert das Dataset zwischen. In diesem Beispiel wird das Modelltraining für den Treiber beschrieben, sodass diesem Daten zur Verfügung gestellt werden müssen. Da die Cachematerialisierung mithilfe von Spark parallelisiert wird, muss das bereitgestellte Cacheverzeichnis (cache_dir) für alle Worker zugänglich sein. Um diese Einschränkungen zu erfüllen, sollte cache_dir ein Unity Catalog-Volumepfad sein.

Der Zugriff auf das Volume kann mithilfe Unity Catalogverwaltet werden.

Wenn Ihr Dataset groß ist, kann das Schreiben in den Unity-Katalog sehr lange dauern. Um den Prozess zu beschleunigen, können Sie den parameter working_dir verwenden, um Hugging Face datasets das Dataset an einen temporären Speicherort auf dem Datenträger zu schreiben und dann in den Unity-Katalog zu verschieben. So verwenden Sie beispielsweise das SSD als temporären Speicherort

import datasets
dataset = datasets.Dataset.from_spark(
  train_df,
  cache_dir="/Volumes/main/default/my-volume/train",
  working_dir="/local_disk0/tmp/train",
)

Zwischenspeichern für Datasets

Der Cache ist eine der Möglichkeiten, wie datasets die Effizienz verbessert. Er speichert alle heruntergeladenen und verarbeiteten Datasets. Wenn Benutzer*innen die Zwischendatasets verwenden müssen, werden sie also direkt aus dem Cache neu geladen.

Das Standardcacheverzeichnis von Datasets ist ~/.cache/huggingface/datasets. Wenn ein Cluster beendet wird, gehen auch die Cachedaten verloren. Um die Cachedatei beim Beenden des Clusters beizubehalten, empfiehlt Databricks, den Cachespeicherort in einen Unity-Katalogvolumepfad zu ändern, indem die Umgebungsvariable HF_DATASETS_CACHEfestgelegt wird:

import os
os.environ["HF_DATASETS_CACHE"] = "/Volumes/main/default/my-volume/"

Feinabstimmen eines Modells

Wenn Ihre Daten bereit sind, können Sie sie verwenden, um ein Hugging Face-Modell zu optimieren.

Notebook: Herunterladen von Datasets aus Hugging Face

Dieses Beispiel-Notebook enthält empfohlene bewährte Methoden für die Verwendung der Hugging Face-Funktion load_dataset zum Herunterladen und Vorbereiten von Datasets in Azure Databricks für verschiedene Datengrößen.

Notebook mit bewährten Methoden zum Herunterladen von Datasets aus Hugging Face

Notebook abrufen