単一 GPU 向けに Hugging Face モデルを微調整する

2024-11-06

この記事では、単一 GPU で Hugging Face transformers ライブラリを使用して、Hugging Face モデルを微調整する方法について説明します。また、レイクハウスからデータを読み込み、モデルを MLflow に記録するための Databricks 固有の推奨事項も含まれています。これにより、Azure Databricks でモデルを使用して管理できます。

Hugging Face transformers ライブラリには、Transformers モデルの読み込みと微調整を可能にする Trainer ユーティリティと Auto Model クラスが用意されています。

これらのツールは、単純な変更を加えた次のタスクで使用できます。

微調整するモデルの読み込み。
Hugging Face Transformers Trainer ユーティリティの構成の構築。
単一 GPU でのトレーニングの実行。

「Hugging Face Transformers とは」を参照してください

必要条件

ドライバーに単一 GPU が搭載されている単一ノードクラスター。
Databricks Runtime 13.0 ML 以降の GPU バージョン。
- この微調整の例では、Transformers、Datasets、Evaluate パッケージ (Databricks Runtime 13.0 ML 以降に含まれている) が必要です。
MLflow 2.3。
Transformers を使用してモデルを微調整するために準備および読み込まれたデータ。

Hugging Face データセットをトークン化する

Hugging Face Transformers モデルでは、ダウンロードされたデータ内のテキストではなく、トークン化された入力が想定されます。基本モデルとの互換性を確保するには、基本モデルから読み込まれる AutoTokenizer を使用します。 Hugging Face datasets を使用すると、トレーニングとテストデータの両方にトークナイザーを一貫して直接適用できます。

次に例を示します。

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(base_model)
def tokenize_function(examples):
    return tokenizer(examples["text"], padding=False, truncation=True)

train_test_tokenized = train_test_dataset.map(tokenize_function, batched=True)

トレーニング構成を設定する

Hugging Face トレーニング構成ツールを使用して、Trainer を構成できます。 Trainer クラスでは、ユーザーは以下を指定する必要があります。

メトリック
基本モデル
トレーニング構成

loss が計算する既定の Trainer メトリックに加え、評価メトリックを構成できます。次の例では、メトリックとして accuracy を追加する方法を示します。

import numpy as np
import evaluate
metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

NLP の Auto Model クラスを使用して、タスクに適したモデルを読み込みます。

テキスト分類の場合は、AutoModelForSequenceClassification を使用して、テキスト分類の基本モデルを読み込みます。モデルを作成するときに、データセットの準備中に作成されたクラスの数とラベルマッピングを指定します。

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
        base_model,
        num_labels=len(label2id),
        label2id=label2id,
        id2label=id2label
        )

次に、トレーニング構成を作成します。 TrainingArguments クラスを使用すると、出力ディレクトリ、評価戦略、学習率、およびその他のパラメーターを指定できます。

from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(output_dir=training_output_dir, evaluation_strategy="epoch")

データコレーターを使用すると、トレーニングと評価データセットの入力がバッチ処理されます。 DataCollatorWithPadding により、テキスト分類のベースラインパフォーマンスが向上します。

from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer)

これらすべてのパラメーターが構築されたので、Trainer を作成できるようになりました。

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_test_dataset["train"],
    eval_dataset=train_test_dataset["test"],
    compute_metrics=compute_metrics,
    data_collator=data_collator,
)

トレーニングして MLflow に記録する

Hugging Face は MLflow と適切に連動し、MLflowCallback を使用してモデルトレーニング中にメトリックを自動的にログに記録します。しかし、トレーニング済みのモデルは自分でログに記録する必要があります。

MLflow 実行でトレーニングをラップします。これにより、トークナイザーとトレーニング済みのモデルから Transformers パイプラインが構築され、ローカルディスクに書き込まれます。最後に、mlflow.transformers.log_model を使用してモデルを MLflow に記録します。

from transformers import pipeline

with mlflow.start_run() as run:
  trainer.train()
  trainer.save_model(model_output_dir)
  pipe = pipeline("text-classification", model=AutoModelForSequenceClassification.from_pretrained(model_output_dir), batch_size=1, tokenizer=tokenizer)
  model_info = mlflow.transformers.log_model(
        transformers_model=pipe,
        artifact_path="classification",
        input_example="Hi there!",
    )

パイプラインを作成する必要がない場合は、トレーニングで使用されるコンポーネントをディクショナリに送信できます。

model_info = mlflow.transformers.log_model(
  transformers_model={"model": trainer.model, "tokenizer": tokenizer},
  task="text-classification",
  artifact_path="text_classifier",
  input_example=["MLflow is great!", "MLflow on Databricks is awesome!"],
)

推論のためにモデルを読み込む

モデルがログに記録され、準備ができたら、推論のためにモデルを読み込むのは、MLflow でラップされた事前トレーニング済みモデルの読み込みと同じです。

logged_model = "runs:/{run_id}/{model_artifact_path}".format(run_id=run.info.run_id, model_artifact_path=model_artifact_path)

# Load model as a Spark UDF. Override result_type if the model does not return double values.
loaded_model_udf = mlflow.pyfunc.spark_udf(spark, model_uri=logged_model, result_type='string')

test = test.select(test.text, test.label, loaded_model_udf(test.text).alias("prediction"))
display(test)

詳細については、「Mosaic AI Model Serving を使用してモデルをデプロイする」を参照してください。

一般的な CUDA エラーのトラブルシューティング

このセクションでは、一般的な CUDA エラーとその解決方法に関するガイダンスについて説明します。

OutOfMemoryError: CUDA のメモリ不足

大規模なモデルをトレーニングするときに発生する可能性がある一般的なエラーは、CUDA のメモリ不足エラーです。

例:

OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 14.76 GiB total capacity; 666.34 MiB already allocated; 17.75 MiB free; 720.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF.

このエラーを解決するには、次の推奨事項を試します。

トレーニングのバッチサイズを小さくします。 per_device_train_batch_size での値を小さくできます。
精度の低いトレーニングを使用します。 fp16=True でを設定できます。
TrainingArguments で gradient_accumulation_steps を使用して、全体的なバッチサイズを効果的に増やします。
8 ビットの Adam オプティマイザーを使用します。
トレーニングの前に GPU メモリをクリーンアップします。 GPU メモリが未使用のコードによって占有される場合があります。
```
from numba import cuda
device = cuda.get_current_device()
device.reset()
```

CUDA カーネルエラー

トレーニングを実行しているときに、CUDA カーネルエラーが発生する可能性があります。

例:

CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.

For debugging, consider passing CUDA_LAUNCH_BLOCKING=1.

トラブルシューティングを行うには:

CPU でコードを実行してみて、エラーを再現できるかどうかを確認します。
もう 1 つのオプションは、CUDA_LAUNCH_BLOCKING=1 を設定して、より良いトレースバックを取得することです。
```
import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
```

ノートブック: 単一 GPU でテキスト分類を微調整する

コード例をすぐに使い始めるために、この例のノートブックでは、テキスト分類のモデルを微調整するためのエンドツーエンドの例が提供されます。この記事の以降のセクションでは、Azure Databricks で Hugging Face を使用して微調整する方法について詳しく説明します。

Hugging Face テキスト分類モデルノートブックの微調整

ノートブックを入手

その他のリソース

Azure Databricks での Hugging Face についてさらに学習します。

Hugging Face Transformers とは
Spark で Hugging Face Transformers モデルを使用して、NLP バッチアプリケーションをスケールアウトできます (NLP に Hugging Face Transformers を使用するモデル推論に関するページを参照してください)。

次の方法で共有

単一 GPU 向けに Hugging Face モデルを微調整する

必要条件

Hugging Face データセットをトークン化する

トレーニング構成を設定する

トレーニングして MLflow に記録する

推論のためにモデルを読み込む

一般的な CUDA エラーのトラブルシューティング

OutOfMemoryError: CUDA のメモリ不足

CUDA カーネル エラー

ノートブック: 単一 GPU でテキスト分類を微調整する

Hugging Face テキスト分類モデル ノートブックの微調整

その他のリソース

フィードバック

その他のリソース

CUDA カーネルエラー

Hugging Face テキスト分類モデルノートブックの微調整