Hugging Face Transformers とは

この記事では、Azure Databricks の Hugging Face Transformers の概要について説明します。 これには、Hugging Face Transformers を使用する理由と、クラスターにインストールする方法に関するガイダンスが含まれています。

Hugging Face Transformers の背景

Hugging Face Transformers は、Hugging Face によって作成されたディープ ラーニング用のオープンソース フレームワークです。 これには、最先端の事前トレーニング済みモデルをダウンロードし、パフォーマンスを最大化するためにさらに調整するための API とツールが用意されています。 これらのモデルでは、自然言語処理、コンピューター ビジョン、オーディオ、マルチモーダル アプリケーションなど、さまざまなモダリティでの一般的なタスクがサポートされます。

Databricks Runtime for Machine Learning には、Databricks Runtime 10.4 LTS ML 以降では Hugging Face transformers、Databricks Runtime 13.0 ML 以降では Hugging Face datasetsaccelerateevaluate が含まれています。

構成済みの Databricks Runtime ML バージョンに含まれている Hugging Face のバージョンを確認するには、関連するリリース ノートの Python ライブラリ セクション参照してください。

Hugging Face Transformers を使用する理由

感情分析やテキスト要約などの多くのアプリケーションでは、事前トレーニング済みのモデルは、追加のモデル トレーニングなしで適切に機能します。

Hugging Face Transformers パイプラインには、エンコードのベスト プラクティスが用意され、さまざまなタスクに対して既定のモデルが選択されているため、簡単に始めることができます。 パイプラインを使用すると、GPU を簡単に使用できるようになり (使用可能な場合)、GPU に送信される項目のバッチ処理が可能になり、スループット パフォーマンスが向上します。

Hugging Face には次のものが用意されています。

  • 多くの事前トレーニング済みモデルを含むモデル ハブ
  • NLP アプリケーションと微調整のためにこれらのモデルのダウンロードと使用をサポートする 🤗 Transformers ライブラリ。 自然言語処理タスクには、トークナイザーとモデルの両方が必要になるのが一般的です。
  • ほとんどの自然言語処理タスク用のシンプルなインターフェイスを備えた 🤗 Transformers パイプライン

transformers のインストール

クラスター上の Databricks Runtime バージョンに Hugging Face transformers が含まれていない場合は、最新の Hugging Face transformers ライブラリを Databricks PyPI ライブラリとしてインストールできます。

  %pip install transformers

モデルの依存関係をインストールする

モデルによって依存関係が異なる場合があります。 Databricks は、必要に応じて %pip magic コマンドを使用してこれらの依存関係をインストールすることを推奨しています。

一般的な依存関係を次に示します。

  • librosa: オーディオ ファイルのデコードをサポートします。
  • soundfile: 一部のオーディオ データセットを生成するときに必要です。
  • bitsandbytes: load_in_8bit=True を使用する場合に必要です。
  • SentencePiece: NLP モデルのトークナイザーとして使用されます。
  • timm: DetrForSegmentation で必要です。

単一ノード トレーニング

単一コンピューターのワークフローをテストして移行するには、単一ノード クラスターを使用します。

その他のリソース

次の記事には、Azure Databricks で大規模言語モデル (LLM) の微調整とモデル推論に Hugging Face transformers を使用する方法に関するノートブックの例とガイダンスが含まれています。