共用方式為


什麼是 Hugging Face Transformers?

本文提供 Azure Databricks 上擁抱臉部轉換器的簡介。 其中包含如何使用擁抱臉部轉換器以及如何在您的叢集上安裝的指引。

擁抱臉部轉換器的背景

[Hugging Face Transformers] 是 Hugging Face 建立的開放原始碼架構,用於深度學習。 它提供 API 和工具,以下載最先進的預先定型模型,並進一步調整它們,以最大化效能。 這些模型支援不同形式的一般工作,如自然語言處理、電腦視覺、音訊和多模式應用程式。

注意

Apache 授權 2.0

適用於 機器學習 的 Databricks Runtime 包含 Databricks Runtime 10.4 LTS ML 和更新版本中的擁抱臉部,以及包含擁抱臉部transformers數據集加速評估 Databricks Runtime 13.0 ML 和更新版本。

若要檢查已設定的 Databricks Runtime ML 版本中包含哪個版本的 Hugging Face,請參閱 Python 連結庫一節的相關 版本資訊

為什麼要使用擁抱臉部轉換器?

對於許多應用程式,例如情感分析和文字摘要,預先定型的模型在沒有任何額外的模型定型的情況下運作良好。

擁抱臉部轉換器管線會編碼最佳做法,並針對不同的工作選取預設模型,讓您輕鬆開始使用。 管線可讓您在可用時輕鬆使用 GPU,並允許批處理傳送至 GPU 的專案,以提升輸送量效能。

擁抱臉部提供:

安裝 transformers

如果叢集上的 Databricks 執行時間版本不包含 Hugging Face ,您可以將最新的 Hugging Face transformerstransformers 連結庫安裝為 Databricks PyPI 連結庫

  %pip install transformers

安裝模型相依性

不同的模型可能會有不同的相依性。 Databricks 建議您視 需要使用 %pip magic 命令 來安裝這些相依性。

以下是常見的相依性:

  • librosa:支持譯碼音訊檔案。
  • soundfile:產生某些音訊數據集時需要。
  • bitsandbytes:使用 load_in_8bit=True時的必要專案。
  • SentencePiece:做為 NLP 模型的 Tokenizer。
  • timm:D etrForSegmentation 所需的

單一節點訓練

若要測試和移轉單一機器工作流程,請使用 [單一節點] 叢集

其他資源

下列文章包含範例筆記本,以及如何在 Azure Databricks 上使用 Hugging Face transformers 進行大型語言模型 (LLM) 微調和模型推斷的指引。