什麼是 Hugging Face Transformers?
本文提供 Azure Databricks 上擁抱臉部轉換器的簡介。 其中包含如何使用擁抱臉部轉換器以及如何在您的叢集上安裝的指引。
擁抱臉部轉換器的背景
[Hugging Face Transformers] 是 Hugging Face 建立的開放原始碼架構,用於深度學習。 它提供 API 和工具,以下載最先進的預先定型模型,並進一步調整它們,以最大化效能。 這些模型支援不同形式的一般工作,如自然語言處理、電腦視覺、音訊和多模式應用程式。
注意
適用於 機器學習 的 Databricks Runtime 包含 Databricks Runtime 10.4 LTS ML 和更新版本中的擁抱臉部,以及包含擁抱臉部transformers
數據集、加速和評估 Databricks Runtime 13.0 ML 和更新版本。
若要檢查已設定的 Databricks Runtime ML 版本中包含哪個版本的 Hugging Face,請參閱 Python 連結庫一節的相關 版本資訊。
為什麼要使用擁抱臉部轉換器?
對於許多應用程式,例如情感分析和文字摘要,預先定型的模型在沒有任何額外的模型定型的情況下運作良好。
擁抱臉部轉換器管線會編碼最佳做法,並針對不同的工作選取預設模型,讓您輕鬆開始使用。 管線可讓您在可用時輕鬆使用 GPU,並允許批處理傳送至 GPU 的專案,以提升輸送量效能。
擁抱臉部提供:
- 包含 許多預先定型模型的模型中樞 。
- 🤗 支援針對 NLP 應用程式和微調下載和使用這些模型的 Transformers 連結庫。 通常需要Tokenizer和自然語言處理工作的模型。
- 🤗 適用於大多數自然語言處理工作的簡單介面的轉換器管線 。
安裝 transformers
如果叢集上的 Databricks 執行時間版本不包含 Hugging Face ,您可以將最新的 Hugging Face transformers
transformers
連結庫安裝為 Databricks PyPI 連結庫。
%pip install transformers
安裝模型相依性
不同的模型可能會有不同的相依性。 Databricks 建議您視 需要使用 %pip magic 命令 來安裝這些相依性。
以下是常見的相依性:
librosa
:支持譯碼音訊檔案。soundfile
:產生某些音訊數據集時需要。bitsandbytes
:使用load_in_8bit=True
時的必要專案。SentencePiece
:做為 NLP 模型的 Tokenizer。timm
:D etrForSegmentation 所需的 。
單一節點訓練
若要測試和移轉單一機器工作流程,請使用 [單一節點] 叢集。
其他資源
下列文章包含範例筆記本,以及如何在 Azure Databricks 上使用 Hugging Face transformers
進行大型語言模型 (LLM) 微調和模型推斷的指引。