Co to są przytulanie transformatorów twarzy?
Ten artykuł zawiera wprowadzenie do funkcji hugging Face Transformers w usłudze Azure Databricks. Zawiera wskazówki dotyczące tego, dlaczego należy używać funkcji Przekształcanie twarzy hugging i jak zainstalować ją w klastrze.
Tło do przytulania transformatorów twarzy
Przytulanie transformatorów twarzy to platforma typu open source do uczenia głębokiego stworzona przez hugging Face. Udostępnia ona interfejsy API i narzędzia do pobierania wstępnie wytrenowanych modeli i dostrajania ich w celu zmaksymalizowania wydajności. Te modele obsługują typowe zadania w różnych modalnościach, takich jak przetwarzanie języka naturalnego, przetwarzanie obrazów, dźwięk i aplikacje wielomodalne.
Uwaga
Środowisko Databricks Runtime for Machine Learning obejmuje hugging Face transformers
w środowisku Databricks Runtime 10.4 LTS ML i nowszym oraz obejmuje zestawy danych hugging Face, przyspieszają i oceniają w środowisku Databricks Runtime 13.0 ML i nowszym.
Aby sprawdzić, która wersja funkcji Hugging Face jest uwzględniona w skonfigurowanej wersji usługi Databricks Runtime ML, zobacz sekcję Biblioteki języka Python w odpowiednich informacjach o wersji.
Dlaczego warto używać przytulania transformatorów twarzy?
W przypadku wielu aplikacji, takich jak analiza tonacji i podsumowanie tekstu, wstępnie wytrenowane modele działają dobrze bez dodatkowego trenowania modelu.
Przytulanie potoków funkcji Przekształcanie twarzy koduje najlepsze rozwiązania i mają domyślne modele wybrane dla różnych zadań, co ułatwia rozpoczęcie pracy. Potoki ułatwiają korzystanie z procesorów GPU, gdy są dostępne, i umożliwiają przetwarzanie wsadowe elementów wysyłanych do procesora GPU w celu uzyskania lepszej wydajności przepływności.
Przytulanie twarzy zapewnia:
- Centrum modelu zawierające wiele wstępnie wytrenowanych modeli.
- 🤗 Biblioteka Transformers, która obsługuje pobieranie i używanie tych modeli dla aplikacji NLP i dostrajania. Często wymagane jest zarówno tokenizator, jak i model dla zadań przetwarzania języka naturalnego.
- 🤗 Potoki przekształcania, które mają prosty interfejs dla większości zadań przetwarzania języka naturalnego.
Instalować transformers
Jeśli wersja środowiska Databricks Runtime w klastrze nie zawiera funkcji Hugging Facetransformers
, możesz zainstalować najnowszą bibliotekę hugging Face transformers
jako bibliotekę PyPI usługi Databricks.
%pip install transformers
Instalowanie zależności modelu
Różne modele mogą mieć różne zależności. Usługa Databricks zaleca użycie poleceń magic %do zainstalowania tych zależności zgodnie z potrzebami.
Poniżej przedstawiono typowe zależności:
librosa
: obsługuje dekodowanie plików audio.soundfile
: wymagane podczas generowania niektórych zestawów danych audio.bitsandbytes
: wymagane w przypadku używania poleceniaload_in_8bit=True
.SentencePiece
: używany jako tokenizator dla modeli NLP.timm
: wymagane przez detrForSegmentation.
Trenowanie pojedynczego węzła
Aby przetestować i zmigrować przepływy pracy z jednym komputerem, użyj klastra z jednym węzłem.
Dodatkowe zasoby
Poniższe artykuły zawierają przykładowe notesy i wskazówki dotyczące używania funkcji Hugging Face transformers
na potrzeby dostrajania dużego modelu językowego (LLM) i wnioskowania modelu w usłudze Azure Databricks.