Что такое обнимать преобразователи лиц?
В этой статье приведены общие сведения об обнимках преобразователей лиц в Azure Databricks. В ней содержатся рекомендации по использованию преобразователей распознавания лиц и его установке в кластере.
Фон для обнимания преобразователей лиц
Обнимать преобразователи лиц — это платформа с открытым исходным кодом для глубокого обучения, созданного Hugging Face. Он предоставляет API-интерфейсы и средства для скачивания предварительно обученных моделей и дальнейшего их настройки для повышения производительности. Эти модели поддерживают общие задачи в различных модальности, таких как обработка естественного языка, компьютерное зрение, аудио и мультимодальные приложения.
Примечание.
Databricks Runtime для Машинное обучение включает hugging Face в Databricks Runtime 10.4 LTS ML и более поздних версий, а также включает наборы данных обнимания лицtransformers
, ускорение и оценку в Databricks Runtime 13.0 ML и более поздних версий.
Чтобы проверить, какая версия Hugging Face включена в настроенную версию Databricks Runtime ML, ознакомьтесь с разделом библиотек Python в соответствующих заметках о выпуске.
Зачем использовать обнимающиеся преобразователи лиц?
Для многих приложений, таких как анализ тональности и сводка текста, предварительно обученные модели хорошо работают без дополнительного обучения модели.
Обнимать конвейеры преобразователей лиц кодируют рекомендации и имеют модели по умолчанию, выбранные для различных задач, что упрощает начало работы. Конвейеры упрощают использование графических процессоров при наличии и разрешают пакетную обработку элементов, отправляемых в GPU, для повышения производительности пропускной способности.
Обнимающая лицо предоставляет:
- Центр моделей, содержащий множество предварительно обученных моделей.
- 🤗 Библиотека Преобразователей, которая поддерживает скачивание и использование этих моделей для приложений NLP и тонкой настройки. Обычно требуется как токенизатор, так и модель для задач обработки естественного языка.
- 🤗 Конвейеры преобразователей , которые имеют простой интерфейс для большинства задач обработки естественного языка.
Установите transformers
Если версия Databricks Runtime в кластере не включает hugging Face, можно установить последнюю библиотеку распознавания лиц transformers
transformers
в качестве библиотеки PyPI Databricks.
%pip install transformers
Установка зависимостей модели
Разные модели могут иметь разные зависимости. Databricks рекомендует использовать команды %pip magic для установки этих зависимостей по мере необходимости.
Ниже приведены распространенные зависимости:
librosa
: поддерживает декодирование звуковых файлов.soundfile
: требуется при создании некоторых звуковых наборов данных.bitsandbytes
: обязательный при использованииload_in_8bit=True
.SentencePiece
: используется в качестве маркеризатора для моделей NLP.timm
: требуется detrForSegmentation.
Обучение на отдельном узле
Для тестирования и переноса рабочих процессов одного компьютера используйте кластер с одним узлом.
Дополнительные ресурсы
В следующих статьях приведены примеры записных книжек и рекомендации по использованию hugging Face transformers
для крупной языковой модели (LLM) и вывода модели в Azure Databricks.