포옹 얼굴 변압기는 무엇입니까?

이 문서에서는 Azure Databricks에서 얼굴 변환기를 포옹하는 방법을 소개합니다. 여기에는 Hugging Face Transformers를 사용하는 이유와 클러스터에 설치하는 방법에 대한 지침이 포함되어 있습니다.

얼굴 변압기를 포옹하는 배경

포옹 얼굴 변압기는 포옹 얼굴에 의해 만들어진 딥 러닝을위한 오픈 소스 프레임 워크입니다. 미리 학습된 최신 모델을 다운로드하고 성능을 최대화하기 위해 추가로 조정하는 API 및 도구를 제공합니다. 이러한 모델은 자연어 처리, 컴퓨터 비전, 오디오 및 다중 모달 애플리케이션과 같은 다양한 형식의 일반적인 작업을 지원합니다.

참고 항목

Apache 라이선스 2.0.

Machine Learning용 Databricks 런타임에는 Databricks Runtime 10.4 LTS ML 이상의 Hugging Face transformers 가 포함되며, Face 데이터 세트 포옹, 가속평가가 Databricks Runtime 13.0 ML 이상에서 포함됩니다.

구성된 Databricks Runtime ML 버전에 포함되는 Hugging Face 버전을 검사 관련 릴리스 정보에서 Python 라이브러리 섹션을 참조하세요.

포옹 얼굴 변압기를 사용하는 이유는 무엇입니까?

감정 분석 및 텍스트 요약과 같은 많은 애플리케이션의 경우 미리 학습된 모델은 추가 모델 학습 없이도 잘 작동합니다.

포옹 얼굴 변환기 파이프라인은 모범 사례를 인코딩하고 다양한 작업에 대해 기본 모델을 선택하므로 쉽게 시작할 수 있습니다. 파이프라인을 사용하면 사용 가능한 경우 GPU를 쉽게 사용할 수 있으며 더 나은 처리량 성능을 위해 GPU로 전송된 항목의 일괄 처리를 허용합니다.

포옹 얼굴은 다음을 제공합니다.

transformers 설치

클러스터의 Databricks 런타임 버전에 Hugging Facetransformers가 포함되지 않은 경우 최신 Hugging Face transformers 라이브러리를 Databricks PyPI 라이브러리설치할 수 있습니다.

  %pip install transformers

모델 종속성 설치

모델별로 종속성이 다를 수 있습니다. Databricks는 필요에 따라 %pip 매직 명령을 사용하여 이러한 종속성을 설치하는 것이 좋습니다.

다음은 일반적인 종속성입니다.

  • librosa: 오디오 파일 디코딩을 지원합니다.
  • soundfile: 일부 오디오 데이터 세트를 생성하는 동안 필요합니다.
  • bitsandbytes: 를 사용할 load_in_8bit=True때 필요합니다.
  • SentencePiece: NLP 모델의 토케나이저로 사용됩니다.
  • timm: DetrForSegmentation필요합니다.

단일 노드 학습

단일 컴퓨터 워크플로를 테스트하고 마이그레이션하려면 단일 노드 클러스터를 사용합니다.

추가 리소스

다음 문서에는 Azure Databricks에서 LLM(큰 언어 모델) 미세 조정 및 모델 유추에 Hugging Face transformers 를 사용하는 방법에 대한 예제 Notebook 및 지침이 포함되어 있습니다.