중요합니다
이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.
이 문서에서는 Databricks의 서버리스 GPU 컴퓨팅에 대해 설명하고 권장 사용 사례, GPU 컴퓨팅 리소스를 설정하는 방법에 대한 지침 및 기능 제한을 제공합니다.
서버리스 GPU 컴퓨팅이란?
서버리스 GPU 컴퓨팅은 서버리스 컴퓨팅 제품의 일부입니다. 서버리스 GPU 컴퓨팅은 사용자 지정 단일 및 다중 노드 딥 러닝 워크로드용으로 특수화되어 있습니다. 서버리스 GPU 컴퓨팅을 사용하여 선호하는 프레임워크를 사용하여 사용자 지정 모델을 학습 및 미세 조정하고 최신 효율성, 성능 및 품질을 얻을 수 있습니다.
서버리스 GPU 컴퓨팅에는 다음이 포함됩니다.
- Notebooks, Unity 카탈로그 및 MLflow의 통합 환경: Notebooks를 사용하여 대화형으로 코드를 개발할 수 있습니다.
- A10 GPU 가속기:A10 GPU 는 클래식 ML 모델 및 더 작은 언어 모델을 미세 조정하는 등 중소 규모의 기계 학습 및 딥 러닝 워크로드를 가속화하도록 설계되었습니다. A10은 보통 계산 요구 사항이 있는 작업에 적합합니다.
- 다중 GPU 및 다중 노드 지원: 서버리스 GPU Python API를 사용하여 분산 학습 워크로드를 여러 GPU 및 여러 노드로 실행할 수 있습니다. 분산 학습을 참조하세요.
서버리스 GPU 컴퓨팅에 미리 설치된 패키지는 Databricks Runtime ML을 대체하지 않습니다. 일반적인 패키지가 있지만 모든 Databricks Runtime ML 종속성 및 라이브러리가 서버리스 GPU 컴퓨팅 환경에 반영되는 것은 아닙니다.
서버리스 GPU 컴퓨팅의 Python 환경
Databricks는 서로 다른 사용 사례를 제공하기 위해 두 개의 관리되는 환경을 제공합니다.
비고
서버리스 GPU 컴퓨팅에는 작업 영역 기본 환경이 지원되지 않습니다. 대신 기본 또는 AI 환경을 사용하고 환경 사이드 패널에서 추가 종속성을 직접 지정하거나 pip install합니다.
기본 기본 환경
이렇게 하면 애플리케이션 호환성을 보장하기 위해 안정적인 클라이언트 API를 사용하여 최소한의 환경을 제공합니다. 필요한 Python 패키지만 설치됩니다. Databricks는 서버를 독립적으로 업그레이드하여 성능 개선, 보안 강화 및 버그 수정을 제공하면서 작업 부하에 대한 코드 변경 없이 이를 수행할 수 있습니다. 서버리스 GPU 컴퓨팅을 선택하는 경우 기본 환경입니다. 학습 환경을 완전히 사용자 지정하려면 이 환경을 선택합니다.
다른 버전에 설치된 패키지 버전에 대한 자세한 내용은 릴리스 정보를 참조하세요.
AI 환경
Databricks AI 환경은 서버리스 GPU 환경 4에서 사용할 수 있습니다. AI 환경은 GPU의 기계 학습과 관련된 공용 런타임 패키지 및 패키지를 사용하여 기본 기본 환경을 기반으로 합니다. 여기에는 모델 학습 및 유추를 위한 PyTorch, LangChain, Transformers, Ray 및 XGBoost를 비롯한 인기 있는 기계 학습 라이브러리가 포함되어 있습니다. 학습 워크로드를 실행하기 위해 이 환경을 선택합니다.
다른 버전에 설치된 패키지 버전에 대한 자세한 내용은 릴리스 정보를 참조하세요.
권장 사용 사례
Databricks는 학습 사용자 지정 및 GPU가 필요한 모델 학습 사용 사례에 대해 서버리스 GPU 컴퓨팅을 권장합니다.
다음은 그 예입니다.
- LLM 미세 조정
- 컴퓨터 비전
- 추천 시스템
- 보충 학습
- 딥 러닝 기반 시계열 예측
요구 사항
- 다음 Azure 지원 지역 중 하나의 작업 영역입니다.
eastuseastus2centralusnorthcentraluswestcentraluswestus
서버리스 GPU 컴퓨팅 설정
Notebook을 서버리스 GPU 컴퓨팅에 연결하고 환경을 구성하려면 다음을 수행합니다.
- 노트북에서 상단의 연결 드롭다운 메뉴를 클릭하고 서버리스 GPU를 선택합니다.
-
을 클릭합니다. 환경 쪽 패널을 엽니다.
- 액셀러레이터 필드에서 A10을 선택합니다.
- 기본 환경에 대해 없음을 선택하거나 기본 환경 필드에서 AI 환경에 대한 AIv4를 선택합니다.
- 기본 환경 필드에서 없음을 선택한 경우 환경 버전을 선택합니다.
- 적용을 클릭한 다음 서버리스 GPU 컴퓨팅을 Notebook 환경에 적용할지 확인합니다.
비고
60분 동안 비활성 상태이면 컴퓨팅에 대한 연결이 자동으로 종료됩니다.
환경에 라이브러리 추가
서버리스 GPU 컴퓨팅 환경에 추가 라이브러리를 설치할 수 있습니다. Notebook에 종속성 추가를 참조하세요.
비고
Notebook에 종속성 추가와 같이 환경 패널을 사용하여 종속성을 추가하는 것은 서버리스 GPU 컴퓨팅 예약 작업에 대해 지원되지 않습니다.
작업 만들기 및 예약
다음 단계에서는 서버리스 GPU 컴퓨팅 워크로드에 대한 작업을 만들고 예약하는 방법을 보여 줍니다. 자세한 내용은 예약된 Notebook 작업 만들기 및 관리를 참조하세요.
사용하려는 전자 필기장을 연 후:
- 오른쪽 위에 있는 일정 단추를 선택합니다.
- 일정 추가를 선택합니다.
- 새 일정 양식을 작업 이름, 일정 및 컴퓨팅으로 채웁다.
- 선택하고생성합니다.
작업 및 파이프라인 UI에서 작업을 만들고 예약할 수도 있습니다 . 단계별 지침 은 새 작업 만들기 를 참조하세요.
분산 학습
제한점
- 서버리스 GPU 컴퓨팅은 A10 가속기만 지원합니다.
- Private Link 는 지원되지 않습니다. Private Link 뒤에 있는 스토리지 또는 pip 리포지토리는 지원되지 않습니다.
- 서버리스 GPU 컴퓨팅은 준수 보안 프로필 작업 영역(예: HIPAA 또는 PCI)에 대해 지원되지 않습니다. 규제된 데이터 처리는 현재 지원되지 않습니다.
- 서버리스 GPU 컴퓨팅에서 예약된 작업의 경우 Notebook과 연결된 호환되지 않는 패키지 버전에 대한 자동 복구 동작은 지원되지 않습니다.
- 워크로드의 최대 런타임은 7일입니다. 이 제한을 초과하는 모델 학습 작업의 경우 검사점을 구현하고 최대 런타임에 도달하면 작업을 다시 시작하세요.
모범 사례
서버리스 GPU 컴퓨팅에 대한 모범 사례를 참조하세요.
서버리스 GPU 컴퓨팅의 문제 해결
서버리스 GPU 컴퓨팅에서 워크로드를 실행하는 데 문제가 발생하는 경우 일반적인 문제, 해결 방법 및 지원 리소스에 대한 문제 해결 가이드 를 참조하세요.
노트북 예제
다음은 다양한 작업에 서버리스 GPU 컴퓨팅을 사용하는 방법을 보여 주는 다양한 Notebook 예제입니다.
| 과업 | Description |
|---|---|
| 대규모 언어 모델(LLM) | LoRA(Low-Rank 적응) 및 감독된 미세 조정 방법과 같은 매개 변수 효율적인 메서드를 포함하여 대용량 언어 모델을 미세 조정하는 예제입니다. |
| Computer Vision | 개체 감지 및 이미지 분류를 포함한 컴퓨터 비전 작업의 예입니다. |
| 딥 러닝 기반 추천 시스템 | 2타워 모델과 같은 최신 딥 러닝 접근 방식을 사용하여 권장 시스템을 빌드하는 예제입니다. |
| 클래식 ML | XGBoost 모델 학습 및 시계열 예측을 비롯한 기존 기계 학습 작업의 예입니다. |
| 다중 GPU 및 다중 노드 분산 학습 | 분산된 미세 조정을 포함하여 서버리스 GPU API를 사용하여 여러 GPU 및 노드에서 학습 크기를 조정하는 예제입니다. |
다중 GPU 학습 예제
다중 GPU 및 다중 노드 분산 학습을 참조하여, 다양한 분산 학습 라이브러리를 사용한 다중 GPU 학습 방법을 보여주는 노트북을 확인하세요.