다음을 통해 공유


AI 런타임에 대한 사용자 가이드

중요합니다

단일 노드 작업에 대한 AI 런타임은 공개 미리 보기로 제공됩니다. 다중 GPU 워크로드에 대한 분산 학습 API는 베타에 남아 있습니다.

이 페이지에는 마이그레이션 정보, 예제 Notebook 링크 및 문제 해결 정보가 포함됩니다.

클래식 GPU 워크로드를 서버리스로 마이그레이션

기존 딥 러닝 워크로드를 클래식 Databricks 클러스터(Databricks 런타임 ML 사용)에서 서버리스(AI 런타임 사용)로 이동하는 경우 다음 단계를 수행합니다.

  1. 클러스터 종속 코드를 대체합니다. Spark 기반 분산 학습에 대한 참조를 제거하고(예: TorchDistributor) serverless_gpu의 데코레이터 @distributed으로 대체하십시오.
  2. 데이터 로드를 업데이트합니다. 직접 DBFS 경로를 Unity 카탈로그 볼륨 경로(/Volumes/...)로 바꿉니다. 로컬 Spark DataFrame 작업을 Spark Connect로 대체합니다.
  3. 종속성을 다시 설치합니다. Databricks Runtime ML 미리 설치된 라이브러리를 사용하지 마세요. 모든 필수 패키지에 대한 명시적 %pip install 명령을 추가합니다.
  4. 검사점 경로를 업데이트합니다. DBFS 또는 로컬 스토리지에서 Unity 카탈로그 볼륨(/Volumes/<catalog>/<schema>/<volume>/...)으로 검사점을 이동합니다.
  5. MLflow 구성을 업데이트합니다. 실험 이름이 절대 경로를 사용하고 실행 이름을 구성하여 쉽게 다시 시작할 수 있도록 합니다.
  6. 먼저 대화형으로 테스트합니다. 작업으로 예약하기 전에 대화형 Notebook에서 워크로드의 유효성을 검사합니다.

사용량 및 비용 추적

청구 가능한 사용량 시스템 테이블(system.billing.usage)을 쿼리하여 AI 런타임 GPU 지출을 모니터링할 수 있습니다. 다음 쿼리는 서버리스 GPU 워크로드의 총 사용량을 반환합니다.

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

청구 가능한 사용 테이블 스키마에 대한 자세한 내용은 청구 가능한 사용량 시스템 테이블 참조를 참조하세요.

모델 학습 SKU의 GPU 시간당 AI 런타임 요금은 다음 가격으로 청구됩니다.

  • 주문형 H100: $7.00/GPU 시간(미국 동부)
  • A10 요청 시: GPU 시간당 $4.90 (미국 동부)

예제 노트북들

시작하는 데 도움이 되는 다음 범주의 예제 Notebook을 사용할 수 있습니다.

카테고리 설명
LLM(큰 언어 모델) 매개 변수 효율적인 메서드를 포함하여 큰 언어 모델 미세 조정(LoRA, QLoRA)
컴퓨터 비전 개체 검색, 이미지 분류 및 기타 CV 작업
딥 러닝 추천 시스템 2타워 모델과 같은 최신 딥 러닝 접근 방식을 사용하여 권장 사항 시스템 빌드
클래식 ML XGBoost 모델 학습 및 시계열 예측을 비롯한 기존 ML 작업
다중 GPU 분산 학습 서버리스 GPU API를 사용하여 여러 GPU에서 학습 크기 조정

전체 목록은 AI 런타임 예제 Notebook을 참조하세요.

Troubleshooting

Genie Code는 라이브러리 설치 오류에 대한 수정 사항을 진단하고 제안하는 데 도움이 될 수 있습니다. Genie Code를 사용하여 컴퓨팅 환경 오류 디버그를 참조하세요.

ValueError: numpy.dtype 크기가 변경되었습니다. 이진 비호환성을 나타낼 수 있습니다. C 헤더에서 예상한 값은 96인데, PyObject에서 받은 값은 88입니다.

이 오류는 일반적으로 종속 패키지를 컴파일하는 동안 사용되는 NumPy 버전과 현재 런타임 환경에 설치된 NumPy 버전이 일치하지 않는 경우에 발생합니다. 이러한 비호환성은 NumPy의 C API 변경으로 인해 자주 발생하며 NumPy 1.x에서 2.x로 특히 두드러집니다. 이 오류는 Notebook에 설치된 Python 패키지가 NumPy 버전을 변경했을 수 있음을 나타냅니다.

권장 솔루션:

런타임에서 NumPy 버전을 확인하고 패키지와 호환되는지 확인합니다. 미리 설치된 Python 라이브러리에 대한 자세한 내용은 환경 4환경 3 에 대한 서버리스 GPU 컴퓨팅 릴리스 정보를 참조하세요. 다른 버전의 NumPy에 대한 종속성이 있는 경우 해당 종속성을 컴퓨팅 환경에 추가합니다.

횃불을 설치할 때 PyTorch가 libcudnn을 찾을 수 없음

다른 버전을 torch설치하면 다음과 같은 오류가 ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory표시될 수 있습니다. 토치는 로컬 경로에서 cuDNN 라이브러리만 검색하기 때문입니다.

권장 솔루션:

torch를 설치할 때 --force-reinstall을 추가하여 종속성을 다시 설치합니다.

%pip install torch --force-reinstall