다음을 통해 공유


분산 LLM 일괄 처리 추론

중요합니다

이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.

이 페이지에서는 서버리스 GPU 컴퓨팅에서 AI 워크로드용 확장 가능한 데이터 처리 라이브러리인 Ray Data를 사용하여 LLM 일괄 처리 유추에 대한 Notebook 예제를 제공합니다.

Ray Data와 함께 vLLM을 사용한 배치 추론

이 Notebook은 서버리스 GPU에서 Ray Data 및 vLLM 을 사용하여 대규모로 LLM 유추를 실행하는 방법을 보여 줍니다. 분산 서버리스 GPU API를 활용하여 분산 유추를 위해 다중 노드 A10 GPU를 자동으로 프로비전하고 관리합니다.

vLLM 일괄 처리 추론

노트북 받기

Ray Data와 함께 SGLang을 사용한 일괄 처리 추론

SGLang 은 LLM을 위한 고성능 서비스 프레임워크입니다. 이 Notebook은 Databricks 서버리스 GPU에서 SGLang 및 Ray Data를 사용하여 LLM 일괄 처리 유추를 실행하는 방법을 보여 줍니다.

SGLang Batch 추론

노트북 받기