다음을 통해 공유


데이터브릭스 파운데이션 모델 API

이 문서에서는 Azure Databricks의 Foundation 모델 API에 대한 개요를 제공합니다. 여기에는 사용 요구 사항, 지원되는 모델 및 제한 사항이 포함됩니다.

Databricks Foundation 모델 API란?

Mosaic AI Model Serving은 이제 서비스 엔드포인트에서 최신 오픈 모델에 액세스하고 쿼리할 수 있는 Foundation 모델 API를 지원합니다. Foundation 모델 API를 사용하면 고유한 모델 배포를 유지 관리하지 않고도 고품질의 생성형 AI 모델을 활용하는 애플리케이션을 빠르고 쉽게 빌드할 수 있습니다. 파운데이션 모델 API는 Databricks 지정 서비스입니다. 즉, Databricks Geos를 사용하여 고객 콘텐츠를 처리할 때 데이터 상주를 관리합니다.

Foundation 모델 API는 다음 두 가지 가격 책정 모드로 제공됩니다.

  • 토큰당 지불: Databricks에서 Foundation 모델에 액세스하기 시작하는 가장 쉬운 방법이며, Foundation 모델 API를 사용하여 경험을 시작하는 데 권장됩니다. 이 모드는 처리량이 높은 애플리케이션 또는 성능이 뛰어난 프로덕션 워크로드용으로 설계되지 않았습니다.
  • 프로비전된 처리량: 이 모드는 모든 프로덕션 워크로드, 특히 높은 처리량, 성능 보장, 미세 조정된 모델이 필요하거나 추가 보안 요구 사항이 있는 워크로드에 권장됩니다. 프로비전된 처리량 엔드포인트는 HIPAA와 같은 규정 준수 인증과 함께 사용할 수 있습니다.

이러한 두 모드 및 지원되는 모델을 사용하는 방법에 대한 참고 자료는 Foundation 모델 API 사용을 참조하세요.

Foundation 모델 API를 사용하여 다음을 수행할 수 있습니다.

  • 더 많은 리소스를 투자하기 전에 일반화된 LLM을 쿼리하여 프로젝트의 유효성을 확인합니다.
  • 사용자 지정 모델 학습 및 배포에 투자하기 전에 LLM 기반 애플리케이션에 대한 빠른 개념 증명을 만들기 위해 일반화된 LLM을 쿼리합니다.
  • 벡터 데이터베이스와 함께 Foundation 모델을 사용하여 RAG(검색 증강 생성)를 사용하여 챗봇을 빌드합니다.
  • 독점 모델을 개방형 대안으로 대체하여 비용 및 성능을 최적화합니다.
  • LLM을 효율적으로 비교하여 사용 사례에 가장 적합한 후보를 확인하거나 프로덕션 모델을 더 나은 성능으로 바꿉니다.
  • 프로덕션 트래픽 급증을 지원할 수 있는 확장성 있는 SLA 지원 LLM 서비스 솔루션을 기반으로 개발 또는 프로덕션을 위한 LLM 애플리케이션을 빌드합니다.

요구 사항

Foundation 모델 API 사용

Foundation 모델 API를 사용하기 위한 여러 옵션이 있습니다.

API는 OpenAI와 호환되므로 쿼리에 OpenAI 클라이언트를 사용할 수도 있습니다. UI, Foundation 모델 API Python SDK, MLflow Deployments SDK 또는 REST API를 사용하여 지원되는 모델을 쿼리할 수도 있습니다. Databricks는 확장된 상호 작용에 OpenAI 클라이언트 SDK 또는 API를 사용하고 기능을 사용해 보기 위해 UI를 사용하는 것이 좋습니다.

채점 예제는 쿼리 생성 AI 모델을 참조하세요.

토큰당 종량제 파운데이션 모델 API

토큰당 지불 모델은 Azure Databricks 작업 영역에서 액세스할 수 있으며 시작하는데 권장됩니다. 작업 영역에서 액세스하려면 왼쪽 사이드바의 서비스 탭으로 이동합니다. Foundation 모델 API는 엔드포인트 목록 보기의 맨 위에 있습니다.

서비스 엔드포인트 목록

다음 표에는 토큰당 지불에 지원되는 모델이 요약되어 있습니다. 추가 모델 정보는 토큰당 지불에 대해 지원되는 모델을 참조하세요.

이러한 모델을 테스트하고 채팅하려면 AI 플레이그라운드를 사용하여 테스트할 수 있습니다. AI Playground를 사용하여 LLM과 채팅하고 GenAI 앱의 프로토타입 제작을 참조하세요.

Important

  • 2024년 7월 23일부터 Meta-Llama-3.1-70B-Instruct는 토큰당 지불 엔드포인트에서 Meta-Llama-3-70B-Instruct에 대한 지원을 대체합니다.
  • Meta-Llama-3.1-405B-Instruct는 AzureML 모델 카탈로그를 사용하여 Meta에서 빌드 및 학습하고 Azure Machine Learning에서 배포하는 가장 큰 공개적으로 사용 가능한 최신 대형 언어 모델입니다.
  • 이제 다음 모델이 사용 중지됩니다. 권장되는 대체 모델은 사용 중지된 모델을 참조하세요.
    • Llama 2 70B 채팅
    • MPT 7B 지시
    • MPT 30B 지시
모델 작업 종류 엔드포인트 주의
GTE Large(영어) 포함 databricks-gte-large-en 정규화된 포함을 생성하지 않습니다.
Meta-Llama-3.1-70B-Instruct 채팅 databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* 채팅 databricks-meta-llama-3-1-405b-instruct 하위 지역 가용성에 대해서는 Foundation 모델 API 제한을 참조하세요.
DBRX 지시 채팅 databricks-dbrx-instruct 하위 지역 가용성에 대해서는 Foundation 모델 API 제한을 참조하세요.
Mixtral-8x7B Instruct 채팅 databricks-mixtral-8x7b-instruct 하위 지역 가용성에 대해서는 Foundation 모델 API 제한을 참조하세요.
BGE Large(영어) 포함 databricks-bge-large-en 하위 지역 가용성에 대해서는 Foundation 모델 API 제한을 참조하세요.

* 이 모델을 사용할 때 엔드포인트 장애 또는 안정화 오류가 발생하면 Databricks 계정 팀에 문의하세요.

프로비저닝된 처리량 기반 모델 API

프로비저닝된 처리량은 성능 보장이 필요한 Foundation 모델 워크로드에 대해 최적화된 추론을 엔드포인트에 제공합니다. Databricks는 프로덕션 워크로드에 프로비전된 처리량을 권장합니다. 프로비전된 전체 모드에서 Foundation 모델 API를 배포하는 방법에 대한 단계별 가이드는 프로비전된 처리량 Foundation 모델 API를 참조하세요.

프로비전된 처리량 지원에는 다음이 포함됩니다.

  • DBRX Base와 같은 모든 규모의 베이스 모델. Foundation 모델은 Databricks 마켓플레이스를 사용하여 액세스하거나 Hugging Face 또는 다른 외부 원본에서 다운로드하여 Unity 카탈로그에 등록할 수 있습니다. 후자의 접근 방식은 사용 중인 미세 조정 방법에 관계없이 지원되는 모델의 미세 조정된 변형에서 작동합니다.
  • 기본 모델의 미세 조정된 변형(예: LlamaGuard-7B 또는 meta-llama/Llama-3.1-8B. 여기에는 재산적 가치를 가지는 데이터에 대해 미세 조정 모델이 포함됩니다.
  • 기본 모델 아키텍처(예: CodeLlama)를 사용하여 처음부터 학습되거나 미리 학습되거나 계속된 변형과 같은 완전 사용자 지정 가중치 및 토큰화기입니다.

다음 표에는 프로비전된 처리량에 대해 지원되는 모델 아키텍처가 요약되어 있습니다.

Important

Meta Llama 3.2는 LLAMA 3.2 Community License(Copyright © Meta Platforms, Inc. All Rights Reserved)에 따라 라이선스가 부여됩니다. 고객은 본 라이선스 조건과 Llama 3.2 사용 제한 정책을 준수할 책임이 있습니다.

Meta Llama 3.1은 LLAMA 3.1 Community License(Copyright © Meta Platforms, Inc. All Rights Reserved)에 따라 라이선스가 부여됩니다. 고객은 해당 모델 라이선스를 준수할 책임이 있습니다.

모델 아키텍처 작업 유형 주의
Meta Llama 3.2 3B 채팅 또는 완료 지원되는 모델 변형 및 지역 가용성에 대한 프로비전된 처리량 제한을 참조하세요.
Meta Llama 3.2 1B 채팅 또는 완료 지원되는 모델 변형 및 지역 가용성에 대한 프로비전된 처리량 제한을 참조하세요.
Meta Llama 3.1 채팅 또는 완료 지원되는 모델 변형 및 지역 가용성에 대한 프로비전된 처리량 제한을 참조하세요.
Meta Llama 3 채팅 또는 완료
Meta Llama 2 채팅 또는 완료
DBRX 채팅 또는 완료 지역 가용성에 대한 프로비전된 처리량 제한을 참조하세요.
Mistral 채팅 또는 완료
Mixtral 채팅 또는 완료
MPT 채팅 또는 완료
GTE v1.5(영어) 포함 정규화된 포함을 생성하지 않습니다.
BGE v1.5(영어) 포함

제한 사항

파운데이션 모델 API 제한을 참조 하세요.

추가 리소스