다음을 통해 공유


데이터브릭스 파운데이션 모델 애플리케이션 프로그래밍 인터페이스

이 문서에서는 Azure Databricks의 기본 모델 API에 대한 개요를 제공합니다. 여기에는 사용 요구 사항, 지원되는 모델 및 제한 사항이 포함됩니다.

Databricks Foundation 모델 API란?

Mosaic AI Model Serving 는 이제 서비스 엔드포인트에서 최신 오픈 모델에 액세스하고 쿼리할 수 있는 파운데이션 모델 API를 지원합니다. 파운데이션 모델 API를 사용하면 고유한 모델 배포를 유지 관리하지 않고도 고품질의 생성 AI 모델을 활용하는 애플리케이션을 빠르고 쉽게 빌드할 수 있습니다.

파운데이션 모델 API는 다음 두 가지 가격 책정 모드로 제공됩니다.

  • 토큰당 지불: Databricks에서 기본 모델에 액세스하기 시작하는 가장 쉬운 방법이며, 파운데이션 모델 API를 사용하여 여정을 시작하는 데 권장됩니다. 이 모드는 처리량이 높은 애플리케이션 또는 성능이 뛰어난 프로덕션 워크로드용으로 설계되지 않았습니다.
  • 프로비전된 처리량: 이 모드는 모든 프로덕션 워크로드, 특히 높은 처리량, 성능 보장, 미세 조정된 모델이 필요하거나 추가 보안 요구 사항이 있는 워크로드에 권장됩니다. 프로비전된 처리량 엔드포인트는 HIPAA와 같은 규정 준수 인증과 함께 사용할 수 있습니다.

이러한 두 모드와 지원되는 모델을 사용하는 방법에 대한 지침은 Foundation Model API 사용을 참조하세요.

Foundation Model API를 사용하여 다음을 수행할 수 있습니다.

  • 더 많은 리소스를 투자하기 전에 일반화된 LLM을 쿼리하여 프로젝트의 유효성을 확인합니다.
  • 사용자 지정 모델 학습 및 배포에 투자하기 전에 LLM 기반 애플리케이션에 대한 빠른 개념 증명을 만들기 위해 일반화된 LLM을 쿼리합니다.
  • 벡터 데이터베이스와 함께 기본 모델을 사용하여 RAG(검색 보강 세대)를 사용하여 챗봇을 빌드합니다.
  • 독점 모델을 개방형 대안으로 대체하여 비용 및 성능을 최적화합니다.
  • LLM을 효율적으로 비교하여 사용 사례에 가장 적합한 후보를 확인하거나 프로덕션 모델을 더 나은 성능으로 바꿉니다.
  • 프로덕션 트래픽 급증을 지원할 수 있는 확장성 있는 SLA 지원 LLM 서비스 솔루션을 기반으로 개발 또는 프로덕션을 위한 LLM 애플리케이션을 빌드합니다.

요구 사항

참고 항목

DBRX 기본 모델을 사용하는 프로비전된 처리량 워크로드의 경우 지역 가용성에 대한 기본 모델 API 제한을 참조하세요.

파운데이션 모델 API 사용

파운데이션 모델 API를 사용하기 위한 여러 옵션이 있습니다.

API는 OpenAI와 호환되므로 쿼리에 OpenAI 클라이언트를 사용할 수도 있습니다. UI, Foundation Models API Python SDK, MLflow Deployments SDK 또는 REST API를 사용하여 지원되는 모델을 쿼리할 수도 있습니다. Databricks는 확장된 상호 작용에 MLflow 배포 SDK 또는 REST API를 사용하고 기능을 사용해 보기 위해 UI를 사용하는 것이 좋습니다.

채점 예제는 쿼리 기초 모델을 참조하세요.

토큰당 종량제 파운데이션 모델 API

Important

이 기능은 공개 미리 보기 상태입니다.

토큰당 종량제 모델은 Azure Databricks 작업 영역에서 액세스할 수 있으며 시작하기 위해 권장됩니다. 작업 영역에서 액세스하려면 왼쪽 사이드바의 서비스 탭으로 이동합니다. 파운데이션 모델 API는 엔드포인트 목록 보기의 맨 위에 있습니다.

서비스 엔드포인트 목록

다음 표에서는 토큰당 종량제에 대해 지원되는 모델을 요약합니다. 추가 모델 정보는 토큰당 지불에 대해 지원되는 모델을 참조하세요.

이러한 모델을 테스트하고 채팅하려면 AI 플레이그라운드를 사용하여 테스트할 수 있습니다. AI Playground를 사용하여 지원되는 LLM과의 채팅을 참조 하세요.

Important

MPT 7B 지시 및 MPT 30B 지시 모델은 사용 중지할 예정입니다. 2024년 8월 30일 이후에는 이러한 모델이 더 이상 지원되지 않습니다.

모델 작업 유형 엔드포인트
DBRX 지시 채팅 databricks-dbrx-instruct
Meta-Llama-3-70B-Instruct 채팅 databricks-meta-llama-3-70b-instruct
Meta-Llama-2-70B-Chat 채팅 databricks-llama-2-70b-chat
Mixtral-8x7B 지시 채팅 databricks-mixtral-8x7b-instruct
MPT 7B 지시 Completion databricks-mpt-7b-instruct
MPT 30B 지시 Completion databricks-mpt-30b-instruct
GTE Large(영어) 포함 databricks-gte-large-en
BGE Large(영어) 포함 databricks-bge-large-en

프로비전된 처리량 기반 모델 API

프로비전된 처리량은 일반적으로 사용할 수 있으며 Databricks는 프로덕션 워크로드에 프로비전된 처리량을 권장합니다. 프로비전된 처리량은 성능 보장이 필요한 기본 모델 워크로드에 대해 최적화된 유추가 있는 엔드포인트를 제공합니다. 프로비전된 전체 모드에서 Foundation Model API를 배포하는 방법에 대한 단계별 가이드는 프로비전된 처리량 Foundation Model API를 참조하세요.

프로비전된 처리량 지원에는 다음이 포함됩니다.

  • DBRX Base와 같은 모든 크기의 기본 모델입니다. 기본 모델은 Databricks Marketplace를 사용하여 액세스하거나 Hugging Face 또는 다른 외부 원본에서 다운로드하여 Unity 카탈로그에 등록할 수 있습니다. 후자의 접근 방식은 사용 중인 미세 조정 방법에 관계없이 지원되는 모델의 미세 조정된 변형에서 작동합니다.
  • 기본 모델의 미세 조정된 변형(예: LlamaGuard-7B). 여기에는 독점 데이터에 대해 미세 조정된 모델이 포함됩니다.
  • 기본 모델 아키텍처(예: CodeLlama, Yi-34B-Chat 또는 SOLAR-10.7B)를 사용하여 처음부터 학습하거나 미리 학습된 다른 변형과 같은 완전 사용자 지정 가중치 및 토큰화기입니다.

다음 표에는 프로비전된 처리량에 대해 지원되는 모델 아키텍처가 요약되어 있습니다.

모델 아키텍처 작업 유형 주의
DBRX 채팅 또는 완료 지역 가용성에 대한 기본 모델 API 제한을 참조하세요.
Meta Llama 3 채팅 또는 완료
Meta Llama 2 채팅 또는 완료
Mistral 채팅 또는 완료
Mixtral 채팅 또는 완료
MPT 채팅 또는 완료
BGE v1.5(영어) 포함

제한 사항

모델 서비스 제한 및 지역을 참조 하세요.

추가 리소스