Azure Databricks로 제공하는 모델
이 문서에서는 Mosaic AI 모델 서비스(이점 및 제한 사항 포함)에 대해 설명합니다.
Mosaic AI 모델 서비스란?
Mosaic AI Model Serving는 실시간 및 일괄 처리 유추를 위해 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스를 제공합니다. 서비스하는 각 모델은 웹 또는 클라이언트 애플리케이션에 통합할 수 있는 REST API로 사용할 수 있습니다.
모델 서비스 제공은 모델을 배포하기 위해 가용성이 높고 대기 시간이 짧은 서비스를 제공합니다. 서비스는 수요 변화에 맞게 자동으로 확장 또는 축소되며 대기 시간 성능을 최적화하면서 인프라 비용을 절감합니다. 이 기능은 서버리스 컴퓨팅을 사용합니다. 자세한 내용은 모델 제공 가격 책정 페이지를 참조하세요.
모델 서비스 제공은 다음 서비스를 지원합니다.
- 사용자 지정 모델. MLflow 형식으로 패키지된 Python 모델입니다. Unity 카탈로그 또는 작업 영역 모델 레지스트리에 등록할 수 있습니다. 예를 들어 scikit-learn, XGBoost, PyTorch 및 Hugging Face 변환기 모델이 있습니다.
- 에이전트 제공은 사용자 지정 모델로 지원됩니다. 생성형 AI 응용 프로그램에 대한 에이전트 배포를 참조하세요.
- 파운데이션 모델 API에서 사용할 수 있는 최첨단 오픈 모델 이러한 모델은 최적화된 유추를 지원하는 큐레이팅된 파운데이션 모델 아키텍처입니다. Meta-Llama-3.1-70B-Instruct, GTE-Large 및 Mistral-7B와 같은 기본 모델은 토큰당 종량제 가격 책정에 즉시 사용할 수 있으며, 성능 보장 및 미세 조정된 모델 변형이 필요한 워크로드는 프로비전된 처리량으로 배포할 수 있습니다.
- Databricks는 일괄 처리 유추에 모델 서비스 제공을 사용하는
ai_query
것이 좋습니다. 빠른 실험을ai_query
위해 토큰당 종량제 엔드포인트와 함께 사용할 수 있습니다. 대규모 또는 프로덕션 데이터에서 일괄 처리 유추를 실행할 준비가 되면 Databricks는 더 빠른 성능을 위해 프로비전된 처리량 엔드포인트를 사용하는 것이 좋습니다. 프로비전된 처리량 엔드포인트를 만드는 방법은 프로비전된 처리량 Foundation Model API를 참조하세요.- ai_query 사용하여 일괄 처리 유추 수행을 참조하세요.
- Unity 카탈로그> 테이블의 LLM을 사용하여 일괄 처리 유추를 시작하려면 프로비전된 Foundation Model API를 사용하여 Batch 유추의 Notebook 예제를 참조하세요.
- Databricks는 일괄 처리 유추에 모델 서비스 제공을 사용하는
- 외부 모델. Databricks 외부에서 호스트되는 생성 AI 모델입니다. 예를 들어 OpenAI의 GPT-4, Anthropic's Claude 등의 모델이 있습니다. 외부 모델을 제공하는 엔드포인트는 중앙에서 제어할 수 있으며 고객은 속도 제한 및 액세스 제어를 설정할 수 있습니다.
참고 항목
AI Playground를 사용하여 지원되는 대규모 언어 모델과 상호 작용할 수 있습니다. AI 플레이그라운드는 LLM을 테스트, 프롬프트 및 비교할 수 있는 채팅과 유사한 환경입니다. 이 기능은 Azure Databricks 작업 영역에서 사용할 수 있습니다.
모델 서비스 제공은 CRUD 및 쿼리 작업에 대한 통합 REST API 및 MLflow 배포 API를 제공합니다. 또한 모든 모델과 해당 서비스 엔드포인트를 관리하는 단일 UI를 제공합니다. AI 함수를 사용하여 SQL에서 직접 모델에 액세스하여 분석 워크플로에 쉽게 통합할 수도 있습니다.
Azure Databricks에서 사용자 지정 모델을 제공하는 방법에 대한 소개 자습서는 자습서: 사용자 지정 모델 배포 및 쿼리를 참조하세요.
Databricks에서 파운데이션 모델을 쿼리하는 방법에 대한 시작 자습서는 Databricks에서 LLM 쿼리 시작을 참조하세요.
모델 서비스를 사용하는 이유는 무엇인가요?
- 모든 모델 배포 및 쿼리: 모델 제공은 Databricks 또는 외부에 호스트되는지 여부에 관계없이 한 위치에서 모든 모델을 관리하고 단일 API로 쿼리할 수 있는 통합 인터페이스를 제공합니다. 이 방법은 다양한 클라우드 및 공급자에서 프로덕션 환경에서 모델을 실험, 사용자 지정 및 배포하는 프로세스를 간소화합니다.
- 개인 데이터를 사용하여 모델을 안전하게 사용자 지정: 데이터 인텔리전스 플랫폼을 기반으로 하는 모델 제공은 Databricks 기능 저장소 및 Mosaic AI 벡터 검색과의 네이티브 통합을 통해 기능 및 포함을 모델에 쉽게 통합할 수 있습니다. 더욱 향상된 정확도와 상황별 이해를 위해 모델을 독점 데이터로 미세 조정하고 모델 제공에 쉽게 배포할 수 있습니다.
- 모델 관리 및 모니터링: 서비스 UI를 사용하면 외부에서 호스트되는 엔드포인트를 포함하여 한 곳에서 모든 모델 엔드포인트를 중앙에서 관리할 수 있습니다. 사용 권한을 관리하고, 사용 제한을 추적 및 설정하고, 모든 유형의 모델의 품질을 모니터링할 수 있습니다. 이를 통해 적절한 가드레일이 준비되도록 하면서 SaaS에 대한 액세스를 민주화하고 조직 내에서 LLM을 열 수 있습니다.
- 최적화된 유추 및 빠른 크기 조정으로 비용 절감: Databricks는 대규모 모델에 대한 최상의 처리량 및 대기 시간을 얻을 수 있도록 다양한 최적화를 구현했습니다. 엔드포인트는 수요 변화에 맞게 자동으로 확장 또는 축소되며, 대기 시간 성능을 최적화하면서 인프라 비용을 절감합니다. 비용 제공 모델을 모니터링합니다.
참고 항목
대기 시간이 중요하거나 초당 쿼리 수가 많은 워크로드의 경우 Databricks는 엔드포인트를 제공하는 사용자 지정 모델에서 경로 최적화를 사용하는 것이 좋습니다. Databricks 계정 팀에 문의하여 높은 확장성을 위해 작업 영역을 사용하도록 설정했는지 확인합니다.
- 모델 서비스 제공에 안정성 및 보안 제공: 모델 제공은 고가용성, 짧은 대기 시간 프로덕션 사용을 위해 설계되었으며 오버헤드 대기 시간이 50ms 미만인 초당 25K 이상의 쿼리를 지원할 수 있습니다. 서비스 워크로드는 여러 보안 계층으로 보호되어 가장 중요한 작업에서도 안전하고 안정적인 환경을 보장합니다.
참고 항목
모델 제공은 프로덕션 배포에 대한 불안정의 위험 때문에 기존 모델 이미지에 보안 패치를 제공하지 않습니다. 새 모델 버전에서 만든 새 모델 이미지에는 최신 패치가 포함됩니다. 더 자세한 내용은 Databricks 계정 팀에 문의하세요.
요구 사항
- Unity 카탈로그 또는 작업 영역 모델 레지스트리에 등록된 모델입니다.
- 서비스 엔드포인트 ACL에 설명된 대로 등록된 모델에 대한 권한입니다.
- MLflow 1.29 이상
- Azure Private Link를 사용하여 작업 영역에 구성된 네트워킹 관련 수신 규칙을 준수하는 경우 Azure Private Link는 프로비전된 처리량을 사용하는 엔드포인트 또는 사용자 지정 모델을 제공하는 엔드포인트를 제공하는 모델에 대해서만 지원됩니다. 서버리스 컴퓨팅에서 프라이빗 연결 구성을 참조하세요.
작업 영역에 대해 모델 서비스를 사용하도록 설정
작업 영역에서 모델 제공을 사용하도록 설정하려면 추가 단계가 필요하지 않습니다.
제한 사항 및 지역 가용성
Mosaic AI 모델 서비스 제공은 안정적인 성능을 보장하기 위해 기본 제한을 적용합니다. 모델 서비스 제한 및 지역을 참조하세요. 이러한 제한 또는 지원되지 않는 지역의 엔드포인트에 대한 피드백이 있는 경우 Databricks 계정 팀에 문의하세요.
모델 서비스 내 데이터 보호.
Databricks는 데이터 보안을 중요하게 생각합니다. Databricks는 Mosaic AI 모델 서비스를 사용하여 분석하는 데이터의 중요성을 이해하고 데이터를 보호하기 위해 다음 보안 제어를 구현합니다.
- 모델 서비스에 대한 모든 고객 요청은 논리적으로 격리되고 인증되며 권한이 부여됩니다.
- Mosaic AI 모델 서비스 제공은 미사용 데이터(AES-256) 및 전송 중인 모든 데이터(TLS 1.2 이상)를 암호화합니다.
모든 유료 계정의 경우 Mosaic AI Model Serving는 서비스에 제출된 사용자 입력 또는 서비스의 출력을 사용하여 모델을 학습시키거나 Databricks 서비스를 개선하지 않습니다.
Databricks Foundation 모델 API의 경우 서비스 제공의 일환으로 Databricks는 남용 또는 유해한 사용을 방지, 감지 및 완화하기 위해 입력 및 출력을 일시적으로 처리하고 저장할 수 있습니다. 입력 및 출력은 다른 고객의 입력과 격리되고, 최대 30일 동안 작업 영역과 동일한 지역에 저장되며, 보안 또는 남용 문제를 감지하고 대응하는 데만 액세스할 수 있습니다. 파운데이션 모델 API는 Databricks Geos에서 구현하는 데이터 상주 경계를 준수하는 Databricks 지정 서비스입니다.