생성 AI 애플리케이션용 에이전트 배포(모델 서비스)

Important

새로운 사용 사례의 경우 Databricks는 에이전트 코드, 서버 구성 및 배포 워크플로를 완전히 제어하기 위해 Databricks 앱에 에이전트를 배포하는 것이 좋습니다. AI 에이전트를 작성하고 Databricks 앱에 배포하세요. 기존 에이전트를 마이그레이션하려면 모델 서비스에서 Databricks 앱으로 에이전트 마이그레이션을 참조하세요.

Agent Framework Python API의 deploy() 함수를 사용하여 Mosaic AI Model Serving에 AI 에이전트를 배포합니다. 배포는 기본 제공 확장성, 모니터링 및 공동 작업 도구를 사용하여 서비스 엔드포인트를 만듭니다.

배포된 에이전트는 실시간 추적, 이해 관계자 피드백을 위한 검토 앱 및 모니터링을 포함하여 MLflow 3 평가 및 모니터링 기능과 자동으로 통합됩니다.

Requirements

MLflow 3

Unity 카탈로그에 에이전트를 등록합니다.
에서 APIdeploy()를 사용하여 databricks.agents 에이전트를 배포하려면 MLflow 3.1.3 이상을 설치합니다.
Databricks Notebook 외부에서 에이전트를 배포하려면 SDK 버전 1.1.0 이상이 필요합니다 databricks-agents .

필수 구성 요소를 설치합니다.

# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

MLflow 2.x

Important

Databricks는 일부 MLflow 2 로깅 기능이 더 이상 사용되지 않으므로 MLflow 3을 사용하여 에이전트를 배포하는 것이 좋습니다. 자세한 배포 작업을 참조하세요.

Unity 카탈로그에 에이전트를 등록합니다.
MLflow 2.13.1 이상을 설치하고 deploy() API를 사용하여 databricks.agents에 에이전트를 배포합니다.
Databricks Notebook 외부에서 에이전트를 배포하려면 databricks-agents SDK 버전 0.12.0 이상이 필요합니다.

필수 구성 요소를 설치합니다.

# Install prerequisites
%pip install mlflow>=2.13.1 databricks-agents>=0.12.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

를 사용하여 에이전트 배포 `deploy()`

엔드포인트를 제공하는 모델에 에이전트를 배포합니다.

from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

deploy()를 호출할 때 Databricks는 프로덕션 인프라를 자동으로 설정하고 다음을 수행하여 MLflow gen AI 기능과 에이전트를 통합합니다.

경고

Databricks Git 폴더에 저장된 Notebook에서 에이전트를 배포하는 경우 MLflow 3 실시간 추적은 기본적으로 작동하지 않습니다.

실시간 추적을 사용하도록 설정하려면, mlflow.set_experiment() 실행하기 전에 실험을 Git과 연결되지 않은 상태로 agents.deploy() 설정합니다.

함수는 deploy() 기본적으로 다음 작업을 수행합니다.

자동 크기 조정 및 부하 분산을 사용하여 에이전트를 호스트하는 엔드포인트를 제공하는 모델을 만듭니다.
에이전트가 기본 리소스에 액세스할 수 있도록 보안 인증을 프로비전합니다.
프로덕션 트래픽에 대한 MLflow 실험 추적 및 자동화된 품질 평가를 통해 실시간 모니터링을 사용하도록 설정
피드백 수집을 위해 검토 앱을 사용하여 관련자 공동 작업 설정

자세한 내용은 자세한 배포 작업을 참조하세요.

배포 구성 맞춤화

추가 인수를 전달하여 deploy() 배포를 사용자 지정합니다. 예를 들어, 특정 매개변수를 전달하여 비활성 상태의 엔드포인트에 대해 0으로 크기 조정을 활성화할 수 있습니다. 이렇게 하면 비용이 절감되지만 초기 쿼리를 제공하는 시간이 늘어나게 됩니다.

자세한 매개 변수는 Databricks Agents Python API 참조하세요.

에이전트 배포 검색 및 삭제

기존 에이전트 배포를 검색하거나 관리합니다. Databricks Agents Python API 참조하세요.

from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = ""    # Set to your Unity Catalog model name
agent_model_version = 1  # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

종속 리소스에 대한 인증

에이전트는 배포 시 작업을 완료하기 위해 다른 리소스에 인증해야 하는 경우가 많습니다. 예를 들어 에이전트는 구조화되지 않은 데이터를 쿼리하기 위해 Vector Search 인덱스에 액세스해야 할 수 있습니다.

사용 시기 및 설정 방법을 비롯한 인증 방법에 대한 자세한 내용은 AI 에이전트에 대한 인증(모델 서비스)을 참조하세요.

에이전트 배포를 위한 네트워킹

작업 영역에서 Private Link 또는 제한된 송신 네트워크 정책을 사용하는 경우 에이전트 배포가 성공하도록 네트워크 액세스를 구성해야 합니다. 엔드포인트를 제공하는 모델을 사용하려면 컨테이너 빌드 프로세스 중에 종속성을 다운로드하려면 아웃바운드 액세스가 필요합니다. 또한 에이전트는 런타임에 외부 API에 연결해야 할 수도 있습니다.

Databricks 앱에 배포된 에이전트의 경우 DNS 또는 송신 정책 구성에 대한 자세한 지침은 Private Link 환경에서 앱 배포를 참조하세요.

모델 제공에 배포된 에이전트의 경우 다음을 확인합니다.

빌드 시 종속성: 네트워크 정책은 에이전트의 환경에 필요한 패키지 리포지토리(pypi.org 또는 Python 패키지의 경우 files.pythonhosted.org)에 대한 액세스를 허용해야 합니다. Azure Databricks는 차단된 네트워크 액세스로 인한 빌드 실패를 network_source_type: ML Build 시스템 테이블에 system.access.outbound_network로 기록합니다. 모델 서빙으로 유효성을 검증하기를 참조하세요.
런타임 종속성: 유추 중에 에이전트가 외부 API 또는 서비스를 호출하는 경우 해당 도메인을 네트워크 정책의 허용 목록에 추가합니다.
DNS 확인: Private Link 환경에서 에이전트가 벡터 검색 또는 SQL 웨어하우스 엔드포인트와 같이 종속된 Azure Databricks 서비스의 호스트 이름을 확인할 수 있는지 확인합니다.

자세한 배포 작업

다음 표에서는 deploy() 호출로 인한 자세한 배포 작업이 자세히 나열되어 있습니다. 배포를 완료하는 데 최대 15분이 소요될 수 있습니다.

MLflow 3

`deploy()` 행동	Description
엔드포인트를 제공하는 모델 만들기	자동 부하 분산을 사용하여 사용자 연결 애플리케이션에 에이전트를 제공하는 확장 가능한 REST API 엔드포인트를 만듭니다.
보안 인증 제공	에이전트가 필요한 최소 권한으로 Databricks 관리 리소스 (벡터 검색 인덱스, Unity 카탈로그 함수 등)에 액세스할 수 있도록 하는 수명이 짧은 자격 증명을 자동으로 제공합니다. Databricks는 자격 증명을 발급하기 전에 엔드포인트 소유자가 적절한 권한을 가지고 있는 것을 확인하여 무단 액세스를 방지합니다. Databricks가 아닌 리소스의 경우 비밀이 포함된 환경 변수를 에 전달합니다 `deploy()`. 엔드포인트를 제공하는 모델에서 리소스에 대한 액세스 구성을 참조하세요.
검토 앱 사용	관련자가 에이전트와 상호 작용하고 피드백을 제공할 수 있는 웹 인터페이스를 제공합니다. 기존 추적에 레이블을 지정하여 피드백과 기대를 수집하는 방법을 확인하세요.
실시간 추적 사용	모든 에이전트 상호 작용을 실시간으로 MLflow 실험에 기록하여 모니터링 및 디버깅에 대한 즉각적인 가시성을 제공합니다. 엔드포인트의 추적 로그는 현재 활성화된 MLflow 실험에 기록되며, 이는 `mlflow.set_experiment()`로 설정됩니다. 엔드포인트의 모든 에이전트는 추적 스토리지에 대해 동일한 실험을 공유합니다. 추적 로그는 장기 저장을 위해 추론 테이블에도 기록됩니다.
프로덕션 모니터링 사용(베타)	프로덕션 트래픽에서 스코어러를 실행하는 자동화된 품질 평가를 설정합니다. 프로덕션 모니터링을 참조하세요.
유추 테이블 사용	감사 및 분석을 위해 요청 입력 및 응답을 기록하는 테이블을 만듭니다. 경고: 요청 로그 및 평가 로그는 더 이상 사용되지 않으며 향후 릴리스에서 제거될 예정입니다. 대신 MLflow 3 실시간 추적을 사용합니다. 요청 로그 및 평가 로그 사용 중단에 대한 마이그레이션 지침을 참조하세요. 모든 에이전트는 로깅 에 AI Gateway 유추 테이블을 사용합니다. 스트리밍 응답은 `ResponsesAgent`, `ChatAgent`, 및 `ChatCompletion` 스키마와 호환되는 로그 필드만 기록합니다.
REST API 요청 기록 및 앱 피드백 검토	API 요청 및 피드백을 유추 테이블에 기록합니다. 경고:피드백 모델은 더 이상 사용되지 않으며 향후 릴리스에서 제거될 예정입니다. MLflow 3으로 업그레이드하고 대신 API를 `log_feedback` 사용합니다. 사용자 피드백 수집을 참조하세요. 검토 앱에서 피드백을 수락하고 기록하는 피드백 모델을 만듭니다. 이 모델은 배포된 에이전트와 엔드포인트를 제공하는 동일한 CPU 모델에서 제공됩니다.

MLflow 2

`deploy()` 행동	Description
엔드포인트를 제공하는 모델 만들기	자동 부하 분산을 사용하여 사용자 연결 애플리케이션에 에이전트를 제공하는 확장 가능한 REST API 엔드포인트를 만듭니다.
보안 인증 제공	에이전트가 필요한 최소 권한으로 Databricks 관리 리소스 (벡터 검색 인덱스, Unity 카탈로그 함수 등)에 액세스할 수 있도록 하는 수명이 짧은 자격 증명을 자동으로 제공합니다. Databricks는 자격 증명을 발급하기 전에 엔드포인트 소유자가 적절한 권한을 가지고 있는 것을 확인하여 무단 액세스를 방지합니다. Databricks가 아닌 리소스의 경우 비밀이 포함된 환경 변수를 에 전달합니다 `deploy()`. 엔드포인트를 제공하는 모델에서 리소스에 대한 액세스 구성을 참조하세요.
검토 앱 사용	관련자가 에이전트와 상호 작용하고 피드백을 제공할 수 있는 웹 인터페이스를 제공합니다. 기존 추적에 레이블을 지정하여 피드백과 기대를 수집하는 방법을 확인하세요.
유추 테이블 사용	감사 및 분석을 위해 요청 입력 및 응답을 기록하는 테이블을 만듭니다. 경고: 요청 로그 및 평가 로그는 더 이상 사용되지 않으며 향후 릴리스에서 제거될 예정입니다. 요청 로그 및 평가 로그 사용 중단에 대한 마이그레이션 지침을 참조하세요. 모든 에이전트는 로깅 에 AI Gateway 유추 테이블을 사용합니다. 지원 중단된 에이전트 스키마 (배포된 `databricks-agents<1.4.0`)는 표준 유추 테이블을 사용합니다. 스트리밍 응답은 `ResponsesAgent`, `ChatAgent`, `ChatCompletion` 스키마와 호환되는 로그 필드만 기록합니다.
REST API 요청 로그 및 앱 피드백 검토(사용되지 않음)	API 요청 및 피드백을 유추 테이블에 기록합니다. 경고:피드백 모델은 더 이상 사용되지 않으며 향후 릴리스에서 제거될 예정입니다. MLflow 3으로 업그레이드하고 대신 API를 `log_feedback` 사용합니다. 사용자 피드백 수집을 참조하세요. 검토 앱에서 피드백을 수락하고 기록하는 피드백 모델을 만듭니다. 이 모델은 배포된 에이전트와 엔드포인트를 제공하는 동일한 CPU 모델에서 제공됩니다.

다음 단계

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-19

생성 AI 애플리케이션용 에이전트 배포(모델 서비스)

Requirements

MLflow 3

MLflow 2.x

를 사용하여 에이전트 배포 deploy()

배포 구성 맞춤화

에이전트 배포 검색 및 삭제

종속 리소스에 대한 인증

에이전트 배포를 위한 네트워킹

자세한 배포 작업

MLflow 3

MLflow 2

다음 단계

피드백

추가 리소스

를 사용하여 에이전트 배포 `deploy()`