요약
이 모듈에서는 Foundry 모델을 선택, 배포 및 평가하기 위한 전체 워크플로를 탐색했습니다. 벤치마크를 사용하여 모델 선택에 대한 정보에 입각한 결정을 내리는 방법, 엔드포인트에 모델을 배포하는 방법 및 다양한 평가 방법을 사용하여 성능을 평가하는 방법을 알아보았습니다.
주요 내용
Microsoft Foundry 포털의 model 카탈로그는 Microsoft, OpenAI, Meta, Mistral 및 Hugging Face를 포함한 공급자의 1,900개 이상의 모델에 access 제공합니다. 컬렉션, 기능, 배포 옵션 및 기타 특성별로 효과적으로 필터링하면 카탈로그를 요구 사항과 일치하는 모델로 좁힐 수 있습니다.
모델 벤치마크는 품질, 안전성, 비용 및 성능 차원에 대한 객관적인 비교를 제공합니다. 정확도, 일관성 및 유창성과 같은 품질 메트릭은 모델이 적절한 응답을 생성하는 정도를 평가합니다. 안전 메트릭은 유해한 콘텐츠에 대한 위험을 식별합니다. 비용 벤치마크는 예산 제약 조건과 품질 균형을 맞추는 데 도움이 됩니다. 대기 시간 및 처리량과 같은 성능 메트릭은 실시간 애플리케이션의 응답성을 나타냅니다.
배포 옵션 에는 호출당 지불 유연성을 위한 서버리스 API, 일관된 대용량 워크로드를 위한 프로비전된 배포, VM 기반 호스팅을 위한 관리형 컴퓨팅 및 비용 최적화 비대화형 작업에 대한 일괄 처리가 포함됩니다. 각 옵션은 크기 조정, 청구 및 제어에 대한 다양한 특성을 제공합니다.
플레이그라운드의 테스트는 코드를 작성하지 않고 모델 동작에 대한 즉각적인 피드백을 제공합니다. 애플리케이션에 통합하기 전에 프롬프트를 실험하고, 매개 변수를 조정하고, 응답을 관찰하여 모델 기능을 이해할 수 있습니다.
평가 방법은 수동 테스트부터 자동화된 메트릭에 이르기까지 다양합니다. 수동 평가는 사용자 만족도 및 상황별 적합성과 같은 주관적인 품질 측면을 캡처합니다. AI 지원 메트릭은 생성 품질 및 안전 위험을 자동으로 평가합니다. F1 점수 및 ROUGE와 같은 NLP 메트릭은 지상 진리 데이터에 대한 수학 비교를 제공합니다.
Microsoft Foundry 포털의 포괄적인 평가 흐름을 통해 테스트 데이터 세트 및 여러 메트릭을 사용하여 체계적인 평가를 실행할 수 있습니다. 결과는 개선이 필요한 강점, 약점 및 영역을 식별하여 생성 AI 애플리케이션의 반복적인 개발을 안내합니다.
다음 단계:
모델을 배포하고 평가한 후 다음 단계를 고려합니다.
Microsoft Foundry 포털에서 제공하는 SDK, REST API 및 코드 샘플을 사용하여 모델을 애플리케이션에 통합합니다. 이제 애플리케이션은 인증된 API 호출을 통해 배포된 모델을 사용할 수 있습니다.
조직의 데이터를 기반으로 모델 응답을 생성하기 위해 검색 증강 생성(RAG)을 구현합니다. RAG는 모델과 검색 기능을 결합하여 문서 및 기술 자료를 기반으로 정확하고 상황에 맞는 응답을 제공합니다.
Azure AI Content Safety 서비스를 사용하여 유해한 콘텐츠에 대한 추가 보호 계층을 추가합니다. 콘텐츠 필터는 부적절한 입력 및 출력을 차단하여 모델 수준 안전 기능을 보완할 수 있습니다.
특정 도메인 또는 사용 사례에서 모델(지원되는 경우)을 미세 조정하여 특수 시나리오의 성능을 향상시킵니다. 미세 조정은 범용 모델을 고유한 요구 사항에 맞게 조정합니다.
모니터 프로덕션 성능 Azure Monitor 및 Application Insights를 사용하여 사용량, 대기 시간, 비용 및 오류를 추적합니다. 지속적인 모니터링을 통해 애플리케이션이 정상 상태로 유지되고 성능이 유지됩니다.
실제 사용량 현황 데이터를 수집하고 주기적인 재평가를 수행하여 사용자 피드백을 기반으로 반복합니다. 지속적인 개선은 사용자 요구에 맞게 생성 AI 애플리케이션을 유지합니다.
이 모듈에서 개발한 기술(적절한 모델 선택, 효과적으로 배포 및 성능 평가)은 Microsoft Foundry를 사용하여 강력하고 고품질의 생성 AI 애플리케이션을 빌드하기 위한 토대를 형성합니다.