AI 애플리케이션에 대한 A/B 실험

2025-07-02

중요합니다

이 문서에서 표시된 항목(미리 보기)은 현재 공개 또는 비공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

AI 애플리케이션 개발 분야에서는 A/B 실험이 중요한 사례로 떠올랐습니다. 이를 통해 AI 애플리케이션을 지속적으로 평가하여 비즈니스 영향, 위험 및 비용의 균형을 조정합니다. 오프라인 및 온라인 평가는 몇 가지 인사이트를 제공하지만, 성공을 측정하기 위해 올바른 메트릭을 사용하도록 A/B 실험을 보완해야 합니다. A/B 실험에는 기능 플래그 또는 동적 구성을 사용하여 기능, 프롬프트 또는 모델의 두 버전을 비교하여 더 나은 성능을 확인할 수 있습니다. 이 메서드는 다음과 같은 여러 가지 이유로 필수적입니다.

모델 성능 향상 - A/B 실험을 통해 개발자는 다양한 버전의 AI 모델, 알고리즘 또는 기능을 체계적으로 테스트하여 가장 효과적인 버전을 식별할 수 있습니다. 제어된 실험을 사용하면 정확도, 사용자 참여 및 응답 시간과 같은 주요 성능 메트릭에 대한 변경의 영향을 측정할 수 있습니다. 이 반복 프로세스를 사용하면 최상의 모델을 식별하고 미세 조정에 도움이 되며 모델이 최상의 결과를 제공할 수 있습니다.
편견을 줄이고 공정성 향상 - AI 모델은 실수로 편견을 도입하여 불공정한 결과를 초래할 수 있습니다. A/B 실험을 통해 다양한 사용자 그룹에서 다양한 모델 버전의 성능을 비교하여 이러한 편견을 식별하고 완화할 수 있습니다. 이렇게 하면 AI 애플리케이션이 공정하고 공평하며 모든 사용자에게 일관된 성능을 제공할 수 있습니다.
혁신 가속화 - A/B 실험은 지속적인 실험과 학습을 장려하여 혁신 문화를 조성합니다. 새로운 아이디어와 기능의 유효성을 신속하게 검사하여 비생산적인 접근 방식에 소요된 시간과 리소스를 줄일 수 있습니다. 이렇게 하면 개발 주기가 가속화되고 팀이 혁신적인 AI 솔루션을 더 빠르게 출시할 수 있습니다.
사용자 환경 최적화 - 사용자 환경은 AI 애플리케이션에서 가장 중요합니다. A/B 실험을 사용하면 다양한 사용자 인터페이스 디자인, 상호 작용 패턴 및 개인 설정 전략을 실험할 수 있습니다. 사용자 피드백 및 동작을 분석하여 사용자 환경을 최적화하여 AI 애플리케이션을 보다 직관적이고 매력적으로 만들 수 있습니다.
Data-Driven 의사 결정 - A/B 실험은 데이터 기반 의사 결정을 위한 강력한 프레임워크를 제공합니다. 직관이나 가정에 의존하는 대신 경험적 증거에 대한 결정을 기반으로 할 수 있습니다. 이로 인해 AI 애플리케이션을 개선하기 위한 보다 많은 정보와 효과적인 전략으로 이어집니다.

A/B 실험은 AI 애플리케이션 수명 주기에 어떻게 부합하나요?

A/B 실험과 오프라인 평가는 각각 서로를 보완하는 고유한 목적을 제공하는 AI 애플리케이션 개발의 필수 구성 요소입니다.

오프라인 평가에는 유창성 및 일관성과 같은 다양한 메트릭에서 성능을 측정하기 위해 테스트 데이터 세트를 사용하여 AI 모델을 테스트하는 작업이 포함됩니다. Azure AI 모델 카탈로그 또는 GitHub 모델 마켓플레이스에서 모델을 선택한 후에는 통합 테스트 중에 초기 모델 유효성 검사에 오프라인 사전 프로덕션 평가가 중요하므로 모델 또는 애플리케이션을 프로덕션에 배포하기 전에 잠재적인 문제를 식별하고 개선할 수 있습니다.

그러나 오프라인 평가에는 제한 사항이 있습니다. 실제 시나리오에서 발생하는 복잡한 상호 작용을 완전히 캡처할 수는 없습니다. A/B 실험이 시작되는 곳입니다. A/B 실험은 다양한 버전의 AI 모델 또는 UX 기능을 라이브 사용자에게 배포함으로써 모델 및 애플리케이션이 실제 조건에서 수행하는 방식에 대한 인사이트를 제공합니다. 이렇게 하면 사용자 동작을 이해하고, 예기치 않은 문제를 식별하고, 모델 평가 메트릭, 운영 메트릭(예: 대기 시간) 및 비즈니스 메트릭(예: 계정 등록, 변환 등)에 대한 변경 내용의 영향을 측정할 수 있습니다.

다이어그램에 표시된 것처럼 오프라인 평가는 초기 모델 유효성 검사 및 구체화에 필수적이지만, A/B 실험은 AI 애플리케이션이 실제로 효과적이고 공정하게 수행되도록 하는 데 필요한 실제 테스트를 제공합니다. 이들은 함께 강력하고 안전하며 사용자 친화적인 AI 애플리케이션을 개발하기 위한 포괄적인 접근 방식을 형성합니다.

A/B 실험에 대한 일반적인 워크플로를 보여 주는 다이어그램

CI/CD 워크플로를 사용하여 Azure AI 평가 및 온라인 A/B 실험을 사용하여 AI 애플리케이션 크기 조정

GitHub의 기존 CI/CD 워크플로에 원활하게 통합할 수 있는 GitHub Actions를 사용하여 평가 및 A/B 실험 프로세스를 크게 간소화하고 있습니다. 이제 CI 워크플로에서 Azure AI 평가 GitHub 작업을 사용하여 Azure AI Evaluation SDK 를 사용하여 일관성 및 유창성과 같은 메트릭을 계산하기 위해 변경 내용을 커밋한 후 수동 또는 자동화된 평가를 실행할 수 있습니다.

온라인 실험 GitHub 작업(미리 보기)을 사용하여 A/B 실험을 CD(지속적인 배포) 워크플로에 통합할 수 있습니다. 이 기능을 사용하여 배포에 성공한 후 CD 워크플로의 일부로 기본 제공 AI 모델 메트릭 및 사용자 지정 메트릭을 사용하여 A/B 실험을 자동으로 만들고 분석할 수 있습니다. 또한 Azure 플러그 인용 GitHub Copilot를 사용하여 실험을 지원하고, 메트릭을 만들고, 의사 결정을 지원할 수 있습니다.

중요합니다

온라인 실험은 제한된 액세스 미리 보기를 통해 사용할 수 있습니다. 자세한 내용을 보려면 액세스를 요청합니다.

Azure AI 파트너

또한 사용자 고유의 A/B 실험 공급자를 사용하여 AI 애플리케이션에서 실험을 실행할 수 있습니다. Azure Marketplace에서 사용할 수 있는 몇 가지 솔루션 중에서 선택할 수 있습니다.

Statsig

Statsig 는 사용자가 빌드하는 기능을 관심 있는 비즈니스 메트릭에 연결하는 제품, 엔지니어링 및 데이터 과학 팀을 위한 실험 플랫폼입니다. Statsig는 웹 및 모바일 애플리케이션에 대한 자동 A/B 테스트 및 실험을 지원하여 팀에게 영향을 주는 기능(그리고 그렇지 않은 기능)을 포괄적으로 볼 수 있습니다. Azure AI로 실험을 간소화하기 위해 Statsig는 Statsig 고객이 실험을 더 쉽게 실행할 수 있도록 Azure AI SDK 및 Azure AI 유추 API를 기반으로 빌드된 SDK를 게시했습니다.

기타 A/B 실험 공급자

Split.io

Split.io 사용하면 기능 플래그를 설정하고 프로덕션에 안전하게 배포하여 누가 어떤 기능과 시기를 확인할 수 있는지 제어할 수 있습니다. 또한 모든 플래그를 상황별 데이터에 연결할 수 있으므로 기능이 상황을 개선하거나 악화시키고 있는지 확인하고 주저 없이 작동합니다. Split의 Microsoft 통합을 통해 개발 팀은 기능 플래그를 관리하고, 릴리스 성능, 실험 및 표면 데이터를 모니터링하여 지속적인 데이터 기반 결정을 내릴 수 있도록 지원합니다.

LaunchDarkly

LaunchDarkly 는 소프트웨어 개발자를 염두에 두고 빌드된 기능 관리 및 실험 플랫폼입니다. 이를 통해 대규모로 기능 플래그를 관리하고, A/B 테스트 및 실험을 실행하고, 자신감을 가지고 제공하는 소프트웨어를 점진적으로 제공할 수 있습니다.

Azure AI 평가 소프트웨어 개발 키트