영어로 읽기

다음을 통해 공유


Windows에서 책임 있는 생성 AI 애플리케이션 및 기능 개발

이 문서에서는 생성 인공 지능을 사용하여 Windows에서 애플리케이션 및 기능을 만들 때 사용할 권장되는 책임 있는 개발 사례에 대한 개요를 제공합니다.

Windows에서 생성 AI 앱 및 기능의 책임 있는 개발을 위한 지침

Microsoft의 모든 팀은 Windows를 포함하여 AI를 책임감 있게 빌드하고 배송하기 위해 핵심 원칙과 사례를 따릅니다. Microsoft 책임 AI 투명성 보고서에서 책임 있는 개발에 대한 Microsoft의 접근 방식에 대해 자세히 확인할 수 있습니다. Windows는 NIST(National Institute for Standards and Technology) AI Risk Management Framework에 맞게 조정되는 RAI 개발(관리, 지도, 측정 및 관리)의 기본 핵심 요소를 따릅니다.

Govern - 정책, 사례 및 프로세스

표준은 거버넌스 및 규정 준수 프로세스의 기초입니다. Microsoft는 책임 있는 AI에 대한 지침을 개발하기 위한 시작점으로 사용할 수 있는 6가지 원칙을 포함하여 책임 있는 AI 표준을 개발했습니다. 개인 정보 보호, 보안 및 책임 있는 AI 전반의 법률 및 규정을 준수하기 위한 프로세스 및 워크플로뿐만 아니라 개발 수명 주기에 AI 원칙을 종단 간 구축하는 것이 좋습니다. 이는 AI 공정성 검사 목록 및 인간-AI 상호 작용에 대한 지침과 같은 도구를 사용하여 각 AI 기능에 대한 초기 평가에서부터 책임 있는 AI 성과 기록표와 같은 도구를 사용하여 AI 벤치마크, 테스트 및 프로세스의 모니터링 및 검토, AI 기능의 기능 및 제한 사항 및 사용자 공개 및 제어에 대한 공개 설명서에 이르기까지 확장됩니다. 관련 개인 정보 보호법, 규정 요구 사항 및 정책에 따라 동의, 데이터 수집 및 처리 정보 등

맵 - 위험 식별

위험을 식별하기 위한 권장 사례는 다음과 같습니다.

엔드투엔드 테스트

엔드 투 엔드 테스트는 처음부터 끝까지 전체 AI 시스템을 평가하여 의도한 대로 작동하고 설정된 표준을 준수하는지 확인합니다. 이 포괄적인 접근 방식에는 다음이 포함될 수 있습니다.

레드 팀

레드 팀이라는 용어는 역사적으로 보안 취약성을 테스트하기 위한 체계적인 가상의 공격을 설명해왔습니다. 최근 이 용어는 기존의 사이버 보안을 넘어 AI 시스템의 다양한 종류의 검색, 테스트 및 공격을 설명하기 위해 일반적인 용도로 발전했습니다.

LLM(큰 언어 모델) 및 SLM(작은 언어 모델) 모두에서, 양성 및 적대적 사용은 증오 발언, 폭력의 선동 또는 미화, 성적 콘텐츠를 포함한 여러 형태로 나타날 수 있는 잠재적으로 유해한 출력을 생성할 수 있습니다. 철저한 레드 팀 작업을 통해 시스템을 스트레스 테스트하고 콘텐츠 전략을 다듬어 시스템이 피해를 줄일 가능성을 감소시킬 수 있습니다.

모든 AI 시스템은 생성 AI를 사용하는 고위험 시스템과 비 생성 AI를 사용하는 위험 수준이 낮은 시스템 모두에 대해 기능 및 목적에 따라 레드 팀 테스트를 거쳐야 합니다.

  • 정식 레드 팀 활동: LLM(대규모 언어 모델)을 사용하여 생성 AI를 사용하는 모든 고위험 시스템에 대해 독립적인 레드 팀 활동을 수행해야 합니다. 공식적인 레드 팀 활동에는 조직 외부의 전문가를 참여시키기 위해 모집하는 것이 포함됩니다.

  • 내부 빨간색 팀: 최소한 위험 수준이 낮은 비 생성형 AI 시스템에 대해 내부 빨간색 팀을 계획합니다. 이 작업은 조직 내의 사용자가 수행할 수 있습니다.

시스템의 레드 팀 요구 사항 평가 방법과 레드 팀에 대해 더 자세히 알아보세요. Microsoft AI Red Team

모델 평가

엔드 투 엔드 테스트의 일부로 모델 자체를 평가하는 것이 중요합니다.

  • 모델 카드: HuggingFace와 같이 공개적으로 사용 가능한 모델의 경우 각 모델의 모델 카드를 편리한 참조로 확인하여 모델이 사용 사례에 적합한지 이해할 수 있습니다. 모델 카드에 대해 자세히 알아보세요.

  • 수동 테스트: 스크립트 없이 단계별 테스트를 수행하는 인간은 지원되는 모델 평가의 중요한 구성 요소입니다.

    • 작은 우선 순위 문제 집합에 대한 진행률 측정 특정 피해를 완화할 때 자동 측정값으로 이동하기 전에 피해가 더 이상 관찰되지 않을 때까지 작은 데이터 세트에 대한 진행률을 수동으로 검사하는 것이 가장 생산적인 경우가 많습니다.

    • 자동화된 측정값까지 메트릭을 정의하고 보고하는 것은 단독으로 사용할 수 있을 만큼 안정적입니다.

    • 자동 측정의 품질을 측정하기 위해 주기적으로 스폿 검사.

  • 자동화된 테스트: 자동으로 실행되는 테스트는 지원되는 모델 평가의 중요한 구성 요소이기도 합니다.

    • 더 포괄적인 결과를 제공하기 위해 범위가 증가하여 대규모로 측정합니다.

    • 시스템, 사용량 및 완화가 진화함에 따라 회귀를 모니터링하기 위한 지속적인 측정입니다.

  • 모델 선택: 목적에 적합한 모델을 선택하고 기능, 제한 사항 및 잠재적 안전 문제를 이해하도록 교육합니다. 모델을 테스트할 때 모델에 적합한 결과를 생성하는지 확인합니다. 시작하기 위해 Microsoft(및 비 Microsoft/오픈 소스) 모델 원본의 대상은 다음과 같습니다.

측정 - 위험 및 완화 평가

권장되는 방법은 다음과 같습니다.

  • Content Moderator 할당: Content Moderator는 콘텐츠에서 잠재적으로 불쾌하거나 위험하거나 바람직하지 않은 자료에 대해 텍스트, 이미지 및 비디오 콘텐츠를 확인합니다. 자세한 정보: Content Moderator 소개(Microsoft Learn 교육).

    • 콘텐츠 안전 필터 사용: 다중 클래스 분류 모델의 이 앙상블은 각각 4가지 심각도 수준(안전, 낮음, 중간 및 높음)에서 유해한 콘텐츠(폭력, 증오, 성적 및 자해)의 4가지 범주를 감지합니다. 자세한 정보: Azure OpenAI Service를 사용하여 콘텐츠 필터를 구성하는 방법

    • 메타 프롬프트 적용: 메타 프롬프트는 프롬프트의 시작 부분에 포함된 시스템 메시지이며 사용 사례와 관련된 컨텍스트, 지침 또는 기타 정보를 사용하여 모델을 프라임하는 데 사용됩니다. 이러한 지침은 모델의 동작을 안내하는 데 사용됩니다. 자세한 정보: 메타프롬프트/시스템 메시지 엔지니어링을 사용하여 효과적인 보안 가드레일 만들기

    • 차단 목록 활용: 프롬프트에서 특정 용어 또는 패턴의 사용을 차단합니다. 자세한 정보: Azure OpenAI에서 차단 목록 사용

    • 모델의 출처에 익숙해지세요. 출처는 모델 소유권의 역사이며, 누가 어디에 있는지를 이해하는 것이 매우 중요합니다. 모델에서 데이터를 수집한 사람은 누구인가요? 데이터는 누구와 관련이 있습니까? 어떤 종류의 데이터가 사용됩니까? 수집된 데이터는 어디에 있나요? 데이터는 언제 수집되었나요? 모델 데이터가 어디에서 왔는지 알면 품질, 안정성을 평가하고 비윤리적이거나 불공정하거나 편향되거나 부정확한 데이터 사용을 방지하는 데 도움이 될 수 있습니다.

    • 표준 파이프라인 사용: 부분 부분을 증분으로 끌어당기는 대신 하나의 con텐트 모드ration 파이프라인을 사용합니다. 자세한 정보: 기계 학습 파이프라인 이해

  • UI 완화 적용: AI 기반 기능의 기능 및 제한 사항에 대해 사용자에게 중요한 명확성을 제공합니다. 사용자를 돕고 기능에 대한 투명성을 제공하기 위해 다음을 수행할 수 있습니다.

    • 사용자가 수락하기 전에 출력을 편집하도록 권장

    • AI 출력의 잠재적 부정확성 강조

    • 상호 작용에서 AI의 역할 공개

    • 참조 및 원본 인용

    • 입력 및 출력의 길이 제한(해당하는 경우)

    • 입력 또는 출력 구조 제공 - 프롬프트는 표준 형식을 따라야 합니다.

    • 논란의 여지가 있는 프롬프트에 대해 미리 결정된 응답을 준비합니다.

  • 고객 피드백 루프 구현: 사용자가 피드백 루프에 적극적으로 참여하도록 권장합니다.

    • 사용자 환경의 일부로 컨텍스트에서 사용할 수 있는 간단한 피드백 메커니즘을 사용하여 앱/제품에서 직접 피드백을 요청합니다.

    • 고객이 기능 문제, 우려 사항 및 가능한 피해에 대한 초기 대화에 사용하는 채널에 소셜 수신 대기 기술을 적용합니다.

관리 - AI 위험 완화

AI 위험을 완화하기 위한 권장 사항은 다음과 같습니다.

  • 남용 모니터링: 이 방법론은 행위 강령 또는 기타 적용 가능한 제품 약관을 위반할 수 있는 방식으로 서비스가 사용되었음을 암시하는 반복 콘텐츠 및/또는 동작의 인스턴스를 감지하고 완화합니다. 자세한 정보: 남용 모니터링.

  • 단계적 전달: 들어오는 보고서 및 문제를 처리하기 위해 AI 솔루션을 천천히 롤아웃합니다.

  • 인시던트 대응 계획: 우선 순위가 높은 모든 위험에 대해 인시던트에 대응하는 데 걸리는 시간과 대응 프로세스의 모양을 평가합니다.

  • 기능 또는 시스템 끄기 기능: 인시던트가 발생하거나 발생한 경우 기능을 해제하는 기능을 제공하여 추가 피해를 방지하기 위해 기능을 일시 중지해야 합니다.

  • 사용자 액세스 제어/차단: 시스템을 오용하는 사용자를 차단하는 방법을 개발합니다.

  • 사용자 피드백: 메커니즘을 활용하여 사용자의 측면에서 문제를 탐지합니다.

    • 일반적인 워크플로의 컨텍스트에서 사용할 수 있는 간단한 피드백 메커니즘을 사용하여 제품에서 직접 피드백을 요청합니다.

    • 고객이 기능 문제, 우려 사항 및 가능한 피해에 대한 초기 대화에 사용하는 채널에 소셜 수신 대기 기술을 적용합니다.

  • 원격 분석 데이터의 책임 있는 배포: 사용자 만족도 또는 의도한 대로 시스템을 사용할 수 있는 능력을 나타내는 신호를 식별, 수집 및 모니터링하여 해당 개인 정보 보호법, 정책 및 약정을 준수하도록 보장합니다. 원격 분석 데이터를 사용하여 간격을 식별하고 시스템을 개선합니다.

도구 및 리소스