다음을 통해 공유


Windows에서 책임 있는 생성 AI 애플리케이션 및 기능 개발

이 문서에서는 생성 인공 지능을 사용하여 Windows에서 애플리케이션 및 기능을 만들 때 사용할 권장되는 책임 있는 개발 사례에 대한 개요를 제공합니다.

Windows에서 생성 AI 앱 및 기능의 책임 있는 개발을 위한 지침

Microsoft의 모든 팀은 Windows를 포함하여 AI를 책임감 있게 빌드하고 배송하기 위해 핵심 원칙과 사례를 따릅니다. 첫 번째 연례 책임 있는 AI 투명성 보고서에서 책임 있는 개발에 대한 Microsoft의 접근 방식에 대해 자세히 확인할 수 있습니다. Windows는 NIST(National Institute for Standards and Technology) AI Risk Management Framework에 맞게 조정되는 RAI 개발(관리, 지도, 측정 및 관리)의 기본 핵심 요소를 따릅니다.

Govern - 정책, 사례 및 프로세스

표준은 거버넌스 및 규정 준수 프로세스의 기초입니다. Microsoft는 책임 있는 AI에 대한 지침을 개발하기 위한 시작점으로 사용할 수 있는 6가지 원칙을 포함하여 책임 있는 AI 표준을 개발했습니다. 개인 정보 보호, 보안 및 책임 있는 AI 전반의 법률 및 규정을 준수하기 위한 프로세스 및 워크플로뿐만 아니라 개발 수명 주기에 AI 원칙을 종단 간 구축하는 것이 좋습니다. 이는 AI 공정성 검사 목록 및 인간-AI 상호 작용에 대한 지침과 같은 도구를 사용하여 각 AI 기능에 대한 초기 평가에서부터 책임 있는 AI 성과 기록표와 같은 도구를 사용하여 AI 벤치마크, 테스트 및 프로세스의 모니터링 및 검토, AI 기능의 기능 및 제한 사항 및 사용자 공개 및 제어에 대한 공개 설명서에 이르기까지 확장됩니다. 관련 개인 정보 보호법, 규정 요구 사항 및 정책에 따라 동의, 데이터 수집 및 처리 정보 등

맵 - 위험 식별

위험을 식별하기 위한 권장 사례는 다음과 같습니다.

엔드투엔드 테스트

  • 레드 팀: 레드 팀이라는 용어는 지금까지 보안 취약성을 테스트하기 위한 체계적인 악의적 공격을 설명했습니다. LLM(대규모 언어 모델)의 등장으로 이 용어는 기존의 사이버 보안을 넘어 AI 시스템의 다양한 종류의 검색, 테스트 및 공격을 설명하기 위해 일반적인 용도로 발전했습니다. LLM을 사용하면 무해한 사용과 적대적 사용 모두 잠재적으로 유해한 출력을 생성할 수 있으며, 이는 증오 발언, 폭력 선동 또는 영화화 또는 성적 콘텐츠와 같은 유해한 콘텐츠를 비롯해 다양한 형태를 취할 수 있습니다.

  • 모델 평가: 종단 간 테스트 외에도 모델 자체를 평가하는 것이 중요합니다.

    • 모델 카드: HuggingFace와 같이 공개적으로 사용 가능한 모델의 경우 각 모델의 모델 카드를 편리한 참조로 확인하여 모델이 사용 사례에 적합한지 이해할 수 있습니다. 모델 카드에 대해 자세히 알아보세요.

    • 수동 테스트: 스크립트 없이 단계별 테스트를 수행하는 인간은 지원되는 모델 평가의 중요한 구성 요소입니다.

      • 작은 우선 순위 문제 집합에 대한 진행률 측정 특정 피해를 완화할 때 자동 측정값으로 이동하기 전에 피해가 더 이상 관찰되지 않을 때까지 작은 데이터 세트에 대한 진행률을 수동으로 검사하는 것이 가장 생산적인 경우가 많습니다.

      • 자동화된 측정값까지 메트릭을 정의하고 보고하는 것은 단독으로 사용할 수 있을 만큼 안정적입니다.

      • 자동 측정의 품질을 측정하기 위해 주기적으로 스폿 검사.

    • 자동화된 테스트: 자동으로 실행되는 테스트는 지원되는 모델 평가의 중요한 구성 요소이기도 합니다.

      • 더 포괄적인 결과를 제공하기 위해 범위가 증가하여 대규모로 측정합니다.

      • 시스템, 사용량 및 완화가 진화함에 따라 회귀를 모니터링하기 위한 지속적인 측정입니다.

    • 모델 선택: 목적에 적합한 모델을 선택하고 기능, 제한 사항 및 잠재적 안전 문제를 이해하도록 교육합니다. 모델을 테스트할 때 모델에 적합한 결과를 생성하는지 확인합니다. 시작하기 위해 Microsoft(및 비 Microsoft/오픈 소스) 모델 원본의 대상은 다음과 같습니다.

측정 - 위험 및 완화 평가

권장되는 방법은 다음과 같습니다.

  • Content Moderator 할당: Content Moderator는 콘텐츠에서 잠재적으로 불쾌하거나 위험하거나 바람직하지 않은 자료에 대해 텍스트, 이미지 및 비디오 콘텐츠를 확인합니다. 자세한 정보: Content Moderator 소개(Microsoft Learn 교육).

    • 콘텐츠 안전 필터 사용: 다중 클래스 분류 모델의 이 앙상블은 각각 4가지 심각도 수준(안전, 낮음, 중간 및 높음)에서 유해한 콘텐츠(폭력, 증오, 성적 및 자해)의 4가지 범주를 감지합니다. 자세한 정보: Azure OpenAI Service를 사용하여 콘텐츠 필터를 구성하는 방법

    • 메타 프롬프트 적용: 메타 프롬프트는 프롬프트의 시작 부분에 포함된 시스템 메시지이며 사용 사례와 관련된 컨텍스트, 지침 또는 기타 정보를 사용하여 모델을 프라임하는 데 사용됩니다. 이러한 지침은 모델의 동작을 안내하는 데 사용됩니다. 자세한 정보: 메타프롬프트/시스템 메시지 엔지니어링을 사용하여 효과적인 보안 가드레일 만들기

    • 차단 목록 활용: 프롬프트에서 특정 용어 또는 패턴의 사용을 차단합니다. 자세한 정보: Azure OpenAI에서 차단 목록 사용

    • 모델의 출처에 익숙해지세요. 출처는 모델 소유권의 역사이며, 누가 어디에 있는지를 이해하는 것이 매우 중요합니다. 모델에서 데이터를 수집한 사람은 누구인가요? 데이터는 누구와 관련이 있습니까? 어떤 종류의 데이터가 사용됩니까? 수집된 데이터는 어디에 있나요? 데이터는 언제 수집되었나요? 모델 데이터가 어디에서 왔는지 알면 품질, 안정성을 평가하고 비윤리적이거나 불공정하거나 편향되거나 부정확한 데이터 사용을 방지하는 데 도움이 될 수 있습니다.

    • 표준 파이프라인 사용: 부분 부분을 증분으로 끌어당기는 대신 하나의 con텐트 모드ration 파이프라인을 사용합니다. 자세한 정보: 기계 학습 파이프라인 이해

  • UI 완화 적용: AI 기반 기능의 기능 및 제한 사항에 대해 사용자에게 중요한 명확성을 제공합니다. 사용자를 돕고 기능에 대한 투명성을 제공하기 위해 다음을 수행할 수 있습니다.

    • 사용자가 수락하기 전에 출력을 편집하도록 권장

    • AI 출력의 잠재적 부정확성 강조

    • 상호 작용에서 AI의 역할 공개

    • 참조 및 원본 인용

    • 입력 및 출력의 길이 제한(해당하는 경우)

    • 입력 또는 출력 구조 제공 - 프롬프트는 표준 형식을 따라야 합니다.

    • 논란의 여지가 있는 프롬프트에 대해 미리 결정된 응답을 준비합니다.

관리 - AI 위험 완화

AI 위험을 완화하기 위한 권장 사항은 다음과 같습니다.

  • 남용 모니터링: 이 방법론은 행위 강령 또는 기타 적용 가능한 제품 약관을 위반할 수 있는 방식으로 서비스가 사용되었음을 암시하는 반복 콘텐츠 및/또는 동작의 인스턴스를 감지하고 완화합니다. 자세한 정보: 남용 모니터링.

  • 단계적 전달: 들어오는 보고서 및 문제를 처리하기 위해 AI 솔루션을 천천히 롤아웃합니다.

  • 인시던트 대응 계획: 우선 순위가 높은 모든 위험에 대해 인시던트에 대응하는 데 걸리는 시간과 대응 프로세스의 모양을 평가합니다.

  • 기능 또는 시스템 끄기 기능: 인시던트가 발생하거나 발생한 경우 기능을 해제하는 기능을 제공하여 추가 피해를 방지하기 위해 기능을 일시 중지해야 합니다.

  • 사용자 액세스 제어/차단: 시스템을 오용하는 사용자를 차단하는 방법을 개발합니다.

  • 사용자 피드백 메커니즘: 사용자 측에서 문제를 검색하는 스트림입니다.

  • 원격 분석 데이터의 책임 있는 배포: 사용자 만족도 또는 의도한 대로 시스템을 사용할 수 있는 능력을 나타내는 신호를 식별, 수집 및 모니터링하여 해당 개인 정보 보호법, 정책 및 약정을 준수하도록 보장합니다. 원격 분석 데이터를 사용하여 간격을 식별하고 시스템을 개선합니다.

도구 및 리소스