Azure AI 스튜디오 안전 평가에 대한 투명성 고지

아티클
10/16/2024

Important

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

투명성 고지란

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft의 투명성 고지는 Microsoft의 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능과 동작에 영향을 줄 수 있는 선택 사항 그리고 기술, 사람, 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 투명성 고지는 자체 시스템을 개발 또는 배포할 때 사용하거나 시스템을 사용하거나 시스템의 영향을 받을 사람들과 공유할 수 있습니다.

Microsoft의 투명성 고지는 AI 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft AI 원칙을 참조하세요.

Azure AI 스튜디오 안전 평가에 대한 기본 사항

소개

Azure AI 스튜디오 안전 평가를 통해 사용자는 생성형 AI 애플리케이션의 출력을 텍스트 콘텐츠 위험(증오 및 불공정 콘텐츠, 성적 콘텐츠, 폭력적인 콘텐츠, 자해 관련 콘텐츠, 탈옥 취약성)에 대해 평가할 수 있습니다. 안전 평가는 적대적 데이터 세트를 생성하여 레드 팀 작업을 가속화하고 보강하는 데 도움이 될 수도 있습니다. Azure AI 스튜디오 안전 평가는 책임 있는 AI 원칙을 운영하면서 AI 시스템이 안전하고 책임감 있게 구축되도록 하기 위한 Microsoft의 약속을 반영합니다.

주요 용어

증오 및 불공정 콘텐츠는 인종, 민족, 국적, 성별, 성적 지향, 종교, 이민 신분, 능력, 외모 및 신체 크기를 포함하되 이에 국한되지 않는 요인에 따라 개인 및 사회 집단의 증오 또는 불공정 표현과 관련된 모든 언어를 의미합니다. 불공평은 AI 시스템이 사회 집단을 불공평하게 대하거나 대표하여 사회적 불평등을 만들거나 기여할 때 발생합니다.
성적 콘텐츠에는 해부학적 기관 및 생식기와 관련된 언어, 낭만적인 관계, 에로틱한 용어로 묘사된 행위, 임신, 신체적 성행위(폭행 또는 성폭력 포함), 매춘, 음란물 및 성적 학대가 포함됩니다.
폭력적인 콘텐츠에는 누군가 또는 무언가를 다치게 하거나, 해하거나, 죽이려는 신체적 행동과 관련된 언어가 포함됩니다. 또한 무기와 총기에 대한 설명(및 제조업체 및 협회와 같은 관련 법인)도 포함됩니다.
자해 관련 콘텐츠에는 신체를 다치게 하거나, 해하거나, 손상시키거나 자살할 목적의 행위와 관련된 언어가 포함됩니다.
탈옥, 직접적인 프롬프트 공격 또는 사용자 프롬프트 삽입 공격은 작업 및 출력 내용을 왜곡하기 위해 LLM에 유해한 입력 내용을 삽입하도록 프롬프트를 조작하는 사용자를 의미합니다. 탈옥 명령의 예로는 ‘DAN(Do Anything Now)’ 공격이 있는데, 이는 LLM을 부적절한 콘텐츠 생성으로 속이거나 시스템에 적용되는 제한을 무시할 수 있습니다.
결함률(콘텐츠 위험)은 테스트 데이터 세트 내에서 전체 데이터 세트 크기에 대한 심각도 규모의 임계값을 초과하는 인스턴스 백분율로 정의됩니다.
레드 팀은 지금까지 보안 취약성을 테스트하기 위한 체계적인 적대적 공격을 설명했습니다. LLM(대규모 언어 모델)이 부상함에 따라 이 용어는 기존의 사이버 보안을 넘어 AI 시스템에 대한 다양한 종류의 검색, 테스트 및 공격을 설명하도록 보편적인 의미로 발전했습니다. LLM을 사용하면 무해한 사용과 적대적 사용 모두 잠재적으로 유해한 출력을 생성할 수 있으며, 이는 증오 발언, 폭력 선동 또는 미화 또는 자해 관련 콘텐츠 또는 성적 콘텐츠에 대한 언급과 같은 유해한 콘텐츠를 비롯해 다양한 형태를 취할 수 있습니다.

기능

시스템 동작

Azure AI 스튜디오는 Azure OpenAI GPT-4 모델을 프로비전하고 애플리케이션에 대한 적대적인 공격을 오케스트레이션하여 고품질 테스트 데이터 세트를 생성합니다. 그런 다음 콘텐츠 및 보안을 위해 테스트 데이터 세트에 주석을 달도록 다른 GPT-4 모델을 프로비전합니다. 사용자는 테스트하려는 생성형 AI 애플리케이션 엔드포인트를 제공하며, 안전 평가는 콘텐츠 위험 레이블(매우 낮음, 낮음, 중간, 높음) 및 AI 생성 레이블에 대한 추론과 함께 해당 엔드포인트에 대한 정적 테스트 데이터 세트를 출력합니다.

사용 사례

올바른 사용법

안전 평가는 생성형 AI 애플리케이션의 콘텐츠 위험 및 탈옥 취약성을 평가하는 것 이외의 용도로 사용되지 않습니다.

생성형 AI 애플리케이션 배포 전 평가: Azure AI 스튜디오 또는 Azure AI Python SDK의 평가 마법사를 사용하여 안전 평가를 자동화된 방식으로 평가하여 잠재적 콘텐츠 또는 보안 위험을 평가할 수 있습니다.
레드 팀 운영 보강: 보안 평가는 적대적인 시뮬레이터를 사용하여 생성형 AI 애플리케이션과의 적대적인 상호 작용을 시뮬레이션하여 콘텐츠 및 보안 위험을 파악할 수 있습니다.
관련자에게 콘텐츠 및 보안 위험 전달: Azure AI 스튜디오를 사용하여 감사자 또는 규정 준수 관련자에게 안전 평가 결과와 함께 Azure AI 스튜디오 프로젝트에 대한 액세스를 공유할 수 있습니다.

사용 사례 선택 시 고려 사항

고객이 혁신적인 솔루션 또는 애플리케이션에서 Azure AI 스튜디오 안전 평가를 활용하도록 권장합니다. 하지만 사용 사례를 선택할 때 다음과 같은 몇 가지 고려 사항이 있습니다.

안전 평가에는 인간 참여형이 포함되어야 합니다. Azure AI 스튜디오 안전 평가와 같은 자동화된 평가를 사용하려면 도메인 전문가와 같은 인간 검토자를 포함하여 최종 사용자에게 배포하기 전에 생성형 AI 애플리케이션이 철저히 테스트되었는지 여부를 평가해야 합니다.
안전 평가에는 포괄적인 전체 적용 범위가 포함되지 않습니다. 안전 평가는 잠재적 콘텐츠 또는 보안 위험에 대한 테스트를 보강하는 방법을 제공할 수 있지만, 애플리케이션 도메인, 사용 사례 및 최종 사용자 유형에 맞게 특별히 조정된 수동 레드 팀 작업을 대체하도록 설계되지 않았습니다.
지원되는 시나리오
- 적대적 시뮬레이션의 경우: 질문 답변, 멀티 턴 채팅, 요약, 검색, 텍스트 다시 쓰기, 근거가 없거나 근거가 있는 콘텐츠 생성.
- 자동화된 주석의 경우: 질문 답변 및 멀티 턴 채팅.
이 서비스는 현재 영어 도메인인 텍스트 생성에만 가장 적합합니다. 다중 모델 지원을 포함한 추가 기능은 향후 릴리스에서 고려될 예정입니다.
안전 평가에 제공된 콘텐츠 위험의 적용 범위는 제한된 수의 소외된 그룹 및 토픽에서 하위 샘플링됩니다.
- 증오 및 불공정 메트릭에는 성별(예: 남성, 여성, 논바이너리) 및 인종, 조상, 민족 및 국적(예: 흑인, 멕시코인, 유럽인)의 인구 통계학적 요인에 대한 제한된 수의 소외 그룹에 대한 일부 적용 범위가 포함됩니다. 성별과 인종, 조상, 민족, 국적의 모든 소외된 집단을 다루지는 않습니다. 증오와 불공평과 관련된 다른 인구 통계학적 요인에는 현재 적용 범위가 없습니다(예: 장애, 성적 취향, 종교).
- 성, 폭력, 자해 관련 콘텐츠에 대한 메트릭은 증오와 불공정보다 덜 전개된 이러한 피해에 대한 예비 개념화를 기반으로 합니다. 즉, 측정 범위와 측정값이 이러한 피해가 발생할 수 있는 다양한 방법을 얼마나 잘 나타내는지에 대해 덜 강한 주장을 할 수 있습니다. 이러한 콘텐츠 유형에 대한 적용 범위에는 성(예: 성폭력, 관계, 성적 행위), 폭력(예: 학대, 타인 상해, 납치) 및 자해(예: 의도적인 사망, 의도적인 자해, 섭식 장애)와 관련된 제한된 수의 주제가 포함됩니다.
Azure AI 스튜디오 안전 평가는 현재 플러그 인 또는 확장성을 허용하지 않습니다.
품질을 최신 상태로 유지하고 적용 범위를 개선하기 위해 서비스의 악의적인 시뮬레이션 및 주석 기능에 대한 향후 릴리스 주기의 개선을 목표로 합니다.

기술 제한 사항, 운영 요소, 범위

LLM(대규모 언어 모델) 분야는 빠르게 진화하고 있으며, 안전하고 안정적인 AI 시스템 배포를 보장하려면 평가 기술을 계속해서 개선해야 합니다. Azure AI 스튜디오 안전 평가는 LLM 평가 분야에서 혁신을 계속하겠다는 Microsoft의 의지를 반영합니다. 당사는 생성형 AI 애플리케이션의 안전을 평가하는 데 도움이 되는 최상의 도구를 제공하는 것을 목표로 하지만 효과적인 평가가 진행 중인 지속적인 작업임을 인식합니다.
Azure AI 스튜디오 안전 평가에 대한 사용자 지정은 현재 제한됩니다. 사용자는 입력 생성형 AI 애플리케이션 엔드포인트만 제공할 것으로 예상하며, 당사의 서비스는 콘텐츠 위험에 대한 레이블이 지정된 정적 데이터 세트를 출력합니다.
마지막으로, 이 시스템은 동작이나 작업을 자동화하지 않으며, 최종 사용자를 위해 생성형 AI 애플리케이션 또는 시스템을 프로덕션에 배포하도록 선택하기 전에 루프에서 인간 의사 결정자가 검토해야 하는 생성형 AI 애플리케이션 출력에 대한 평가만 제공합니다.

시스템 성능

시스템 성능 개선을 위한 모범 사례

일부 콘텐츠를 다른 콘텐츠보다 더 민감하게 처리할 수 있는 도메인을 고려할 때 결함률을 계산하기 위한 임계값을 조정하는 것이 좋습니다.
자동화된 안전 평가를 사용하는 경우 콘텐츠 위험의 심각도 또는 추론에 대해 AI에서 생성된 레이블에 오류가 발생할 수 있습니다. 자동화된 안전 평가 결과에 대한 인간 참여형 유효성 검사를 가능하게 하는 수동 인간 피드백 열이 있습니다.

Azure AI 스튜디오 안전 평가에 대한 평가

평가 방법

지원되는 모든 콘텐츠 위험 유형에 대해 0~7 심각도 규모를 사용하는 인간 레이블 지정자 간의 근사치 일치율과 동일한 데이터 세트에 대해 0~7 심각도 규모를 사용하는 안전성 평가 자동화 주석을 비교하여 내부적으로 품질을 확인했습니다. 각 위험 영역에는 인간 레이블 지정자와 500개의 자동화된 주석 처리기 레이블 영어 단일 턴 텍스트가 모두 있었습니다. 인간 레이블 지정자와 자동화된 주석 처리기는 정확히 동일한 버전의 주석 지침을 사용하지 않았습니다. 자동화된 주석 처리기 지침은 인간용 지침에서 비롯되었지만, 이후 다양한 각도로 차이가 났습니다(증오와 불공정 지침이 가장 많이 갈라짐). 이러한 약간의 차이에도 불구하고 대략적인 일치 항목 비교에서 일반적인 추세와 인사이트를 공유하는 것이 여전히 유용하다고 생각합니다. 비교에서 2단계 허용 오차가 있는 일치 항목(인간 레이블이 자동화된 주석 처리기 레이블과 정확히 일치하거나 심각도에서 2 수준 이하인 경우)과, 1 수준 허용 오차와 일치하는 항목, 0 수준 허용 오차와 일치하는 항목을 찾습니다.

평가 결과

전반적으로, 모든 허용 오차 수준에서 자해 및 성적 콘텐츠 위험 전반에 걸쳐 근사 일치의 비율이 높았습니다. 폭력과 증오와 불공평의 경우 허용 오차 수준의 대략적인 일치 비율은 낮았습니다. 이러한 결과는 부분적으로 인간 레이블 지정자와 자동화된 주석 처리기의 주석 지침 내용의 차이 증가, 특정 지침의 내용 및 복잡성 증가로 인한 것입니다.

약간 다른 주석 지침에 살짝 사용되는 엔터티 간의 비교이지만(따라서 표준 인간 모델 계약 비교가 아님), 이러한 비교는 이러한 비교의 매개 변수를 고려할 때 Azure AI 스튜디오 안전 평가에서 기대할 수 있는 품질을 추정합니다. 특히 영어 샘플만 살펴보았습니다. 따라서 연구 결과는 다른 언어에는 일반화되지 않을 수 있습니다. 또한 각 데이터 세트 샘플은 단일 턴으로 구성되었으므로 멀티 턴 시나리오(예: 사용자 쿼리 및 시스템 응답을 포함한 주고받는 대화)에 대한 평가 결과의 일반화 가능성을 확인하려면 더 많은 실험이 필요합니다. 이러한 평가 데이터 세트에 사용되는 샘플 유형은 샘플에 레이블을 지정하는 것이 더 쉬운 경우(예: 모든 샘플에 콘텐츠 위험이 없는 경우) 인간 레이블과 자동화된 주석 처리기 간의 대략적인 일치률에도 큰 영향을 줄 수 있습니다. 평가를 위한 인간 레이블의 품질은 또한 조사 결과의 일반화에도 영향을 미칠 수 있습니다.

사용할 Azure AI 스튜디오 안전 평가 평가 및 통합

생성형 AI 애플리케이션의 측정 및 평가는 AI 위험 관리에 대한 전체적인 접근 방식 중 중요한 부분입니다. Azure AI 스튜디오 안전 평가는 보완되며 다른 AI 위험 관리 사례와 함께 사용해야 합니다. 도메인 전문가와 인간 참여형 검토자는 생성형 AI 애플리케이션 설계, 개발 및 배포 주기에서 AI 지원 안전 평가를 사용할 때 적절하게 감독해야 합니다. Azure AI 스튜디오 AI 지원 안전 평가에서 생성된 출력을 격리된 상태로 사용하지 않도록 주의하여 안전 평가의 제한 사항과 의도된 사용을 이해해야 합니다.

LLM의 비결정적 특성으로 인해 “매우 낮음” 또는 “낮음”으로 점수가 매겨진 심각도가 높은 수준의 폭력적인 콘텐츠와 같은 가음성 또는 양성의 결과가 발생할 수 있습니다. 또한, 평가 결과는 여러 대상 그룹에서 서로 다른 의미가 있을 수 있습니다. 예를 들어 안전 평가는 특정 폭력 콘텐츠가 얼마나 심각한지에 대한 인간 검토자의 정의에 부합하지 않을 가능성이 있는, 폭력적인 콘텐츠의 심각도 "낮음"에 대한 레이블을 생성할 수 있습니다. Azure AI 스튜디오에서 평가 결과를 검토할 때 엄지손가락과 엄지손가락이 아래로 표시된 사용자 피드백 열을 제공하여 인간 검토자가 승인하거나 잘못된 것으로 플래그가 지정한 인스턴스를 표시합니다. 각 생성형 AI 애플리케이션이 작동하는 환경의 위험 수준에 대한 적절한 수준의 조사를 통해 평가 결과를 공유하고 유효성을 검사할 수 있는 다른 사용자에 의한 의사 결정에 대해 결과를 해석할 수 있는 방법의 컨텍스트를 고려합니다.

다음을 통해 공유