Microsoft Foundry 위험 및 안전 평가 투명성 참고

투명성 노트란 무엇인가요?

AI 시스템에는 기술뿐만 아니라 기술을 사용할 사용자, 영향을 받는 사람 및 배포된 환경도 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항 및 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft 투명성 메모는 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능 및 동작에 영향을 줄 수 있는 선택 사항, 기술, 사람 및 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 고유한 시스템을 개발하거나 배포할 때 투명도 메모를 사용하거나 시스템의 영향을 받는 사용자와 공유할 수 있습니다.

Microsoft 투명성 메모는 AI 원칙을 실천하기 위한 Microsoft 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft AI 원칙 참조하세요.

Microsoft Foundry 위험 및 안전 평가의 기본 사항

소개

Azure에서 직접 판매되는 모델은 Microsoft의 책임 있는 AI 기준을 기반으로 Microsoft에서 평가되었습니다. Anthropic 모델 및 Hugging Face hub 또는 Fireworks AI에서 제공하는 Open 모델을 포함하되 이에 국한되지 않는 다른 모든 모델은 제품 조건에 따라 Microsoft 제품이 아닌 제품이며 이는 Microsoft에 의해 평가되지 않았습니다.

모델이 Azure 직접 판매되거나 비 Microsoft 제품인지에 관계없이 고객은 자체 위험 및 안전 평가를 수행해야 합니다. Foundry 위험 및 안전 평가를 통해 사용자는 생성 AI 애플리케이션의 출력을 텍스트 콘텐츠 위험(증오 및 불공정 콘텐츠, 성적 콘텐츠, 폭력적인 콘텐츠, 자해 관련 콘텐츠, 직접 및 간접 탈옥 취약성 및 콘텐츠의 보호된 자료)에 대해 평가할 수 있습니다. 안전 평가는 적대적 데이터 세트를 생성하여 레드 팀 작업을 가속화하고 보강하는 데 도움이 될 수도 있습니다. 파운드리 안전 평가는 AI 시스템을 안전하고 책임감 있게 구축하여 책임 있는 AI 원칙을 운영하기 위한 Microsoft 약속을 반영합니다.

주요 용어

증오적이고 불공정한 콘텐츠(텍스트 및 이미지용) 는 인종, 민족, 국적, 성별, 성적 지향, 종교, 이민 신분, 능력, 외모 및 신체 크기를 포함하지만 국한되지 않는 요인을 따라 개인 및 사회 집단의 증오 또는 불공정 표현과 관련된 모든 언어 또는 이미지를 의미합니다. 불공평은 AI 시스템이 사회 집단을 불공평하게 대하거나 대표하여 사회적 불평등을 만들거나 기여할 때 발생합니다.
성적 콘텐츠(텍스트 및 이미지의 경우) 에는 해부학적 장기 및 생식기, 낭만적 인 관계, 에로틱 한 용어로 묘사 된 행위, 임신, 신체적 성적 행위 (폭행 또는 성폭력 포함), 매춘, 포르노 및 성적 학대와 관련된 언어 또는 이미지가 포함됩니다.
폭력적인 콘텐츠(텍스트 및 이미지용) 에는 누군가 또는 무언가를 다치게 하거나, 다치거나, 손상시키거나, 죽이려는 물리적 행동과 관련된 언어 또는 이미지가 포함됩니다. 또한 무기와 총기에 대한 설명(및 제조업체 및 협회와 같은 관련 법인)도 포함됩니다.
자해 관련 콘텐츠(텍스트 및 이미지용) 에는 신체를 다치게 하거나, 다치거나, 손상시키거나, 자신을 죽이기 위한 행동과 관련된 언어 또는 이미지가 포함됩니다.
보호된 자료 콘텐츠(텍스트용) 에는 알려진 텍스트 콘텐츠(예: 노래 가사, 기사, 조리법 및 선택한 웹 콘텐츠)가 포함되며, 이는 큰 언어 모델에서 출력될 수 있습니다. 조직은 보호된 자료의 표시를 감지하고 방지함으로써 지적 재산권 준수를 유지하고 콘텐츠 독보성을 유지할 수 있습니다.
보호된 자료 콘텐츠(이미지용) 는 로고 및 브랜드, 아트워크 또는 가상의 캐릭터와 같은 저작권으로 보호되는 특정 보호된 시각적 콘텐츠를 나타냅니다. 시스템은 이미지-텍스트 기반 모델을 사용하여 이러한 콘텐츠가 있는지 여부를 식별합니다.
직접 탈옥, 직접 프롬프트 공격 또는 사용자 프롬프트 삽입 공격은 작업 및 출력을 왜곡하기 위해 LLM에 유해한 입력을 삽입하기 위해 프롬프트를 조작하는 사용자를 나타냅니다. 탈옥 명령의 예로 LLM을 부적절한 콘텐츠 생성으로 속이거나 시스템 부과 제한을 무시할 수 있는 'DAN'(Do Anything Now) 공격이 있습니다.
간접 탈옥, 간접 프롬프트 공격 또는 도메인 간 프롬프트 삽입 공격은 AI 시스템이 처리하거나 접지된 콘텐츠를 생성하는 데이터 내에서 악의적인 명령이 숨겨진 경우를 나타냅니다. 이 데이터에는 개발자 또는 사용자가 직접 작성하지 않은 전자 메일, 문서, 웹 사이트 또는 기타 원본이 포함될 수 있으며 부적절한 콘텐츠 생성 또는 시스템 적용 제한을 무시할 수 있습니다.
결함 비율(콘텐츠 위험) 은 전체 데이터 세트 크기에 대한 심각도 배율의 임계값을 초과하는 테스트 데이터 세트의 인스턴스 백분율로 정의됩니다.
레드 팀은 지금까지 보안 취약성을 테스트하기 위한 체계적인 악의적 공격을 설명했습니다. LLM(대규모 언어 모델)의 등장으로 이 용어는 기존의 사이버 보안을 넘어 AI 시스템의 다양한 종류의 검색, 테스트 및 공격을 설명하기 위해 일반적인 용도로 발전했습니다. LLM을 사용하면 양성 및 악의적 사용 모두 잠재적으로 유해한 출력을 생성할 수 있으며, 증오 발언, 폭력 선동 또는 영화화, 자해 관련 콘텐츠 또는 성적 콘텐츠에 대한 참조와 같은 유해한 콘텐츠를 포함하여 다양한 형태를 취할 수 있습니다.

역량

시스템 동작

Foundry는 Azure OpenAI GPT-4o 모델을 미세 조정하고 프로비전하여 애플리케이션에 대한 적대적 공격을 주도하여 고품질의 테스트 데이터 세트를 생성합니다. 그런 다음 콘텐츠 및 보안을 위해 테스트 데이터 세트에 주석을 달도록 다른 GPT-4o 모델을 프로비전합니다. 사용자는 테스트하려는 생성 AI 애플리케이션 엔드포인트를 제공하며, 안전 평가는 콘텐츠 위험 레이블(매우 낮음, 낮음, 중간, 높음) 또는 콘텐츠 위험 검색 레이블(True 또는 False) 및 AI 생성 레이블에 대한 추론과 함께 해당 엔드포인트에 대한 정적 테스트 데이터 세트를 출력합니다.

사용 사례

의도한 용도

안전 평가는 생성 AI 애플리케이션의 콘텐츠 위험 및 탈옥 취약성을 평가하는 것 이외의 용도로 사용되지 않습니다.

생성 AI 애플리케이션 배포 전 평가: Foundry 포털의 평가 마법사 또는 Azure AI Python SDK를 사용하여 안전 평가를 자동화된 방식으로 평가하여 잠재적 콘텐츠 또는 보안 위험을 평가할 수 있습니다.
당신의 레드 팀 운영 강화: 적대적 시뮬레이터를 활용하여, 생성형 AI 애플리케이션과의 적대적 상호작용을 시뮬레이션함으로써, 안전 평가를 통해 콘텐츠 및 보안 위험을 발견할 수 있습니다.
이해 관계자에게 콘텐츠 및 보안 위험 전달: Foundry 포털을 사용하여 감사자 또는 규정 준수 이해 관계자와 안전 평가 결과와 함께 Foundry 프로젝트에 대한 액세스를 공유할 수 있습니다.

사용 사례를 선택할 때 고려 사항

고객은 혁신적인 솔루션 또는 애플리케이션에서 Foundry 안전 평가를 활용하는 것이 좋습니다. 그러나 사용 사례를 선택할 때 몇 가지 고려 사항은 다음과 같습니다.

안전 평가에는 휴먼 인더 루프가 포함되어야 합니다. Foundry 안전 평가와 같은 자동화된 평가에는 도메인 전문가와 같은 사용자 검토자가 포함되어 최종 사용자에게 배포하기 전에 생성 AI 애플리케이션이 철저히 테스트되었는지 여부를 평가해야 합니다.
안전 평가에는 총 포괄적인 적용 범위가 포함되지 않습니다. 안전 평가는 잠재적 콘텐츠 또는 보안 위험에 대한 테스트를 보강하는 방법을 제공할 수 있지만, 애플리케이션의 도메인, 사용 사례 및 최종 사용자 유형에 맞게 특별히 조정된 수동 적색 팀 작업을 대체하도록 설계되지 않았습니다.
지원되는 시나리오:
- 적대적 시뮬레이션의 경우: 질문 답변, 다회 대화, 요약, 검색, 텍스트 다시 쓰기, 근거 없는 콘텐츠 생성 및 근거 기반 콘텐츠 생성.
- 자동화된 주석의 경우: 질문 답변 및 멀티 턴 채팅을 사용하세요.
이 서비스는 현재 텍스트 생성에만 영어 도메인에 가장 적합합니다. 다중 모델 지원을 포함한 추가 기능은 향후 릴리스에서 고려될 예정입니다.
안전 평가에 제공된 콘텐츠 위험의 적용 범위는 제한된 수의 소외된 그룹 및 토픽에서 하위 샘플링됩니다.
- 증오 및 불공정 메트릭에는 성별(예: 남성, 여성, 비이진 사람) 및 인종, 조상, 민족 및 국적(예: 흑인, 멕시코, 유럽)의 인구 통계학적 요인에 대한 제한된 수의 소외 그룹에 대한 일부 적용 범위가 포함됩니다. 성별과 인종, 조상, 민족, 국적의 모든 소외된 집단이 다루지는 않습니다. 증오와 불공평과 관련된 다른 인구 통계학적 요인에는 현재 보장이 없습니다(예: 장애, 성적, 종교).
- 성적, 폭력적, 자해 관련 콘텐츠에 대한 메트릭은 증오와 불공정보다 덜 개발된 이러한 피해에 대한 예비 개념화를 기반으로 합니다. 즉, 측정 범위와 측정값이 이러한 피해가 발생할 수 있는 다양한 방법을 얼마나 잘 나타내는지에 대해 덜 강력한 주장을 할 수 있습니다. 이러한 콘텐츠 유형에 대한 적용 범위에는 성(예: 성폭력, 관계, 성적 행위), 폭력(예: 학대, 다른 사람 상해, 납치) 및 자해(예: 의도적인 사망, 의도적인 자해, 섭식 장애)와 관련된 제한된 수의 주제가 포함됩니다.
파운드리 안전성 평가는 현재 플러그 인 또는 확장성을 허용하지 않습니다.
품질을 최신 상태로 유지하고 적용 범위를 개선하기 위해 서비스의 적대적 시뮬레이션 및 주석 기능에 대한 향후 릴리스 개선의 주기를 목표로 합니다.

기술 제한 사항, 운영 요소 및 범위

LLM(대규모 언어 모델) 분야는 빠르게 진화하고 있으며, 안전하고 안정적인 AI 시스템 배포를 보장하기 위해 평가 기술을 지속적으로 개선해야 합니다. 파운드리 안전 평가는 LLM 평가 분야에서 혁신을 계속하겠다는 Microsoft 의지를 반영합니다. Microsoft는 생성 AI 애플리케이션의 안전을 평가하는 데 도움이 되는 최상의 도구를 제공하는 것을 목표로 하지만 효과적인 평가가 진행 중인 지속적인 작업임을 인식합니다.
Foundry 안전 평가의 사용자 지정은 현재 제한됩니다. 사용자는 입력 생성 AI 애플리케이션 엔드포인트만 제공할 것으로 예상하며, 서비스는 콘텐츠 위험에 대한 레이블이 지정된 정적 데이터 세트를 출력합니다.
마지막으로, 이 시스템은 작업이나 작업을 자동화하지 않으며, 최종 사용자를 위해 생성 AI 애플리케이션 또는 시스템을 프로덕션에 배포하도록 선택하기 전에 루프에서 사용자 의사 결정자가 검토해야 하는 생성 AI 애플리케이션 출력에 대한 평가만 제공합니다.

시스템 성능

시스템 성능 향상을 위한 모범 사례

일부 콘텐츠를 다른 콘텐츠보다 더 민감하게 처리할 수 있는 도메인을 고려할 때 결함율을 계산하기 위한 임계값을 조정하는 것이 좋습니다.
자동화된 안전 평가를 사용하는 경우 콘텐츠 위험의 심각도 또는 추론에 대해 AI에서 생성된 레이블에 오류가 발생할 수 있습니다. 자동화된 안전 평가 결과에 대한 휴먼-인-더-루프 유효성 검사를 가능하게 하는 수동 사용자 피드백 열이 있습니다.

주조 공장 안전성 평가

평가 방법

지원되는 모든 콘텐츠 위험 유형에 대해, 내부적으로 인간 레이블러 간의 0에서 7까지의 심각도 척도를 사용한 근사치 일치율과 동일한 데이터 세트에서 0에서 7까지의 심각도 척도를 사용한 안전 평가의 자동화된 주석을 비교하여 품질을 확인했습니다. 각 위험 영역에 대해 사람 레이블러와 자동 주석 작성자가 500개의 영어 단일 턴 텍스트, 250개의 단일 턴 텍스트-이미지 생성, 이미지-텍스트 생성 기능이 있는 250개의 다중 모달 텍스트에 레이블을 지정했습니다. 사용자 레이블 지정자와 자동화된 주석은 정확히 동일한 버전의 주석 지침을 사용하지 않았습니다. 자동화된 주석의 지침은 인간에 대한 지침에서 비롯된 반면, 이후 다양한 각도로 차이가 났습니다(증오와 불공정 지침이 가장 많이 갈라진 경우). 이러한 약간의 차이에도 불구하고 대략적인 일치 항목 비교에서 일반적인 추세와 인사이트를 공유하는 것이 여전히 유용하다고 생각합니다. 비교에서 2단계 허용 오차가 있는 일치 항목(인간 레이블이 자동화된 주석 레이블과 정확히 일치하거나 심각도에서 2 수준 이하인 경우), 1 수준 허용 오차와 일치하고, 0 수준 허용 오차와 일치하는 항목을 찾습니다.

평가 결과

전반적으로, 우리는 모든 허용 오차 수준에 걸쳐 자해 및 성적 콘텐츠 관련 위험에 대해 유사 일치의 높은 비율을 관찰했습니다. ** 폭력, 증오 및 불공평의 경우 허용 수준 전반에 걸쳐 대략적인 일치 비율이 낮았습니다. 이러한 결과는 부분적으로 사용자 레이블 지정자와 자동화된 주석에 대한 주석 지침 콘텐츠의 차이 증가, 특정 지침의 콘텐츠 및 복잡성 증가로 인한 것입니다.

조금에서 보통 정도로 다른 주석 지침을 사용하는 엔터티 간의 비교지만(따라서 이는 표준 인간-모델 일치 비교가 아닙니다), 이러한 비교는 해당 비교의 매개 변수를 고려할 때 Foundry 안전성 평가에서 기대할 수 있는 품질에 대한 추정치를 제공합니다. 특히 영어 샘플만 살펴보았습니다. 따라서 연구 결과는 다른 언어로 일반화되지 않을 수 있습니다. 또한 각 데이터 세트 샘플은 단일 턴으로 구성되었으므로 다중 턴 시나리오(예: 사용자 쿼리 및 시스템 응답을 포함한 앞뒤로 대화)에 대한 평가 결과의 일반화 가능성을 확인하기 위해 더 많은 실험이 필요합니다. 이러한 평가 데이터 세트에 사용되는 샘플 유형은 사용자 레이블과 자동화된 주석기 간의 대략적인 일치률에도 큰 영향을 줄 수 있습니다. 샘플에 레이블을 지정하는 것이 더 쉬운 경우(예: 모든 샘플에 콘텐츠 위험이 없는 경우) 대략적인 일치 비율이 더 높을 것으로 예상할 수 있습니다. 평가를 위한 사람의 라벨의 질은 또한 우리의 발견의 일반화에 영향을 미칠 수 있습니다.

Foundry 안전 평가를 평가하고 통합하기 위한 사용 방법

생성 AI 애플리케이션의 측정 및 평가는 AI 위험 관리에 대한 전체적인 접근 방식의 중요한 부분입니다. 파운드리 안전 평가는 보완되며 다른 AI 위험 관리 관행과 함께 사용해야 합니다. 도메인 전문가 및 휴먼 인더 루프 검토자는 생성 AI 애플리케이션 디자인, 개발 및 배포 주기에서 AI 지원 안전 평가를 사용할 때 적절한 감독을 제공해야 합니다. Foundry AI 지원 안전 평가에서 생성된 출력을 격리된 상태로 사용하지 않도록 주의하여 안전 평가의 제한 사항과 의도된 사용을 이해해야 합니다.

LLM의 비결정적 특성으로 인해, 심각도가 높은 폭력 콘텐츠가 '매우 낮음' 또는 '낮음'으로 평가되는 것과 같은 허위 negative 또는 positive 결과가 발생할 수 있습니다. 또한, 평가 결과는 다양한 대상 그룹에 대해 서로 다른 의미를 가질 수 있습니다. 예를 들어 안전 평가는 특정 폭력 콘텐츠가 얼마나 심각한지에 대한 인간 검토자의 정의에 맞지 않을 수 있는 폭력적인 콘텐츠의 "낮은" 심각도에 대한 레이블을 생성할 수 있습니다. Foundry Portal에서는 평가 결과를 확인할 때 ‘좋아요’와 ‘싫어요’ 기능을 통해 인간 검토자가 승인했거나 오류로 표시한 사례를 확인할 수 있도록, 인간 검토자 피드백 열을 제공합니다. 각 생성 AI 애플리케이션이 작동하는 환경의 위험 수준에 대한 적절한 수준의 조사로 평가 결과를 공유하고 유효성을 검사할 수 있는 다른 사용자에 의한 의사 결정에 대해 결과를 해석할 수 있는 방법의 컨텍스트를 고려합니다.