다음을 통해 공유


AI 레드 팀 에이전트(미리 보기)

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

AI Red Teaming Agent(미리 보기)는 조직이 생성 AI 모델 및 애플리케이션을 설계 및 개발하는 동안 생성 AI 시스템과 관련된 안전 위험을 사전에 찾을 수 있도록 설계된 강력한 도구입니다.

기존의 레드 팀 활동은 사이버 킬 체인을 활용하여 시스템의 보안 취약성을 평가하는 과정입니다. 그러나 생성 AI의 등장과 함께 AI 레드 팀이라는 용어는 이러한 시스템이 존재하는 새로운 위험(콘텐츠 및 보안 관련)에 대한 검색을 설명하기 위해 만들어졌으며, AI 시스템이 특정 방식으로 잘못 작동하도록 하려는 악의적인 사용자의 동작을 시뮬레이션하는 것을 의미합니다.

AI Red Teaming Agent는 Azure AI Foundry의 위험 및 안전 평가와 함께 Python 위험 식별 도구(PyRIT) AI 레드 팀 기능을 위한 Microsoft의 오픈 소스 프레임워크를 활용하여 세 가지 방법으로 안전 문제를 자동으로 평가하는 데 도움이 됩니다.

  • 콘텐츠 위험에 대한 자동화된 검사: 먼저 적대적 검색을 시뮬레이션하여 모델 및 애플리케이션 엔드포인트에서 안전 위험을 자동으로 검색할 수 있습니다.
  • 검색 성공 평가: 다음으로, 각 공격 응답 쌍을 평가하고 점수를 매김하여 ASR(공격 성공률)과 같은 통찰력 있는 메트릭을 생성할 수 있습니다.
  • 보고 및 로깅 마지막으로 공격 검색 기술 및 위험 범주의 점수 카드를 생성하여 시스템을 배포할 준비가 되었는지 여부를 결정할 수 있습니다. 결과를 Azure AI Foundry에서 직접 기록, 모니터링 및 추적하여 규정 준수 및 지속적인 위험 완화를 보장할 수 있습니다.

이러한 구성 요소(검사, 평가 및 보고)를 통해 팀은 AI 시스템이 일반적인 공격에 대응하는 방식을 이해하고 궁극적으로 포괄적인 위험 관리 전략을 안내할 수 있습니다.

비고

이 기능에 허브 기반 프로젝트를 사용해야 합니다. Foundry 프로젝트는 지원되지 않습니다. 자세한 내용은 프로젝트 유형을 참조하세요.

AI Red Teaming Agent의 스캔을 언제 사용하는지

신뢰할 수 있는 AI 시스템을 개발하는 AI 관련 안전 위험을 고려할 때 Microsoft는 NIST의 프레임워크를 사용하여 위험을 효과적으로 완화합니다( 거버넌스, 맵, 측정, 관리). 생성 AI 개발 수명 주기와 관련하여 마지막 세 부분에 집중하겠습니다.

  • 맵: 관련 위험을 식별하고 사용 사례를 정의합니다.
  • 측정: 대규모 위험을 평가합니다.
  • 관리: 인시던트 대응 계획을 사용하여 프로덕션의 위험을 완화하고 모니터링합니다.

AI 레드 팀 에이전트를 사용하는 방법을 보여주는 다이어그램으로, 사전 대응에서 사후 대응까지 그리고 비용이 적게 드는 것에서 많이 드는 것까지를 보여 줌.

AI Red Teaming Agent를 사용하여 자동화된 검사를 실행하고 악의적인 검색을 시뮬레이션하여 알려진 위험의 식별 및 평가를 대규모로 가속화할 수 있습니다. 이를 통해 팀은 비용이 많이 드는 사후 인시던트에서 배포 전에 문제를 파악할 수 있는 보다 사전 예방적 테스트 프레임워크로 "왼쪽으로 이동"할 수 있습니다. 수동 AI 레드 팀 프로세스는 시간과 리소스를 많이 사용합니다. 악의적 프로빙을 시뮬레이션하기 위해 안전 및 보안 전문가의 창의성이 필요합니다. 이 프로세스는 많은 조직에서 AI 채택을 가속화하는 병목 상태를 만들 수 있습니다. AI Red Teaming Agent를 통해 조직은 이제 Microsoft의 심층 전문 지식을 활용하여 신뢰할 수 있는 AI를 사용하여 AI 개발을 확장하고 가속화할 수 있습니다.

팀은 AI Red Teaming Agent를 사용하여 디자인, 개발 및 배포 전 단계에서 자동화된 검사를 실행하는 것이 좋습니다.

  • 디자인: 사용 사례에서 가장 안전한 기본 모델을 선택합니다.
  • 개발: 애플리케이션 내에서 모델을 업그레이드하거나 특정 애플리케이션에 대해 미세 조정된 모델을 만듭니다.
  • 배포 전: 프로덕션에 GenAI 애플리케이션을 배포하기 전입니다.

프로덕션 환경에서는 Azure AI 콘텐츠 안전 필터와 같은 안전 완화를 구현하거나 템플릿을 사용하여 안전 시스템 메시지를 구현하는 것이 좋습니다.

AI Red Teaming 작동 방식

"AI Red Teaming Agent"는 귀하의 대상 AI 시스템에 대한 적대적 테스트를 시뮬레이션하고 자동화하는 데 도움을 줍니다. 지원되는 위험 범주당 시드 프롬프트 또는 공격 목표의 큐레이팅된 데이터 세트를 제공합니다. 직접적인 적대적 탐색을 자동화하는 데 사용할 수 있습니다. 그러나 직접적인 악의적 프로빙은 모델 배포의 기존 안전 맞춤을 통해 쉽게 포착될 수 있습니다. PyRIT의 공격 전략을 적용하면 AI 시스템을 바이패스하거나 전복시켜 바람직하지 않은 콘텐츠를 생성하는 데 도움이 되는 추가 변환을 제공합니다.

다이어그램에서 은행을 약탈하는 방법에 대한 AI 시스템에 대한 직접 요청이 거부 응답을 트리거하는 것을 볼 수 있습니다. 그러나 모든 문자를 대칭 이동과 같은 공격 전략을 적용하면 모델을 속여 질문에 대답하는 데 도움이 될 수 있습니다.

AI Red Teaming Agent의 작동 방식에 대한 다이어그램

또한 AI Red Teaming Agent는 악의적 공격을 시뮬레이션하고 위험 및 안전 평가자를 사용하여 유해한 콘텐츠가 있을 수 있는 응답을 평가하는 작업에 전념하는 미세 조정된 악의적인 대규모 언어 모델을 사용자에게 제공합니다. AI 시스템의 위험 상태를 평가하는 주요 메트릭은 총 공격 수에 대해 성공한 공격의 비율을 계산하는 ASR(공격 성공률)입니다.

지원되는 위험 범주

다음 위험 범주는 위험 및 안전 평가의 AI Red Teaming Agent에서 지원됩니다. 텍스트 기반 시나리오만 지원됩니다.

위험 범주 설명
증오 및 불공정 콘텐츠 증오와 불공정 콘텐츠는 인종, 민족, 국적, 성별, 성적 지향, 종교, 이민 신분, 능력, 외모 및 신체 크기를 포함하지만 국한되지 않는 요인에 따라 개인과 사회 집단의 증오 또는 불공정 표현과 관련된 언어 또는 이미지를 의미합니다. 불공평은 AI 시스템이 사회 집단을 불공평하게 대하거나 대표하여 사회적 불평등을 만들거나 기여할 때 발생합니다.
성적 콘텐츠 성적 콘텐츠에는 해부학적 장기 및 생식기와 관련된 언어 또는 이미지, 낭만적 인 관계, 에로틱 한 용어로 묘사 된 행위, 임신, 신체적 성적 행위 (폭행 또는 성폭력 포함), 매춘, 포르노 및 성적 학대가 포함됩니다.
폭력적인 콘텐츠 폭력적인 콘텐츠에는 누군가 또는 무언가를 다치게 하거나, 다치거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어 또는 이미지가 포함됩니다. 또한 무기와 총기에 대한 설명(및 제조업체 및 협회와 같은 관련 법인)도 포함됩니다.
자해 관련 콘텐츠 자해 관련 콘텐츠에는 신체를 다치게 하거나, 다치거나, 손상시키거나, 자신을 죽이기 위한 행동과 관련된 언어 또는 이미지가 포함됩니다.

지원되는 공격 전략

PyRIT의 AI Red Teaming Agent에서 지원되는 공격 전략은 다음과 같습니다.

공격 전략 설명
AnsiAttack ANSI 이스케이프 시퀀스를 활용하여 텍스트 모양과 동작을 조작합니다.
AsciiArt (아스키 아트) 창의적이거나 난독 처리 목적으로 자주 사용되는 ASCII 문자를 사용하여 시각적 아트를 생성합니다.
AsciiSmuggler ASCII 문자 내에서 데이터를 숨겨 감지하기가 더 어려워집니다.
Atbash 각 문자가 역방향으로 매핑되는 간단한 대체 암호인 Atbash 암호화를 구현합니다.
Base64 데이터 전송에 일반적으로 사용되는 Base64를 사용하여 이진 데이터를 텍스트 형식으로 인코딩합니다.
바이너리 텍스트를 0과 1의 일련의 데이터를 나타내는 이진 코드로 변환합니다.
시저 고정된 수의 위치로 문자를 이동하는 대체 암호인 시저 암호화를 적용합니다.
캐릭터스페이스 난독 처리에 자주 사용되는 문자 사이에 공백을 추가하여 텍스트를 변경합니다.
CharSwap (문자 교환) 텍스트 내의 문자를 바꿔 변형을 만들거나 원본 콘텐츠를 난독화합니다.
분음 부호(Diacritic) 문자에 발음 기호를 추가하여 모양을 바꾸고 때로는 의미도 바꿉니다.
플립 앞에서 뒤로 문자를 대칭 이동하여 미러된 효과를 만듭니다.
리트스피크 문자를 비슷한 숫자나 기호로 바꾸는 인코딩의 한 형태인 Leetspeak으로 텍스트를 변환합니다.
모스 부호 점과 대시를 사용하여 문자를 나타내는 Morse 코드로 텍스트를 인코딩합니다.
ROT13 문자를 13개 위치로 이동하는 단순 대체 암호인 ROT13 암호화를 적용합니다.
접미사추가 프롬프트에 적대적 접미사를 추가합니다.
문자열결합 연결 또는 난독 처리에 자주 사용되는 여러 문자열을 함께 조인합니다.
유니코드 혼동 가능 문자 표준 문자와 비슷한 유니코드 문자를 사용하여 시각적 혼란을 만듭니다.
유니코드 대체 표준 문자를 유니코드 대응 문자로 대체하여 종종 난독화에 사용합니다.
URL 텍스트를 URL 형식으로 인코딩
탈옥 AI 보안 장치를 바이패스하기 위해 특별히 작성된 프롬프트를 삽입하는데, 이를 UPIA(사용자 프롬프트 삽입 공격)이라고 합니다.
시제 텍스트의 시제를 변경하여 특히 과거 시제로 변환합니다.

더 알아보세요

AI Red Teaming Agent를 사용하여 안전 위험에 대한 자동화된 검사를 실행하는 방법에 대한 설명서를 시작합니다.

AI Red Teaming Agent에서 활용하는 도구에 대해 자세히 알아봅니다.

우리가 본 위험 평가에 대한 가장 효과적인 전략은 자동화된 도구를 활용하여 잠재적 위험을 노출한 다음, 전문 인적 팀이 심층적인 인사이트를 위해 분석합니다. 조직에서 AI 레드 팀을 처음 시작하는 경우, Microsoft의 AI 레드 팀이 창출한 리소스를 살펴보시기를 권장합니다. 이러한 리소스가 시작하는 데 많은 도움이 될 것입니다.