Azure AI 콘텐츠 보안은 애플리케이션과 서비스에서 사용자가 생성한 유해한 콘텐츠와 AI가 생성한 콘텐츠를 검색하는 AI 서비스입니다. Azure AI Content Safety에는 유해한 콘텐츠의 출력을 감지하고 방지할 수 있는 API가 포함되어 있습니다. 대화형 콘텐츠 안전은 Azure AI Foundry 포털의 페이지로 이동하여 다양한 형식에서 유해한 콘텐츠를 감지하기 위한 샘플 코드를 보고 탐색하고 사용해 볼 수 있습니다.
기능
다음과 같은 시나리오에 Azure AI Content Safety를 사용할 수 있습니다.
텍스트 콘텐츠:
- 보통 텍스트 콘텐츠: 이 기능은 적절한 응답을 보장하기 위해 다양한 수준의 심각도에 따라 텍스트 콘텐츠를 검색하고 조정하여 식별 및 분류합니다.
- 근거 감지: 이 필터는 AI의 응답이 신뢰할 수 있는 사용자 제공 원본을 기반으로 하는지 여부를 결정하여 응답이 의도한 자료에 "접지"되도록 합니다. 근거 감지는 응답의 안정성 및 사실 정확도를 개선하는 데 유용합니다.
- 텍스트에 대한 보호된 자료 검색: 이 기능은 알려진 노래 가사, 기사 또는 기타 콘텐츠와 같은 보호된 텍스트 자료를 식별하여 AI가 권한 없이 이 콘텐츠를 출력하지 않도록 합니다.
- 코드에 대한 보호된 자료 검색: 모델 출력에서 공용 리포지토리의 알려진 코드와 일치하는 코드 세그먼트를 검색하여 소스 코드의 무단 복제를 방지합니다.
- 프롬프트 보호: 이 기능은 "탈옥" 및 "간접 공격"을 해결하기 위한 통합 API를 제공합니다.
- 탈옥 공격: 사용자가 AI를 조작하여 안전 프로토콜 또는 윤리적 지침을 우회하려고 시도합니다. 예를 들어 AI를 속여 부적절한 응답을 제공하거나 방지하도록 프로그래밍된 작업을 수행하도록 설계된 프롬프트가 있습니다.
- 간접 공격: 도메인 간 프롬프트 삽입 공격이라고도 하는 간접 공격에는 AI가 처리할 수 있는 문서 내에 악의적인 프롬프트가 포함됩니다. 예를 들어 문서에 숨겨진 명령이 포함된 경우 AI가 실수로 지침에 따라 의도하지 않거나 안전하지 않은 출력을 생성할 수 있습니다.
이미지 콘텐츠:
- 보통 이미지 콘텐츠: 텍스트 조정과 유사하게 이 기능은 이미지 콘텐츠를 필터링하고 평가하여 부적절하거나 유해한 시각적 개체를 검색합니다.
- 멀티모달 콘텐츠 조정: 텍스트와 이미지의 조합을 처리하여 전체 컨텍스트와 여러 유형의 콘텐츠에 대한 잠재적 위험을 평가하도록 설계되었습니다.
사용자 고유의 범주를 사용자 지정합니다.
- 사용자 지정 범주: 사용자가 콘텐츠를 조정하고 필터링하기 위한 특정 범주를 정의하여 고유한 요구에 맞게 안전 프로토콜을 조정할 수 있습니다.
- 안전 시스템 메시지: "시스템 메시지"를 설정하여 AI에 원하는 동작 및 제한 사항을 지시하고, 안전 경계를 강화하고, 원치 않는 출력을 방지하는 방법을 제공합니다.
피해 범주 이해
피해 범주
카테고리 | 설명 | API 용어 |
---|---|---|
증오와 공정성 | 증오와 불공정한 피해는 특정 차별화된 특성에 따라 개인 또는 정체성 그룹을 대상으로 차별적 언어로 공격하거나 사용하는 모든 콘텐츠를 나타냅니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Hate |
성 관련 | 성적은 해부학 적 장기와 성기, 낭만적 인 관계 및 성적 행위와 관련된 언어를 묘사하며, 폭행이나 자신의 의지에 대한 강제 성적 폭력 행위로 묘사 된 것을 포함하여 에로틱하거나 애정어로 묘사 된 행위를 묘사합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Sexual |
폭력 | 폭력은 누군가 또는 무언가를 다치게 하거나, 다치게 하거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어를 설명합니다. 는 무기, 총 및 관련 엔터티를 설명합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
Violence |
자해 | 자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
|
SelfHarm |
심각도 수준
레벨 | 설명 |
---|---|
안전 | 콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련이 있을 수 있습니다. 그러나, 용어는 일반적으로 사용 됩니다., 기자, 과학, 의료, 그리고 대부분의 관객에 대 한 적절 한 유사한 전문 컨텍스트. |
낮음 | 편견, 판단적 또는 의견 있는 견해를 표현하는 콘텐츠에는 언어의 공격적인 사용, 스테레오티핑, 가상의 세계(예: 게임, 문학)를 탐구하는 사용 사례 및 낮은 강도의 묘사가 포함됩니다. |
미디엄 | 특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다. |
높음 | 노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다. |
제한점
모든 기능에 대해 지원되는 지역, 속도 제한 및 입력 요구 사항에 대한 콘텐츠 안전 개요를 참조하세요. 지원되는 언어는 언어 지원 페이지를 참조하세요.
다음 단계
방법 가이드에 따라 Azure AI Foundry 포털에서 Azure AI Content Safety 사용을 시작합니다.