다음을 통해 공유


Azure AI Foundry 포털의 콘텐츠 안전

Azure AI 콘텐츠 보안은 애플리케이션과 서비스에서 사용자가 생성한 유해한 콘텐츠와 AI가 생성한 콘텐츠를 검색하는 AI 서비스입니다. Azure AI Content Safety에는 유해한 콘텐츠의 출력을 감지하고 방지할 수 있는 API가 포함되어 있습니다. 대화형 콘텐츠 안전은 Azure AI Foundry 포털의 페이지 이동하여 다양한 형식에서 유해한 콘텐츠를 감지하기 위한 샘플 코드를 보고 탐색하고 사용해 볼 수 있습니다.

기능

다음과 같은 시나리오에 Azure AI Content Safety를 사용할 수 있습니다.

텍스트 콘텐츠:

  • 보통 텍스트 콘텐츠: 이 기능은 적절한 응답을 보장하기 위해 다양한 수준의 심각도에 따라 텍스트 콘텐츠를 검색하고 조정하여 식별 및 분류합니다.
  • 근거 감지: 이 필터는 AI의 응답이 신뢰할 수 있는 사용자 제공 원본을 기반으로 하는지 여부를 결정하여 응답이 의도한 자료에 "접지"되도록 합니다. 근거 감지는 응답의 안정성 및 사실 정확도를 개선하는 데 유용합니다.
  • 텍스트에 대한 보호된 자료 검색: 이 기능은 알려진 노래 가사, 기사 또는 기타 콘텐츠와 같은 보호된 텍스트 자료를 식별하여 AI가 권한 없이 이 콘텐츠를 출력하지 않도록 합니다.
  • 코드에 대한 보호된 자료 검색: 모델 출력에서 공용 리포지토리의 알려진 코드와 일치하는 코드 세그먼트를 검색하여 소스 코드의 무단 복제를 방지합니다.
  • 프롬프트 보호: 이 기능은 "탈옥" 및 "간접 공격"을 해결하기 위한 통합 API를 제공합니다.
    • 탈옥 공격: 사용자가 AI를 조작하여 안전 프로토콜 또는 윤리적 지침을 우회하려고 시도합니다. 예를 들어 AI를 속여 부적절한 응답을 제공하거나 방지하도록 프로그래밍된 작업을 수행하도록 설계된 프롬프트가 있습니다.
    • 간접 공격: 도메인 간 프롬프트 삽입 공격이라고도 하는 간접 공격에는 AI가 처리할 수 있는 문서 내에 악의적인 프롬프트가 포함됩니다. 예를 들어 문서에 숨겨진 명령이 포함된 경우 AI가 실수로 지침에 따라 의도하지 않거나 안전하지 않은 출력을 생성할 수 있습니다.

이미지 콘텐츠:

  • 보통 이미지 콘텐츠: 텍스트 조정과 유사하게 이 기능은 이미지 콘텐츠를 필터링하고 평가하여 부적절하거나 유해한 시각적 개체를 검색합니다.
  • 멀티모달 콘텐츠 조정: 텍스트와 이미지의 조합을 처리하여 전체 컨텍스트와 여러 유형의 콘텐츠에 대한 잠재적 위험을 평가하도록 설계되었습니다.

사용자 고유의 범주를 사용자 지정합니다.

  • 사용자 지정 범주: 사용자가 콘텐츠를 조정하고 필터링하기 위한 특정 범주를 정의하여 고유한 요구에 맞게 안전 프로토콜을 조정할 수 있습니다.
  • 안전 시스템 메시지: "시스템 메시지"를 설정하여 AI에 원하는 동작 및 제한 사항을 지시하고, 안전 경계를 강화하고, 원치 않는 출력을 방지하는 방법을 제공합니다.

피해 범주 이해

피해 범주

카테고리 설명 API 용어
증오와 공정성 증오와 불공정한 피해는 특정 차별화된 특성에 따라 개인 또는 정체성 그룹을 대상으로 차별적 언어로 공격하거나 사용하는 모든 콘텐츠를 나타냅니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • 인종, 민족, 국적
  • 성 정체성 그룹 및 표현
  • 성적 취향
  • 종교
  • 개인 외모 및 신체 크기
  • 장애 상태
  • 괴롭힘 및 왕따
Hate
성 관련 성적은 해부학 적 장기와 성기, 낭만적 인 관계 및 성적 행위와 관련된 언어를 묘사하며, 폭행이나 자신의 의지에 대한 강제 성적 폭력 행위로 묘사 된 것을 포함하여 에로틱하거나 애정어로 묘사 된 행위를 묘사합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • 저속한 콘텐츠
  • 매춘
  • 노출 및 포르노
  • 남용
  • 아동 착취, 아동 학대, 아동 그루밍
Sexual
폭력 폭력은 누군가 또는 무언가를 다치게 하거나, 다치게 하거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어를 설명합니다. 는 무기, 총 및 관련 엔터티를 설명합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • 무기
  • 괴롭힘과 협박
  • 테러리스트와 폭력적인 극단주의
  • 스토킹
Violence
자해 자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다.

여기에는 다음이 포함되지만 이에 국한되지는 않습니다.
  • 섭식 장애
  • 괴롭힘과 협박
SelfHarm

심각도 수준

레벨 설명
안전 콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련이 있을 수 있습니다. 그러나, 용어는 일반적으로 사용 됩니다., 기자, 과학, 의료, 그리고 대부분의 관객에 대 한 적절 한 유사한 전문 컨텍스트.
낮음 편견, 판단적 또는 의견 있는 견해를 표현하는 콘텐츠에는 언어의 공격적인 사용, 스테레오티핑, 가상의 세계(예: 게임, 문학)를 탐구하는 사용 사례 및 낮은 강도의 묘사가 포함됩니다.
미디엄 특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다.
높음 노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다.

제한점

모든 기능에 대해 지원되는 지역, 속도 제한 및 입력 요구 사항에 대한 콘텐츠 안전 개요를 참조하세요. 지원되는 언어는 언어 지원 페이지를 참조하세요.

다음 단계

방법 가이드에 따라 Azure AI Foundry 포털에서 Azure AI Content Safety 사용을 시작합니다.