Azure에서 직접 판매하는 모델에 대한 가드레일 및 컨트롤

2025-06-25

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

이 문서에서는 서버리스 API 배포를 사용하여 배포된 모델 카탈로그의 모델에 대한 콘텐츠 안전 기능에 대해 알아봅니다.

콘텐츠 필터 기본값

Azure AI는 Azure AI Content Safety 콘텐츠 필터의 기본 구성을 사용하여 서버리스 API 배포를 통해 배포된 모델에 대한 증오와 공정성, 자해, 성적, 폭력 등 4가지 범주에 걸쳐 유해한 콘텐츠를 검색합니다. 콘텐츠 필터링에 대한 자세한 내용은 피해 범주 이해를 참조하세요.

텍스트 모델의 기본 콘텐츠 필터링 구성은 중간 심각도 임계값에서 필터링하도록 설정되어 있으며, 이 수준 이상에서 검색된 모든 콘텐츠를 필터링합니다. 이미지 모델의 경우 기본 콘텐츠 필터링 구성은 낮은 구성 임계값으로 설정되어 있으며, 이 수준 이상에서 필터링이 수행됩니다. Azure AI Foundry 모델을 사용하여 배포된 모델의 경우 Azure AI Foundry 포털의 Guardrails 및 컨트롤 페이지 내에서 콘텐츠 필터 탭을 선택하여 구성 가능한 필터를 만들 수 있습니다.

팁 (조언)

서버리스 API 배포를 통해 배포되는 특정 모델 유형에는 콘텐츠 필터링을 사용할 수 없습니다. 이러한 모델 유형에는 포함 모델 및 시계열 모델이 포함됩니다.

콘텐츠 필터링은 서비스가 콘텐츠를 생성하라는 메시지를 처리할 때 동기적으로 발생합니다. 이러한 사용에 대해서는 Azure AI 콘텐츠 보안 가격 책정에 따라 별도로 요금이 청구될 수 있습니다. 개별 서버리스 엔드포인트에 대해 콘텐츠 필터링을 사용하지 않도록 설정할 수 있습니다.

언어 모델을 처음 배포하는 경우
나중에 배포 세부 정보 페이지에서 콘텐츠 필터링 토글을 선택하여

모델 유추 API 이외의 API를 사용하여 서버리스 API 배포를 통해 배포된 모델을 사용한다고 가정합니다. 이러한 상황에서는 Azure AI 콘텐츠 보안을 사용하여 별도로 구현하지 않는 한 콘텐츠 필터링(미리 보기)이 활성화되지 않습니다. Azure AI 콘텐츠 보안을 시작하려면 빠른 시작: 텍스트 콘텐츠 분석을 참조하세요. 서버리스 API 배포를 통해 배포된 모델을 사용할 때 콘텐츠 필터링(미리 보기)을 사용하지 않는 경우 사용자를 유해한 콘텐츠에 노출시킬 위험이 더 높습니다.

피해 범주 이해

피해 범주

카테고리	설명	API 용어
증오와 공정성	증오와 불공정한 피해는 특정 차별화된 특성에 따라 개인 또는 정체성 그룹을 대상으로 차별적 언어로 공격하거나 사용하는 모든 콘텐츠를 나타냅니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다. 인종, 민족, 국적 성 정체성 그룹 및 표현 성적 취향 종교 개인 외모 및 신체 크기 장애 상태 괴롭힘 및 왕따	`Hate`
성 관련	성적은 해부학 적 장기와 성기, 낭만적 인 관계 및 성적 행위와 관련된 언어를 묘사하며, 폭행이나 자신의 의지에 대한 강제 성적 폭력 행위로 묘사 된 것을 포함하여 에로틱하거나 애정어로 묘사 된 행위를 묘사합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다. 저속한 콘텐츠 매춘 노출 및 포르노 남용 아동 착취, 아동 학대, 아동 그루밍	`Sexual`
폭력	폭력은 누군가 또는 무언가를 다치게 하거나, 다치게 하거나, 손상시키거나, 죽이려는 신체적 행동과 관련된 언어를 설명합니다. 는 무기, 총 및 관련 엔터티를 설명합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다. 무기 괴롭힘과 협박 테러리스트와 폭력적인 극단주의 스토킹	`Violence`
자해	자해란 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 자살하려는 의도를 지닌 신체적 행동과 관련된 언어를 말합니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다. 섭식 장애 괴롭힘과 협박	`SelfHarm`

심각도 수준

레벨	설명
안전	콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련이 있을 수 있습니다. 그러나 이 용어는 일반적으로 업무 일지리즘, 과학, 의학 및 이와 유사한 전문적 컨텍스트에서 사용되므로 대부분의 독자에게 적절합니다.
낮음	편견, 비판적 또는 독선적인 견해를 표현하는 콘텐츠에는 공격적인 언어 사용, 고정관념, 허구 세계를 탐색하는 사용 사례(예: 게임, 문학) 및 낮은 강도의 묘사가 포함됩니다.
미디엄	특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다.
높음	노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다.

요금 계산 방법

가격 책정 세부 정보는 Azure AI 콘텐츠 보안 가격 책정에서 확인할 수 있습니다. Azure AI 콘텐츠 보안이 프롬프트 또는 완료의 유효성을 검사할 때 요금이 부과됩니다. Azure AI 콘텐츠 보안이 프롬프트 또는 완료를 차단하는 경우 콘텐츠 평가와 유추 호출에 대한 요금이 모두 청구됩니다.