다음을 통해 공유


Azure AI 파운드리 포털의 콘텐츠 필터링

Azure AI Foundry 에는 핵심 모델 및 이미지 생성 모델과 함께 작동하는 콘텐츠 필터링 시스템이 포함되어 있습니다.

중요합니다

콘텐츠 필터링 시스템은 Azure AI Foundry 모델의 Azure OpenAI에서 Whisper 모델에서 처리하는 프롬프트 및 완료에 적용되지 않습니다. Azure OpenAI의 Whisper 모델에 대해 자세히 알아봅니다.

작동 방식

콘텐츠 필터링 시스템은 Azure AI Content Safety를 통해 구동되며, 유해한 콘텐츠의 출력을 감지하고 방지하도록 설계된 분류 모델 세트를 통해 모델 프롬프트 입력 및 완료 출력을 모두 실행하여 작동합니다. API 구성 및 애플리케이션 디자인의 변형은 완료 및 필터링 동작에 영향을 줄 수 있습니다.

Azure OpenAI 모델 배포를 사용하면 기본 콘텐츠 필터를 사용하거나 고유한 콘텐츠 필터를 만들 수 있습니다(나중에 설명). 서버리스 API 배포를 통해 사용할 수 있는 모델에는 기본적으로 콘텐츠 필터링이 사용하도록 설정되어 있습니다. 서버리스 API 배포에 사용하도록 설정된 기본 콘텐츠 필터에 대한 자세한 내용은 Azure에서 직접 판매한 모델의 콘텐츠 안전을 참조하세요.

언어 지원

콘텐츠 필터링 모델은 영어, 독일어, 일본어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 중국어에 대해 학습되고 테스트되었습니다. 그러나 서비스는 다른 여러 언어로도 작동할 수 있지만 품질은 다를 수 있습니다. 모든 경우에 애플리케이션에 적합한지 확인하기 위해 자체 테스트를 수행해야 합니다.

콘텐츠 위험 필터(입력 및 출력 필터)

다음 특수 필터는 생성형 AI 모델의 입력과 출력 모두에 적용됩니다.

카테고리

카테고리 설명
증오 증오 범주는 인종, 민족, 국적, 성 정체성 및 표현, 성적 성향, 종교, 이민 상태, 능력 상태, 개인 외모 및 신체 크기 등을 포함하지만 이에 제한되지 않는 이러한 그룹의 특정 차별적 속성을 기반으로 개인 또는 정체성 그룹과 관련하여 경멸적이거나 차별적인 언어를 포함하는 언어 공격 또는 사용을 설명합니다.
성 관련 성적 범주는 해부학적 기관 및 생식기와 관련된 언어, 낭만적인 관계, 에로틱하거나 애정 어린 용어로 묘사된 행위, 신체적 성행위(자신의 의지에 반하는 폭행 또는 강제 성폭력 행위로 묘사되는 행위 포함), 매춘, 음란물 및 학대를 의미합니다.
폭력 폭력 범주는 누군가 또는 사물을 해치거나 손상시키거나 죽이려는 의도의 신체적 행동과 관련된 언어를 설명하거나 무기 등에 대해 설명합니다.
자해 자해 범주는 의도적으로 자신의 신체를 다치게 하거나 손상시키거나 피해를 주거나 자살하려는 의도의 신체적 행동과 관련된 언어를 설명합니다.

심각도 수준

카테고리 설명
안전 콘텐츠는 폭력, 자해, 성적 또는 증오 범주와 관련될 수 있지만 해당 용어는 대부분의 청중에게 적합한 일반적, 저널리즘, 과학, 의학 및 이와 유사한 전문적 맥락에서 사용됩니다.
낮음 편견, 비판적 또는 독선적인 견해를 표현하는 콘텐츠에는 공격적인 언어 사용, 고정관념, 허구 세계를 탐색하는 사용 사례(예: 게임, 문학) 및 낮은 강도의 묘사가 포함됩니다.
미디엄 특정 정체성 집단을 향해 공격적, 모욕적, 조롱, 협박 또는 비하하는 언어를 사용하는 콘텐츠에는 중간 강도의 유해한 지시, 환상, 미화, 피해 조장을 추구하고 실행하는 묘사가 포함됩니다.
높음 노골적이고 심각한 유해한 지시, 행동, 피해 또는 남용을 표시하는 콘텐츠 심각한 유해 행위, 극단적이거나 불법적인 형태의 피해, 과격화, 합의되지 않은 권력 교환 또는 남용을 지지, 미화 또는 조장하는 내용이 포함됩니다.

기타 입력 필터

또한 생성형 AI 시나리오에 특수 필터를 사용하도록 설정할 수 있습니다.

  • 탈옥 공격: 탈옥 공격은 생성형 AI 모델이 시스템 메시지에 설정된 규칙을 피하거나 위반하도록 학습된 동작을 보이도록 유도하기 위해 고안된 사용자 프롬프트입니다.
  • 간접 공격: 간접 프롬프트 공격 또는 교차 도메인 프롬프트 주입 공격이라고도 하는 간접 공격은 제3자가 생성형 AI 시스템이 액세스하여 처리할 수 있는 문서 내부에 악의적인 지침을 배치하는 잠재적 취약성입니다.

기타 출력 필터

다음과 같은 특수 출력 필터를 사용하도록 설정할 수도 있습니다.

  • 보호 자료 텍스트: 보호 자료 텍스트는 대규모 언어 모델에서 출력할 수 있다고 알려진 텍스트 콘텐츠(예: 노래 가사, 문서, 조리법, 선택한 웹 콘텐츠)를 설명합니다.
  • 보호 자료 코드: 보호 자료 코드는 퍼블릭 리포지토리의 소스 코드 집합과 일치하는 소스 코드를 설명하며, 원본 리포지토리를 적절하게 인용하지 않고도 대규모 언어 모델로 출력할 수 있습니다.
  • 근거 있음: 근거 감지 필터는 LLM(대규모 언어 모델)의 텍스트 응답이 사용자가 제공한 원본 자료에 근거를 두고 있는지를 검색합니다.

Azure AI 파운드리에서 콘텐츠 필터 만들기

Azure AI Foundry의 모든 모델 배포의 경우 기본 콘텐츠 필터를 직접 사용할 수 있지만 더 많은 제어를 원할 수 있습니다. 예를 들어, 필터를 더 엄격하거나 더 관대하게 만들거나 신속한 보호 및 보호자료감지와 같은 고급 기능을 사용하도록 설정할 수 있습니다.

중요합니다

GPT-image-1 모델은 콘텐츠 필터링 구성을 지원하지 않습니다. 기본 콘텐츠 필터만 사용됩니다.

팁 (조언)

Azure AI Foundry 프로젝트의 콘텐츠 필터에 대한 지침은 Azure AI Foundry 콘텐츠 필터링에서 자세히 확인할 수 있습니다.

콘텐츠 필터를 만들려면 다음 단계를 수행합니다.

팁 (조언)

Azure AI Foundry 포털에서 왼쪽 창을 사용자 지정할 수 있으므로 이러한 단계에 표시된 것과 다른 항목이 표시될 수 있습니다. 원하는 항목이 표시되지 않으면 왼쪽 창 아래쪽에 있는 ... 더 보기를 선택하십시오.

  1. Azure AI Foundry로 이동하여 프로젝트로 이동합니다. 그런 다음 왼쪽 메뉴에서 Guardrails + 컨트롤 페이지를 선택하고 콘텐츠 필터 탭을 선택합니다.

    새 콘텐츠 필터를 만드는 단추의 스크린샷

  2. + 콘텐츠 필터 만들기를 선택합니다.

  3. 기본 정보 페이지에서 콘텐츠 필터링 구성의 이름을 입력합니다. 콘텐츠 필터와 연결할 연결을 선택합니다. 그런 후 다음을 선택합니다.

    콘텐츠 필터를 만들 때 필터 이름과 같은 기본 정보를 선택하거나 입력하는 옵션의 스크린샷.

    이제 입력 필터(사용자 프롬프트용)와 출력 필터(모델 완료용)를 구성할 수 있습니다.

  4. 입력 필터 페이지에서 입력 프롬프트에 대한 필터를 설정할 수 있습니다. 처음 네 가지 콘텐츠 범주에는 낮음, 보통, 높음의 세 가지 심각도 수준이 설정 가능합니다. 기본값과 다른 필터링이 애플리케이션이나 사용 시나리오에 필요하다고 판단되면 슬라이더를 사용하여 심각도 임계값을 설정할 수 있습니다. 프롬프트 보호 및 보호자료감지와 같은 일부 필터를 사용하면 모델에 콘텐츠를 주석으로 처리하거나 차단할지 여부를 결정할 수 있습니다. 주석을 선택하면 해당 모델 실행되고 API 응답을 통해 주석을 반환하지만 콘텐츠를 필터링하지는 않습니다. 주석을 달 뿐만 아니라, 콘텐츠를 차단할 수도 있습니다.

    수정된 콘텐츠 필터에 대한 사용 사례가 승인된 경우 콘텐츠 필터링 구성을 완벽하게 제어할 수 있으며 필터링을 부분적으로 또는 완전히 끄거나 콘텐츠 해악 범주(폭력, 증오, 성적, 자해)에 대해서만 주석을 달도록 선택할 수 있습니다.

    콘텐츠는 범주별로 주석을 추가하고 설정한 임계값에 따라 차단됩니다. 폭력, 혐오, 성적인 내용, 자해 범주에 속하는 경우 심각도가 높음, 중간, 낮음인 콘텐츠를 차단할 수 있도록 슬라이더를 조정합니다.

    입력 필터 화면의 스크린샷.

  5. 출력 필터 페이지에서 모델에서 생성된 모든 출력 콘텐츠에 적용되는 출력 필터를 구성할 수 있습니다. 이전과 같이 개별 필터를 구성합니다. 이 페이지에서는 모델에서 생성되는 콘텐츠를 거의 실시간으로 필터링하여 대기 시간을 줄일 수 있는 스트리밍 모드 옵션도 제공합니다. 완료되면 다음을 선택합니다.

    콘텐츠는 각 범주에 의해 주석이 추가되고 임계값에 따라 차단됩니다. 폭력적인 콘텐츠, 혐오 콘텐츠, 성적인 콘텐츠, 자해 콘텐츠 범주의 경우 심각도가 같거나 높은 유해한 콘텐츠를 차단하도록 임계값을 조정합니다.

    출력 필터 화면의 스크린샷.

  6. 필요에 따라 배포 페이지에서 콘텐츠 필터를 배포와 연결할 수 있습니다. 선택한 배포에 이미 필터가 연결되어 있는 경우 해당 필터를 바꿀지 확인해야 합니다. 나중에 콘텐츠 필터를 배포와 연결할 수도 있습니다. 선택하고생성합니다.

    콘텐츠 필터를 만들 때 배포를 선택하는 옵션의 스크린샷

    콘텐츠 필터링 구성은 Azure AI Foundry 포털의 허브 수준에서 만들어집니다. Azure AI Foundry Models 설명서의 Azure OpenAI 구성 가능성에 대해 자세히 알아봅니다.

  7. 검토 페이지에서 설정을 검토한 다음 필터 만들기를 선택합니다.

차단 목록을 필터로 사용

차단 목록을 입력 또는 출력 필터로 적용하거나 둘 다로 적용할 수 있습니다. 입력 필터 및/또는 출력 필터 페이지에서 차단 목록 옵션을 사용하도록 설정합니다. 드롭다운에서 하나 이상의 차단 목록을 선택하거나 기본 제공된 욕설 차단 목록을 사용합니다. 여러 차단 목록을 동일한 필터로 결합할 수 있습니다.

콘텐츠 필터 적용

필터 만들기 프로세스에서는 원하는 배포에 필터를 적용할 수 있는 옵션을 제공합니다. 언제든지 배포에서 콘텐츠 필터를 변경하거나 제거할 수도 있습니다.

배포에 콘텐츠 필터를 적용하려면 다음 단계를 수행합니다.

  1. Azure AI Foundry로 이동하여 프로젝트를 선택합니다.

  2. 왼쪽 창에서 모델 + 엔드포인트를 선택하고 배포 중 하나를 선택한 다음 편집을 선택합니다.

    배포를 편집하는 단추의 스크린샷

  3. 배포 업데이트 창에서 배포에 적용할 콘텐츠 필터를 선택합니다. 그런 다음 저장을 선택하고 닫습니다.

    콘텐츠 필터 적용 스크린샷

    필요한 경우 콘텐츠 필터 구성을 편집하고 삭제할 수도 있습니다. 콘텐츠 필터링 구성을 삭제하기 전에 배포 탭의 배포에서 할당을 취소하고 대체해야 합니다.

이제 플레이그라운드로 이동하여 콘텐츠 필터가 예상대로 작동하는지 테스트할 수 있습니다.

팁 (조언)

REST API를 사용하여 콘텐츠 필터를 만들고 업데이트할 수도 있습니다. 자세한 내용은 API 참조를 참조하세요. 콘텐츠 필터는 리소스 수준에서 구성할 수 있습니다. 새 구성이 만들어지면 하나 이상의 배포와 연결할 수 있습니다. 모델 배포에 대한 자세한 내용은 리소스 배포 가이드를 참조하세요.

구성 가능성(미리보기)

Azure AI Foundry 모델의 Azure OpenAI에는 모든 모델에 적용되는 기본 안전 설정(위스퍼와 같은 오디오 API 모델 제외)이 포함됩니다. 이러한 구성은 기본적으로 콘텐츠 필터링 모델, 차단 목록, 프롬프트 변환, 콘텐츠 자격 증명 등을 포함한 책임 있는 환경을 제공합니다. 자세한 내용은 여기에서 확인할 수 있습니다.

모든 고객은 콘텐츠 필터를 구성하고 사용 사례 요구 사항에 맞게 조정된 사용자 지정 콘텐츠 정책을 만들 수도 있습니다. 구성 기능에서는 고객이 프롬프트와 완성에 대해 별도로 설정을 조정하여 아래 표에 설명된 대로 다양한 심각도 수준에서 각 콘텐츠 범주에 대한 콘텐츠를 필터링할 수 있습니다. '안전' 심각도 수준에서 검색된 콘텐츠는 주석 출력에 레이블이 지정되지만 필터링의 대상이 아니며 구성할 수 없습니다.

심각도 필터링됨 프롬프트에 대해 구성 가능 완료를 위해 구성 가능 설명
낮음, 보통, 높음 가장 엄격한 필터링 구성. 심각도 수준 낮음, 중간, 높음에서 탐지된 콘텐츠는 필터링됩니다.
중간, 높음 심각도 수준이 낮음에서 검색된 콘텐츠는 필터링되지 않으며, 중간 및 높음의 콘텐츠는 필터링됩니다.
높음 심각도 수준 낮음 및 보통에서 탐지된 콘텐츠는 필터링되지 않습니다. 심각도 수준이 높은 콘텐츠만 필터링됩니다.
필터 없음 승인된 경우1 승인된 경우1 탐지된 심각도 수준에 관계없이 콘텐츠가 필터링되지 않습니다. 승인1이 필요합니다.
주석만 달기 승인된 경우1 승인된 경우1 필터 기능을 사용하지 않도록 설정하므로 콘텐츠가 차단되지 않지만 주석은 API 응답을 통해 반환됩니다. 승인1이 필요합니다.

1 Azure OpenAI 모델의 경우 수정된 콘텐츠 필터링이 승인된 고객만 전체 콘텐츠 필터링 제어 권한을 가지며 콘텐츠 필터를 완전히 해제할 수 있습니다. Azure OpenAI 제한된 액세스 검토: 수정된 콘텐츠 필터 양식을 통해 수정된 콘텐츠 필터를 신청합니다. Azure Government 고객의 경우 Azure Government - Azure OpenAI에 대한 수정된 콘텐츠 필터링 요청 형식을 통해 수정된 콘텐츠 필터를 신청합니다.

입력(프롬프트) 및 출력(완료)에 대한 구성 가능한 콘텐츠 필터는 모든 Azure OpenAI 모델에 사용할 수 있습니다.

콘텐츠 필터링 구성은 Azure AI Foundry 포털의 리소스 내에서 만들어지고 배포와 연결할 수 있습니다. 여기서 콘텐츠 필터를 구성하는 방법에 대해 자세히 알아봅니다.

고객은 Azure OpenAI를 통합하는 애플리케이션이 사용 규정을 준수하는지 확인할 책임이 있습니다.