Azure AI Language PII(개인 식별 정보) 검색은 Azure AI Language에서 제공하는 기능입니다. PII 검색 서비스는 기계 학습 및 AI 알고리즘을 활용하여 고급 자연어 이해를 갖춘 지능형 애플리케이션을 개발하는 데 도움이 되는 클라우드 기반 API입니다. Azure AI Language PII 검색은 NER(명명된 엔터티 인식)를 사용하여 입력 데이터에서 중요한 정보를 식별하고 수정 합니다. 서비스는 중요한 개인 데이터를 미리 정의된 범주로 분류합니다. 이러한 범주에는 전화 번호, 전자 메일 주소 및 ID 문서가 포함됩니다. 이 분류는 이러한 정보를 효율적으로 검색하고 제거하는 데 도움이 됩니다.
팁
Azure AI Foundry 포털에서 PII 검색을 시도합니다. 현재 기존 Language Studio 리소스를 활용하거나 새 Azure AI Foundry 리소스를 만들 수 있습니다.
새로운 기능
텍스트 PII 및 대화 PII 감지 미리보기 API(버전 2024-11-15-preview
)는 이제 감지된 민감한 엔티티를 단순한 삭제 문자 이상의 레이블로 마스킹하는 옵션을 지원합니다. 고객은 이름 및 전화 번호와 같은 개인 데이터 콘텐츠가 "John Doe received a call from 424-878-9192"
편집 문자로 마스킹되는지, "******** received a call from ************"
즉 엔터티 레이블 "[PERSON_1] received a call from [PHONENUMBER_1]"
로 마스킹되는지 지정할 수 있습니다. 출력에 대한 편집 정책 스타일을 지정하는 방법에 대한 자세한 내용은 방법 가이드에서 확인할 수 있습니다.
대화형 PII 검색 모델(버전 2024-11-01-preview
및 GA
)은 향상된 AI 품질과 정확도를 제공하도록 업데이트됩니다. 숫자 식별자 엔터티 형식에는 이제 드라이버 라이선스 및 메디케어 수혜자 식별자도 포함됩니다.
2024년 6월부터 대화형 PII 서비스에 대한 일반 공급 지원이 제공됩니다(영어로만 제공). 고객은 이제 대화 스타일로 작성된 글(즉, um
, ah
, 여러 화자가 포함된 텍스트 및 보다 명확성을 위해 단어를 철자화한 텍스트)을 AI 품질, Azure SLA
지원 및 운영 환경 지원, 기업 수준의 보안을 고려하여 보다 확신을 가지고 편집할 수 있습니다.
역량
현재 PII 지원은 다음 기능에 사용할 수 있습니다.
- 미리 정의된 여러 범주에서 구조화되지 않은 텍스트에서 PII(중요한 정보) 및 PHI(상태 정보)를 처리하기 위한 일반 텍스트 PII 검색입니다.
- 대화 PII 감지는 음성 전사를 처리하고, 모임 및 통화 녹취록에서 비공식적인 대화형 톤을 다루도록 설계된 특수 모델입니다.
- 구조화된 문서 파일을 처리하기 위한 네이티브 문서 PII 검색
Azure AI Language는 NLP(자연어 처리) 기능을 적용하여 텍스트 기반 데이터에서 PII(개인 정보) 범주를 검색하는 클라우드 기반 서비스입니다. 이 설명서에는 다음 형식이 포함되어 있습니다.
- 빠른 시작은 서비스에 대한 요청을 수행하는 과정을 안내하는 시작 지침입니다.
- 방법 가이드에는 보다 구체적이거나 사용자 지정된 방식으로 서비스를 사용하기 위한 지침이 포함되어 있습니다.
일반적인 워크플로
이 기능을 사용하려면 분석을 위해 데이터를 제출하고 애플리케이션에서 API 출력을 처리합니다. 분석은 데이터에 사용되는 모델에 사용자 지정 추가 없이 있는 그대로 수행됩니다.
Azure AI 언어에서 제공하는 기능에 대한 액세스 권한을 부여하는 Azure AI 언어 리소스를 만듭니다. API 요청을 인증하는 데 사용하는 암호(키라고 함) 및 엔드포인트 URL을 생성합니다.
C#, Java, JavaScript 및 Python에 대한 REST API 또는 클라이언트 라이브러리를 사용하여 요청을 만듭니다. 일괄 처리 요청을 통해 비동기 호출을 보내 여러 기능에 대한 API 요청을 단일 호출로 결합할 수도 있습니다.
텍스트 데이터가 포함된 요청을 보냅니다. 키와 엔드포인트가 인증에 사용됩니다.
응답을 스트리밍하거나 로컬로 저장합니다.
텍스트 PII의 주요 기능
Azure AI Language는 텍스트 내에서 정보를 식별하고 분류하는 명명된 엔터티 인식을 제공합니다. 이 기능은 이름, 조직, 주소, 전화 번호, 재무 계정 번호 또는 코드, 정부 식별 번호를 포함한 PII 범주를 검색합니다. 이 PII의 하위 집합은 PHI(보호된 상태 정보)입니다. 요청에서 domain=phi를 지정하면 PHI 엔터티만 반환됩니다.
PII 감지 시작
PII 감지를 사용하려면 분석을 위해 텍스트를 제출하고 애플리케이션에서 API 출력을 처리합니다. 분석은 데이터에 사용되는 모델에 대한 사용자 지정 없이 있는 그대로 수행됩니다. PII 감지를 사용하는 방법에는 다음 두 가지가 있습니다.
개발 옵션 | 설명 |
---|---|
Azure AI Foundry (에이아이 파운드리) | Azure AI 파운드리는 등록할 때 사용자 고유의 데이터로 텍스트 예제를 사용하여 개인 식별 정보 검색을 사용할 수 있는 웹 기반 플랫폼입니다. 자세한 내용은 Azure AI 파운드리 웹 사이트 또는 Azure AI 파운드리 설명서를 참조하세요. |
REST API 또는 클라이언트 라이브러리(Azure SDK) | REST API 또는 다양한 언어로 제공되는 클라이언트 라이브러리를 사용하여 PII 감지를 애플리케이션에 통합합니다. 자세한 내용은 PII 감지 빠른 시작을 참조하세요. |
참조 설명서 및 코드 샘플
애플리케이션에서 이 기능을 사용할 때 Azure AI 언어에 대한 다음 참조 설명서와 샘플을 참조하세요.
개발 옵션/언어 | 참조 설명서 | 샘플 |
---|---|---|
REST API (REST 애플리케이션 프로그래밍 인터페이스) | REST API 설명서 | |
C# (프로그래밍 언어) | C# 설명서 | C# 샘플 |
자바 | Java 설명서 | Java 샘플 |
JavaScript | JavaScript 설명서 | JavaScript 샘플 |
파이썬 | Python 설명서 | Python 샘플 |
입력 요구 사항 및 서비스 제한
- 텍스트 PII는 분석을 위해 텍스트를 사용합니다. 자세한 내용은 방법 가이드의 데이터 및 서비스 제한을 참조하세요.
- PII는 다양한 서면 언어로 작동합니다. 자세한 내용은 언어 지원을 참조하세요. 원본 텍스트가 기록되는 지원되는 언어를 지정할 수 있습니다. 언어를 지정하지 않으면 추출이 기본적으로 영어로 설정됩니다. API는 다양한 다국어 및 그림 이모티콘 인코딩을 지원하기 위해 응답에 오프셋을 반환할 수 있습니다.
Responsible AI
AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사용자, 영향을 받는 사용자 및 배포 환경도 포함됩니다. 시스템에서 책임감 있는 AI 사용 및 배포에 대해 알아보려면 PII에 대한 투명성 참고사항을 읽어보세요. 자세한 내용은 다음 문서를 참조하세요.
예제 시나리오
- 민감도 레이블 적용 - 예를 들어 PII 서비스의 결과를 기반으로 PII 엔터티가 감지되지 않는 문서에 공개 민감도 레이블이 적용될 수 있습니다. 미국 주소와 전화 번호가 인식되는 문서의 경우 기밀 레이블이 적용될 수 있습니다. 은행 라우팅 번호가 인식되는 문서에는 기밀 레이블이 사용될 수 있습니다.
- 광범위하게 유통되는 문서에서 일부 개인 정보 범주 수정 - 예를 들어 고객 연락처 레코드에 최전방 지원 담당자가 액세스 가능한 경우 회사는 고객의 개인 정보를 보호하기 위해 고객 기록 버전에서 이름 외에 고객의 개인 정보를 수정할 수 있습니다.
- 무의식적 편견을 줄이기 위해 개인 정보 수정 - 예를 들어 회사의 이력서 검토 과정에서 이름, 주소 및 전화 번호를 차단하여 무의식적인 성별 또는 기타 편견을 줄일 수 있습니다.
- 불공평을 줄이기 위해 기계 학습에 원본 데이터의 개인 정보 대체 – 예를 들어 기계 학습 모델을 학습시킬 때 성별을 나타낼 수 있는 이름을 제거하려는 경우, 서비스를 사용하여 식별하고 모델 학습을 위한 일반 자리 표시자로 바꿀 수 있습니다.
- 콜센터 기록에서 개인 정보 제거 – 예를 들어 콜 센터 시나리오에서 상담원과 고객 간에 발생하는 이름 또는 기타 PII 데이터를 제거하려는 경우입니다. 이 서비스를 사용하여 해당 데이터를 식별 및 제거할 수 있습니다.
- 데이터 과학을 위한 데이터 정리 - PII는 데이터 과학자와 엔지니어가 이러한 데이터를 사용하여 기계 학습 모델을 학습할 수 있도록 데이터를 준비하는 데 사용할 수 있습니다. 고객 데이터가 노출되지 않도록 데이터를 수정합니다.
다음 단계
엔터티 링크 설정을 사용하여 시작하는 방법에는 두 가지가 있습니다.
- Azure AI 파운드리는 코드를 작성할 필요 없이 여러 언어 서비스 기능을 사용할 수 있는 웹 기반 플랫폼입니다.
- REST API 및 클라이언트 라이브러리 SDK를 사용하여 서비스에 요청하는 방법에 대한 지침은 빠른 시작 문서를 참조하세요.