문서 인텔리전스의 투명도 메모 및 사용 사례

중요합니다

영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전 참조하세요.

투명성 고지란?

AI 시스템에는 기술뿐만 아니라 기술을 사용하는 사람, 영향을 받는 사람, 배포되는 환경이 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다.

Microsoft는 AI 기술의 작동 방식을 이해하는 데 도움이 되는 투명성 정보를 제공합니다. 여기에는 시스템 성능 및 동작, 기술, 사람, 환경을 포함하는 전체 시스템에 대한 사고의 중요성에 영향을 줄 수 있는 시스템 소유자가 할 수 있는 선택이 포함됩니다. 자신의 시스템을 개발하거나 배포할 때 투명성 메모를 사용하거나, 시스템을 사용하거나 시스템의 영향을 받는 사람들과 공유할 수 있습니다.

투명성 메모는 Microsoft에서 AI 원칙을 실천하기 위한 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft의 AI 원칙을 참조하세요.

문서 인텔리전스의 기본 사항

소개

Document Intelligence는 API 집합을 통해 액세스되며 개발자는 문서에서 텍스트, 구조 및 필드를 쉽게 추출할 수 있습니다. 다음과 같은 기능으로 구성됩니다.

텍스트 추출을 위해 읽으세요.
구조적 인사이트와 일반적인 키 값, 이름, 장소, 사물과 같은 엔터티를 위한 레이아웃 및 일반 문서입니다.
청구서, 영수증, 명함, W2 및 ID와 같은 특정 문서 유형에 대한 미리 빌드된 모델입니다.
문서 형식과 관련된 모델을 빌드하기 위한 사용자 지정 모델입니다.

Document Intelligence는 지원 언어 문서에 나열된 대로 각 기능에 대해 하나 이상의 언어 및 로캘을 지원합니다.

주요 용어

기간	Definition
Read	이 기능은 검색된 언어와 같은 다른 정보와 함께 이미지 및 문서에서 텍스트 줄, 단어 및 해당 위치를 추출합니다.
Layout	이 기능은 텍스트, 선택 표시 및 표 구조(텍스트와 연결된 행 및 열 번호)를 추출합니다. 도큐먼트 인텔리전스 레이아웃 참조하세요.
일반 문서	문서를 분석하여 키에 값을 연결하고, 검색된 테이블에 항목을 연결합니다. 자세한 내용은 문서 인텔리전스 일반 문서를 참조하세요.
미리 빌드된 모델	미리 빌드된 모델은 고유한 양식 형식에 대한 문서별 모델입니다. 이러한 모델은 사용하기 전에 사용자 지정 학습이 필요하지 않습니다. 예를 들어 미리 빌드된 청구서 모델은 청구서에서 키 필드를 추출합니다. 자세한 내용은 Document Intelligence 미리 빌드된 청구서 모델 참조하세요.
사용자 지정 모델	문서 인텔리전스를 사용하면 양식 및 문서에 맞게 조정된 사용자 지정 모델을 학습시킬 수 있습니다. 이 모델은 텍스트, 키-값 쌍, 선택 표시 및 테이블 데이터를 추출합니다. 사용자 지정 모델은 사용자 검토를 적용하고, 레이블을 업데이트하고, API를 사용하여 모델을 다시 학습하여 사용자 의견으로 개선할 수 있습니다.
신뢰도 값	모든 분석 결과 가져오기 작업은 추출된 모든 단어와 키-값 매핑에 대해 0에서 1 사이의 범위에서 신뢰도 값을 반환합니다. 이 값은 100에서 단어를 올바르게 추출하거나 키-값 쌍을 올바르게 매핑하는 서비스의 예상 횟수를 나타냅니다. 예를 들어, 82%의 확률로 올바르게 추출된 것으로 예상되는 단어의 신뢰도 값은 0.82가 됩니다.
추가 기능	Document Intelligence는 문서의 더 많은 요소를 포함하도록 결과를 확장할 수 있는 추가 기능 집합을 제공합니다. 일부 추가 기능에서는 추가 비용이 발생하며 문서 추출 시나리오에 따라 사용하도록 설정하고 사용하지 않도록 설정할 수 있습니다. 현재 고해상도, 수식, styleFont, 바코드, 언어, keyValuePairs 및 queryFields 추출 기능을 제공합니다. 자세한 내용은 Document Intelligence 추가 기능 참조하세요.

역량

시스템 동작

foundry 도구의 Azure 문서 인텔리전스는 OCR(광학 문자 인식), Text Analytics 및 Foundry 도구의 사용자 지정 텍스트를 사용하여 빌드된 클라우드 기반 Foundry 도구입니다. 사용자 지정 모델은 현재 Azure OpenAI service GPT-3.5 모델을 사용합니다. OCR은 서체 및 필기 텍스트 문서를 추출하는 데 사용됩니다. 문서 인텔리전스는 OCR을 사용하여 AI에서 지원하는 양식 및 문서에서 정보를 검색하고 추출하여 텍스트 추출에 더 많은 구조와 정보를 제공합니다.

사용 사례

올바른 사용법

Document Intelligence에는 다양한 산업의 고객이 문서에서 데이터를 추출할 수 있는 기능이 포함되어 있습니다. 다음 시나리오는 적절한 사용 사례의 예입니다.

외상 매입금: 기업은 사전 제작된 송장 모델과 맞춤 양식을 사용하여 사람 참여 과정에서 송장 데이터 입력 속도를 높임으로써 외상매출금 담당자의 효율성을 향상시킬 수 있습니다. 미리 빌드된 청구서 모델은 송장 합계 및 배송 주소와 같은 주요 필드를 추출할 수 있습니다.
보험 양식 처리: 고객은 사용자 지정 양식을 사용하여 보험 양식에서 키-값 쌍을 추출한 다음 비즈니스 흐름에 데이터를 공급하여 프로세스의 정확성과 효율성을 향상시켜 모델을 학습시킬 수 있습니다. 고유한 양식의 경우 고객은 사용자 지정 양식을 사용하여 키 값을 추출하는 고유한 모델을 빌드할 수 있습니다. 그런 다음 이러한 추출된 값은 비즈니스 내의 다양한 워크플로에 대해 실행 가능한 데이터가 됩니다.
은행 양식 처리: 은행은 미리 빌드된 ID 모델 및 사용자 지정 양식을 사용하여 "고객 파악" 설명서의 데이터 입력 속도를 향상하거나 모기지 패킷에 대한 데이터 입력 속도를 높일 수 있습니다. 은행에서 고객이 프로세스의 일부로 개인 ID를 제출하도록 요구하는 경우 미리 빌드된 ID 모델은 이름 및 문서 번호와 같은 키 값을 추출하여 전체 데이터 입력 시간을 단축할 수 있습니다.
RPA(로봇 프로세스 자동화): 고객은 사용자 지정 추출 모델을 사용하여 다양한 유형의 문서에서 필요한 특정 데이터를 추출할 수 있습니다. 그런 다음 추출된 키-값 쌍을 RPA를 통해 데이터베이스 또는 CRM 시스템과 같은 다양한 시스템에 입력하여 수동 데이터 입력을 대체할 수 있습니다. 또한 고객은 사용자 지정 분류 모델을 사용하여 콘텐츠를 기반으로 문서를 분류하고 적절한 위치에 제출할 수 있습니다. 따라서 사용자 지정 모델에서 추출된 데이터 집합은 대량의 문서를 정기적으로 처리하는 비즈니스용 RPA 시나리오를 문서화하는 필수 첫 번째 단계일 수 있습니다.

다른 사용 사례를 선택할 때의 고려 사항

사용 사례를 선택할 때 다음 요소를 고려합니다.

중요한 데이터 또는 시나리오가 관련될 때 사용자 검토를 적용하는 것이 좋습니다: 중요한 시나리오(예: 다른 사람의 결과적 권리에 영향을 미치는) 또는 중요한 데이터를 처리할 때 수동 검토를 위해 loop 사람을 포함하는 것이 중요합니다. Machine learning 모델은 완벽하지 않습니다. 특정 워크플로에 대한 수동 검토 단계를 포함해야 하는 경우를 신중하게 고려합니다. 예를 들어 공항과 같은 입국 포트의 ID 확인에는 사람의 감독이 포함되어야 합니다.
혜택의 수여 또는 거부를 위해 사용할 때 신중하게 고려합니다. Doc 인텔리전스는 수상 또는 혜택 거부에 대해 설계되거나 평가되지 않았으며 이러한 시나리오에서 사용하면 의도하지 않은 결과가 발생할 수 있습니다. 이러한 시나리오는 다음과 같습니다.
- 의료 보험: 여기에는 보험 보상 또는 거부에 대한 결정의 기초로 의료 기록 및 의료 처방전을 사용하는 것이 포함됩니다.
- 대출 승인: 여기에는 신규 대출 또는 기존 대출 재융자 신청이 포함됩니다.
지원되는 문서 유형 및 로캘을 신중하게 고려합니다. 미리 빌드된 모델에는 미리 정의된 지원되는 필드 목록이 있으며 특정 로캘용으로 빌드됩니다. 공식적으로 지원되는 로캘 및 문서 유형을 주의 깊게 확인하여 최상의 결과를 확인해야 합니다. 예를 들어 Document Intelligence 사전 준비된 영수증 지역 설정을 참조하세요.
법률 및 규제 고려 사항: 조직은 모든 산업 또는 시나리오에서 사용하기에 적합하지 않을 수 있는 Foundry 도구 및 솔루션을 사용할 때 잠재적인 특정 법률 및 규제 의무를 평가해야 합니다. 또한 Foundry 도구 또는 솔루션은 해당 서비스 약관 및 관련 행동 강령에서 금지된 방식으로 설계되지 않았으며 사용할 수 없습니다.

제한점

기술 제한 사항, 운영 요소, 범위

미리 빌드된 모델 제한 사항

문서 인텔리전스 미리 빌드된 모델은 특정 문서 형식을 처리하는 데 사용되며 수천 가지 양식에 미리 학습됩니다. 이 기능을 사용하면 개발자가 학습 데이터나 레이블 지정 없이 몇 분 내에 시작하고 결과를 얻을 수 있습니다. 미리 빌드된 모델의 경우 최적의 결과를 위해 미리 빌드된 각 모델에 대한 입력 요구 사항, 지원되는 문서 형식 및 로캘 목록을 적어 두는 것이 중요합니다. 예를 들어 미리 빌드된 청구서 입력 요구 사항을 참조하세요.

사용자 지정 모델 제한 사항

Document Intelligence 사용자 지정 모델은 모델이 특정 양식 및 문서로 학습할 수 있도록 고유한 학습 데이터를 사용하여 학습됩니다. 이 기능은 제공하는 학습 데이터 집합의 유형뿐만 아니라 데이터에 레이블을 지정하는 방식에 크게 좌우됩니다. 사용자 지정 모델의 경우 학습 데이터 집합 크기, 문서 페이지 제한 및 각 문서 유형에 필요한 최소 샘플 수의 제한을 주의해야 합니다. 사용자 지정 모델은 현재 Azure OpenAI Service GPT-3.5 모델을 사용합니다. Azure OpenAI 모델에 대한 자세한 내용은 Azure OpenAI 투명도 참고 참조하세요.

서비스 제한 페이지에는 모든 가격 책정 계층에 대한 Document Intelligence 서비스 할당량 및 제한에 대한 자세한 정보가 포함되어 있습니다. 또한 모델 사용 및 요청 제한 방지에 대한 모델 제한 사항 및 모범 사례를 포함합니다.

기능 지원

Document Intelligence 모델에서 수행할 수 있는 다양한 작업 목록은 Analysis 기능 테이블을 참조하세요.

시스템 성능

정확성

텍스트는 문서 이해 수준에서 이름, 가격, 금액, 회사 이름 및 제품과 같은 엔터티 및 기본 수준의 줄과 단어로 구성됩니다.

단어 수준 정확도

OCR에 대한 일반적인 정확도 측정값은 WER(단어 오류율) 또는 추출된 결과에서 잘못 출력된 단어 수입니다. WER이 낮을수록 정확도가 높습니다.

WER은 다음과 같이 정의됩니다.

WER 정의를 보여 주는 일러스트레이션.

Where:

기간	Definition	예시
S	출력에서 잘못된 단어("대체됨")의 수입니다.	"l"이 "i"로 검색되므로 "Velvet"은 "Veivet"으로 추출됩니다.
D	출력에서 누락된 단어("삭제됨")의 수입니다.	"회사 이름: Microsoft"라는 텍스트의 경우 Microsoft는 필기되거나 읽기 어렵기 때문에 추출되지 않습니다.
I	출력에 존재하지 않는("삽입됨") 단어의 수입니다.	"Department"는 "Dep artm ent"로 세 단어로 잘못 분할됩니다. 이 경우 결과는 삭제된 단어 1개와 삽입된 단어 3개입니다.
C	출력에서 올바르게 추출된 단어의 수입니다.	모든 단어가 올바르게 추출되었습니다.
N	참고자료에 나오는 총 단어 수(N=S+D+C)에서 I는 제외합니다. 왜냐하면 해당 단어는 원래 참고자료에서 누락되어 있는 것으로 잘못 예측되었기 때문입니다.	이미지에는 "Microsoft, 본사가 워싱턴주 레드먼드에 위치한 회사가 재무 부서를 위한 Velvet이라는 새 제품을 발표했다."라는 문장이 있습니다. OCR 출력은 " , 본사가 워싱턴주 레드먼드에 위치한 회사가 Veivet라는 새 제품을 발표했다 dep artm ents."입니다. 이 경우 S(Velvet) = 1, D(Microsoft) = 1, I(dep artm ents) = 3, C = 11, N = S + D + C = 13입니다. 따라서 WER = (S + D + I) / N = 5 / 13 = 0.38 또는 38% (100 중).

신뢰도 값 사용

이전 섹션에서 설명한 것처럼 서비스는 OCR 출력에서 예측된 각 단어에 대한 신뢰도 값을 제공합니다. 고객은 이 값을 사용하여 콘텐츠 및 시나리오에 대한 사용자 지정 임계값을 보정하고, 콘텐츠를 자동 처리하거나 사람 개입 프로세스로 전달하도록 라우팅합니다. 결과 측정값은 시나리오별 정확도를 결정합니다.

OCR 시스템 성능에 미치는 영향은 OCR 기술이 적용되는 시나리오에 따라 달라질 수 있습니다. 몇 가지 예제를 검토하여 해당 개념을 설명합니다.

의료기기 규정 준수: 이 첫 번째 예에서는 다양한 제품 포트폴리오의 특허, 장치, 약물 및 치료법을 갖춘 다국적 제약 회사가 FDA 규격 제품 라벨 정보 및 분석 결과 문서를 분석해야 합니다. 잘못 추출된 데이터의 비용이 소비자에게 미치는 영향과 규제 기관의 벌금을 고려할 때, 회사는 사람이 개입하는 프로세스를 위해 낮은 신뢰도 값 임계값을 선호할 수 있습니다.
이미지 및 문서 처리: 이 두 번째 예제에서 회사는 보험 및 대출 신청 처리를 수행합니다. 자동화된 텍스트 추출이 후속 단계에서 다른 정보 입력과 결합되고 애플리케이션의 전체적인 검토를 위한 사람 참여 단계를 포함하기 때문에 OCR을 사용하는 고객은 중간 신뢰도 임계값을 선호할 수 있습니다.
컨텐트 조정: 대규모 공급 업체에서 가져온 대량의 전자 commerce 카탈로그 데이터의 경우 거짓 플래그가 지정된 콘텐츠의 비율이 적더라도 사용자 검토 팀과 공급업체에 많은 오버헤드를 생성할 수 있으므로 고객은 높은 정확도의 높은 신뢰도 값 임계값을 선호할 수 있습니다.

문서 및 엔터티 수준 정확도

예를 들어 청구서 또는 영수증의 경우 문서 수준에서 전체 문서에서 한 문자의 오류만 중요하지 않은 것으로 평가될 수 있습니다. 그러나 해당 오류가 유료 금액을 나타내는 텍스트에 있는 경우 전체 청구서 또는 영수증에 잘못된 플래그가 표시될 수 있습니다.

또 다른 유용한 메트릭은 EER(엔터티 오류율)입니다. 이름, 가격, 금액 및 전화 번호와 같이 잘못 추출된 엔터티의 백분율로, 하나 이상의 문서에 있는 해당 엔터티의 총 수에 해당합니다. 예를 들어 10개의 이름을 나타내는 총 30개 단어의 경우 30개 중 잘못된 단어 2개는 0.06(6%) WER과 같습니다. 그러나 10개 중 2개의 이름이 올바르지 않으면 이름 EER는 0.20(20%)이며 WER보다 훨씬 높습니다.

WER과 EER를 모두 측정하는 것은 문서 이해 정확도에 대한 전체적인 관점을 얻는 데 유용한 연습입니다.

시스템 성능 개선을 위한 모범 사례

제한 사항 및 성능에 대해 다음 사항을 고려합니다.

서비스는 이미지 및 문서를 지원합니다. 페이지 수, 이미지 크기, 용지 크기 및 파일 크기에 허용되는 제한은 문서 인텔리전스란?을 참조하세요.

많은 변수는 문서 인텔리전스가 의존하는 OCR 결과의 정확도에 영향을 줄 수 있습니다. 이러한 변수에는 문서 스캔 품질, 해상도, 대비, 조명 조건, 회전 및 텍스트 특성(예: 크기, 색 및 밀도)이 포함됩니다. 예를 들어 이미지가 50 x 50 픽셀 이상인 것이 좋습니다. 제품 사양을 참조하고 문서에서 서비스를 테스트하여 상황에 맞는지 확인합니다.
현재 지원되는 입력, 언어 및 로캘 및 문서 유형과 관련하여 각 서비스의 제한 사항을 확인합니다. 예를 들어 레이아웃 지원 언어 참조하세요.

사용자 지정 모델 품질을 개선하기 위한 모범 사례

Document Intelligence 사용자 지정 모델을 사용하는 경우 모델이 특정 양식 및 문서로 학습할 수 있도록 고유한 학습 데이터를 제공합니다. 다음 목록에서는 사용자 지정 양식 모델 유형을 사용하여 모델 품질을 개선하기 위한 시작 팁을 공유합니다.

채워진 양식의 경우 모든 필드가 채워진 예제를 사용합니다.
각 필드에 대해 볼 것으로 예상되는 실제 값이 있는 양식을 사용합니다.
양식 이미지의 품질이 낮은 경우 더 큰 데이터 집합(예: 10-15개 이상의 이미지)을 사용합니다.

전체 가이드 및 입력 요구 사항은 사용자 지정 모델에 대한 학습 데이터 집합 빌드 참조하세요.

문서 인텔리전스 평가

Document Intelligence의 성능은 구현되는 실제 솔루션에 따라 달라집니다. 시나리오에서 최적의 성능을 보장하기 위해 고객은 자체 평가를 수행해야 합니다. 서비스는 추출된 각 단어와 키-값 매핑에 대해 0에서 1 사이의 범위에서 신뢰도 값을 제공합니다. 고객은 문서 인텔리전스에서 신뢰도 값의 범위와 추출 품질을 이해하려면 사용 사례를 나타내는 파일럿 또는 개념 증명을 실행해야 합니다. 그런 다음 STP(직선 처리)를 위해 보내거나 사람이 검토할 결과에 대한 신뢰도 값 임계값을 예측할 수 있습니다. 예를 들어 고객은 직선 처리를 위해 신뢰도 값이 .80보다 크거나 같은 결과를 제출하고 신뢰도 값이 .80 미만인 결과에 사용자 검토를 적용할 수 있습니다.

사용할 문서 인텔리전스 평가 및 통합

Microsoft는 문서 인텔리전스를 사용하는 솔루션을 책임감 있게 개발하고 배포하는 데 도움을 주고자 합니다. 우리는 AI 시스템의 공정성, 안정성 및 안전, 개인 정보 보호 및 보안, 포용성, 투명성 및 인간의 책임을 고려하여 개인 기관과 존엄성을 유지하기 위한 원칙적인 접근 방식을 취하고 있습니다. 이러한 고려 사항은 책임 있는 AI를 개발하기 위한 Microsoft의 노력과 일치합니다.

AI 기반 제품 또는 기능을 배포할 준비가 되면 다음 활동을 통해 성공을 설정할 수 있습니다.

수행할 수 있는 작업을 이해합니다 . 문서 인텔리전스의 잠재력을 완전히 평가하여 기능과 제한 사항을 이해합니다. 특정 시나리오 및 컨텍스트에서 수행되는 방식을 이해합니다. 예를 들어 미리 빌드된 청구서 모델을 사용하는 경우 비즈니스 프로세스의 실제 청구서로 테스트하여 기존 프로세스 메트릭에 대해 결과를 분석하고 벤치마킹합니다.
개인 정보 보호에 대한 개인의 권리를 존중합니다 . 합법적이고 정당한 목적으로 개인으로부터 데이터와 정보만 수집합니다. 이 용도로 사용하는 데 동의한 데이터 및 정보만 사용합니다.
법적 검토: 특히 중요한 애플리케이션 또는 고위험 애플리케이션에서 사용하려는 경우 적절한 법적 검토를 받습니다. 작업해야 할 수 있는 제한 사항과 향후 발생할 수 있는 문제를 해결해야 하는 책임을 이해합니다.
휴먼-인-더-루프: 인간의 참여를 유지하고, 인간 감독을 탐구할 일관된 패턴 영역에 포함시킵니다. 즉, AI 기반 제품 또는 기능에 대한 인간의 지속적인 감독을 보장하고 의사 결정에서 인간의 역할을 유지합니다. 해를 방지하기 위해 솔루션에 실시간 인간의 개입을 할 수 있는지 확인합니다. 사람이 개입함으로써 문서 인텔리전스가 예상대로 작동하지 않는 상황을 관리할 수 있습니다.
Security: 솔루션이 안전하고 콘텐츠의 무결성을 유지하고 무단 access 방지하기 위한 적절한 제어가 있는지 확인합니다.

개인 정보 보존을 위한 권장 사항

성공적인 개인 정보 보호 접근 방식은 개인에게 정보를 제공하고 개인 정보를 보존하기 위한 제어 및 보호를 제공합니다.

문서 인텔리전스가 PII(개인 식별 정보)를 통합하도록 설계된 솔루션의 일부인 경우 해당 데이터를 기록하는지 여부와 방법을 신중하게 고려해야 합니다. 개인 정보 보호 및 중요한 데이터에 대한 해당 국가 및 지역 규정을 따릅니다.
개인 정보 관리자는 추출된 텍스트와 값 그리고 기본 문서나 해당 문서의 이미지에 대한 보존 정책을 고려해야 합니다. 보존 정책은 각 애플리케이션의 용도와 관련됩니다.