문서 인텔리전스 미국 세금 문서 모델
Important
- 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다.
- 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
- 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-02-29-미리 보기로 설정됩니다.
- 공개 미리 보기 버전 2024-02-29-미리 보기는 현재 다음 Azure 지역에서만 사용할 수 있습니다.
- 미국 동부
- 미국 서부2
- 서유럽
이 콘텐츠 적용 대상:v4.0(미리 보기) | 이전 버전:v3.1(GA)
이 콘텐츠 적용 대상:v3.1(GA) | 최신 버전:v4.0(미리 보기)
문서 인텔리전스 계약 모델은 강력한 광학 문자 인식(OCR) 기능을 사용하여 선택된 세금 문서 그룹에서 주요 필드와 항목을 분석하고 추출합니다. 세금 문서는 전화로 캡처한 이미지, 스캔한 문서, 디지털 PDF 등 다양한 형식과 품질을 가질 수 있습니다. API는 문서 텍스트를 분석합니다. 고객 이름, 청구서 수신 주소, 만기일, 결제 금액 등 주요 정보를 추출합니다. 구조화된 JSON 데이터 표현을 반환합니다. 이 모델은 현재 특정 영어 세금 문서 형식을 지원합니다.
지원되는 문서 유형:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 및 변형(A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
- 1040 및 변형 (일정 1, 일정 2, 일정 3, 일정 8812, 일정 A, 일정 B, 일정 C, 일정 D, 일정 E, 일정
EIC
, 일정 F, 일정 H, 일정 J, 일정 R, 일정 SE 및 일정 선임)
자동화된 세금 문서 처리
자동화된 세금 문서 처리는 세금 문서에서 주요 필드를 추출하는 프로세스입니다. 과거에는 세금 문서가 수동으로 처리되었습니다. 이 모델을 사용하면 세금 시나리오를 쉽게 자동화할 수 있습니다.
개발 옵션
문서 인텔리전스 v4.0(2023-10-31-preview)은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
미국 세금 양식 모델 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
문서 인텔리전스 v3.1은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
미국 세금 양식 모델 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
문서 인텔리전스 v3.0은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
미국 세금 양식 모델 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
입력 요구 사항
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원 파일 형식:
모델 PDF 이미지:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML읽음 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ (2024-02-29-미리 보기, 2023-10-31-미리 보기) 일반 문서 ✔ ✔ 사전 제작 ✔ ✔ 사용자 지정 추출 ✔ ✔ 사용자 지정 분류 ✔ ✔ ✔ (2024-02-29-미리 보기) PDF 및 TIFF의 경우 최대 2000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.
이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약
8
포인트 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.
사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인
1GB
입니다.
세금 문서 데이터 추출을 사용해 보세요
고객 정보, 공급업체 세부 정보 및 라인 항목을 포함한 데이터가 청구서에서 추출되는 방법을 확인합니다. 다음 리소스가 필요합니다.
Azure 구독은 무료로 만들 수 있습니다.
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(
F0
)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.
문서 인텔리전스 스튜디오
Document Intelligence Studio 홈페이지에서 지원되는 세금 문서 모델을 선택합니다.
샘플 세금 문서를 분석하거나 자체 파일을 업로드할 수 있습니다.
분석 실행 버튼을 선택하고 필요한 경우 분석 옵션을 구성합니다.
지원되는 언어 및 로캘
지원되는 언어의 전체 목록은 언어 지원 - 미리 빌드된 모델 페이지를 참조하세요.
필드 추출 W-2
다음은 JSON 출력 응답의 W-2 세금 양식에서 추출된 필드입니다.
이름 | 형식 | 설명 | 예제 출력 | 부양 가족 |
---|---|---|---|---|
W-2FormVariant |
문자열 | IR W-2 형태 변형. 이 필드는 다음 값 중 하나를 가질 수 있습니다: W-2 , W-2AS , W-2CM , W-2GU 또는 W-2VI |
W-2 | |
TaxYear |
숫자 | 양식 과세연도 | 2021 | |
W2Copy |
문자열 | 이 사본과 관련된 인쇄된 지침과 함께 W-2 세금 사본 버전 | 사본 A—사회보장국용 | |
Employee |
개체 | 사회 보장 번호, 이름 및 주소를 포함하는 개체 | ||
ControlNumber |
string | W-2 제어 번호. IRS W-2 필드 d | 0AB12 D345 7890 | |
Employer |
Object | 고용주 ID 번호, 이름 및 주소를 포함하는 개체 | ||
WagesTipsAndOtherCompensation |
숫자 | 임금, 팁, 기타 보상 금액은 USD로 표시됩니다. IRS W-2 필드 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
숫자 | 연방 소득세 원천징수 금액(USD)입니다. IRS W-2 필드 2 | 1234567.89 | |
SocialSecurityWages |
숫자 | 사회 보장 임금 금액(USD). IRS W-2 필드 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
숫자 | 사회 보장세 원천징수 금액(USD). IRS W-2 필드 4 | 1234567.89 | |
MedicareWagesAndTips |
숫자 | 메디케어 임금과 팁 금액(USD) IRS W-2 필드 5 | 1234567.89 | |
MedicareTaxWithheld |
숫자 | 메디케어 세금 원천징수 금액(USD). IRS W-2 필드 6 | 1234567.89 | |
SocialSecurityTips |
숫자 | 사회보장 팁 금액(USD). IRS W-2 필드 7 | 1234567.89 | |
AllocatedTips |
숫자 | 할당된 팁(USD). IRS W-2 필드 8 | 1234567.89 | |
VerificationCode |
숫자 | W-2 인증 코드. IRS W-2 필드 9 | 1234567.89 | |
DependentCareBenefits |
숫자 | 부양 가족 돌봄 혜택 금액(USD). IRS W-2 필드 10 | 1234567.89 | |
NonQualifiedPlans |
숫자 | 비적격 계획 금액(USD). IRS W-2 필드 11 | 1234567.89 | |
IsStatutoryEmployee |
문자열 | IRS W-2 필드 13의 일부입니다. true 또는 false일 수 있습니다. | true | |
IsRetirementPlan |
문자열 | IRS W-2 필드 13의 일부입니다. true 또는 false일 수 있습니다. | true | |
IsThirdPartySickPay |
문자열 | IRS W-2 필드 13의 일부입니다. true 또는 false일 수 있습니다. | true | |
Other |
문자열 | IRS W-2 필드 14의 내용 | SICK LV는 SBJT의 임금을 $511/일 한도 1356으로 책정합니다. | |
StateTaxInfos |
배열 | 주세 관련 정보입니다. IRS W-2 필드 15~17의 내용 | ||
LocaleTaxInfos |
배열 | 지방세 관련 정보입니다. IRS W-2 필드 18~20의 내용 |
필드 추출 1098
다음은 JSON 출력 응답의 1098 세금 양식에서 추출된 필드입니다. 1098-T 및 1098-E 양식도 지원됩니다.
이름 | 형식 | 설명 | 예제 출력 |
---|---|---|---|
TaxYear | 숫자 | 양식 과세연도 | 2021 |
빌어 쓰는 사람 | Object | 차입자의 TIN, 이름, 주소 및 계좌 번호를 포함하는 개체 | |
대주 | Object | 대출 기관의 TIN, 이름, 주소 및 전화번호가 포함된 개체 | |
MortgageInterest | 숫자 | 지불자/대출자로부터 받은 모기지 이자 금액(상자 1) | 1,234,567.89 |
OutstandingMortgagePrincipal | 숫자 | 미납 모기지 원금(상자 2) | 1,234,567.89 |
MortgageOriginationDate | 날짜 | 모기지 발생일(박스 3) | 2022-01-01 |
OverpaidInterestRefund | 숫자 | 초과 지급된 이자 환불 금액(박스 4) | 1,234,567.89 |
MortgageInsurancePremium | 숫자 | 모기지 보험료 금액(박스 5) | 1,234,567.89 |
PointsPaid | 숫자 | 주 거주지 구입 시 지급되는 포인트(박스 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | 문자열 | 모기지를 담보하는 부동산의 주소가 지불인/대출자의 우편 주소(상자 7)와 동일합니까? | true |
PropertyAddress | 문자열 | 모기지 담보 부동산의 주소 또는 설명(박스 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | 숫자 | 저당 잡힌 부동산 수(박스 9) | 1 |
기타 | 문자열 | 지불자에게 보고할 추가 정보(상자 10) | |
RealEstateTax | 숫자 | 부동산 세금(상자 1) | 1,234,567.89 |
AdditionalAssessment | 문자열 | 부동산에 대한 추가 평가(상자 10) | 1,234,567.89 |
MortgageAcquisitionDate | 날짜 | 모기지 취득 날짜(박스 11) | 2022-01-01 |
필드 추출 1099-NEC
다음은 JSON 출력 응답의 1099-nec 세금 양식에서 추출된 필드입니다. 1099의 다른 변형도 지원됩니다.
이름 | 형식 | 설명 | 예제 출력 |
---|---|---|---|
TaxYear |
문자열 | 양식 1099-NEC에서 추출된 과세 연도입니다. | 2021 |
Payer |
Object | 납부자의 TIN, 이름, 주소, 전화번호가 포함된 개체 | |
Recipient |
Object | 수신자의 TIN, 이름, 주소, 계정번호가 포함된 개체 | |
Box1 |
번호 | 양식 1099-NEC에서 추출된 상자 1. | 123456 |
Box2 |
부울 값 | 양식 1099-NEC에서 추출된 상자 2. | true |
Box4 |
번호 | 양식 1099-NEC에서 추출된 상자 4. | 123456 |
StateTaxesWithheld |
배열 | 양식 1099-NEC에서 추출된 주세 원천징수(상자 5, 6, 7) |
필드 추출 1040 세금 양식
다음은 JSON 출력 응답의 1040 세금 양식에서 추출된 필드입니다. 1040의 다른 변형도 지원됩니다.
속성 | 형식 | 설명 | 예제 출력 |
---|---|---|---|
TaxPayer |
Object | 납세자의 정보(예: SSN, 성 및 주소)가 들어 있는 개체입니다. | |
Spouse |
Object | SSN, 성, 이름 및 이니셜 이름과 같은 배우자의 정보를 포함하는 개체입니다. | |
Dependents |
배열 | 이름, SSN 및 크레딧 유형과 같은 정보를 포함하는 종속 항목 목록이 포함된 배열입니다. | |
ThirdPartyDesignee |
개체 | 타사 디자인 담당자에 대한 정보가 들어 있는 개체입니다. | |
SignatureDetails |
개체 | 전화 번호 및 전자 메일과 같은 서명자 정보를 포함하는 개체입니다. | |
PaidPreparer |
개체 | 준비 관리자에 대한 정보가 들어 있는 개체입니다. | |
FillingStatus |
문자열 | 값은 noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse 또는 multiSelection 중 하나일 수 있습니다. | single |
FilingStatusDetails |
개체 | 제출 상태에 대한 정보가 들어 있는 개체입니다. | |
NameOfSpouseOrQualifyingPerson |
문자열 | 양식 1040에서 추출된 배우자 또는 적격자의 이름입니다. | John Smith |
PresidentialElectionCampaign |
문자열 | 값은 noSelection, 납세자, 배우자 또는 multiSelection 중 하나일 수 있습니다. | 납세자 |
PresidentialElectionCampaignDetails |
개체 | 대통령 선거 운동에 대한 세부 정보가 들어 있는 개체입니다. | |
DigitalAssets |
문자열 | 값은 noSelection, 예, 아니요 또는 multiSelection 중 하나일 수 있습니다. | 예 |
DigitalAssetsDetails |
개체 | 디지털 자산에 대한 세부 정보가 들어 있는 개체입니다. | |
ClaimStatus |
문자열 | 값은 noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien 또는 multiSelection 중 하나일 수 있습니다. | taxpayerAsDependent |
ClaimStatusDetails |
개체 | 클레임 상태에 대한 세부 정보가 들어 있는 개체입니다. | |
TaxpayerAgeBlindness |
문자열 | 값은 noSelection, above64 , blind 또는 multiSelection 중 하나일 수 있습니다. |
above64 |
TaxPayerAgeBlindnessDetails |
개체 | 납세자 연령 실명에 대한 세부 정보를 포함하는 개체입니다. | |
SpouseAgeBlindness |
문자열 | 값은 noSelection, above64 , blind 또는 multiSelection 중 하나일 수 있습니다. |
above64 |
TaxPayerAgeBlindnessDetails |
개체 | 배우자 연령 실명에 대한 세부 정보를 포함하는 개체입니다. | |
MoreThanFourDependents |
부울 값 | 양식 1040에서 추출된 4개 이상의 종속성입니다. | true |
Box1a |
번호 | Box 1a 1040에서 추출되었습니다. |
123456 |
제공된 JSON 구조에 따라 요청된 것과 동일한 테이블 형식으로 변환하면 결과는 다음과 같습니다. | |||
Box1b |
번호 | Box 1b 1040에서 추출되었습니다. |
123456 |
Box1c |
번호 | Box 1c 1040에서 추출되었습니다. |
123456 |
Box1d |
번호 | Box 1d 1040에서 추출되었습니다. |
123456 |
Box1e |
번호 | Box 1e 1040에서 추출되었습니다. |
123456 |
Box1f |
번호 | Box 1f 1040에서 추출되었습니다. |
123456 |
Box1g |
번호 | Box 1g 1040에서 추출되었습니다. |
123456 |
Box1h |
번호 | Box 1h 1040에서 추출되었습니다. |
123456 |
Box1i |
번호 | Box 1i 1040에서 추출되었습니다. |
123456 |
Box1z |
번호 | Box 1z 1040에서 추출되었습니다. |
123456 |
Box2a |
번호 | Box 2a 1040에서 추출되었습니다. |
123456 |
Box2b |
번호 | Box 2b 1040에서 추출되었습니다. |
123456 |
Box3a |
번호 | Box 3a 1040에서 추출되었습니다. |
123456 |
Box3b |
번호 | Box 3b 1040에서 추출되었습니다. |
123456 |
Box4a |
번호 | Box 4a 1040에서 추출되었습니다. |
123456 |
Box4b |
번호 | Box 4b 1040에서 추출되었습니다. |
123456 |
Box5a |
번호 | Box 5a 1040에서 추출되었습니다. |
123456 |
Box5b |
번호 | Box 5b 1040에서 추출되었습니다. |
123456 |
Box6a |
번호 | Box 6a 1040에서 추출되었습니다. |
123456 |
Box6b |
번호 | Box 6b 1040에서 추출되었습니다. |
123456 |
Box6cCheckbox |
부울 값 | Box 6c 1040에서 추출된 확인 상자입니다. |
true |
Box7Checkbox |
부울 값 | 상자 7 1040에서 추출된 확인 상자입니다. | true |
Box7 |
번호 | 상자 7 1040에서 추출되었습니다. | 123456 |
Box8 |
번호 | 상자 8 1040에서 추출되었습니다. | 123456 |
Box9 |
번호 | 상자 9 1040에서 추출되었습니다. | 123456 |
Box10 |
번호 | 상자 10 1040에서 추출되었습니다. | 123456 |
Box11 |
번호 | 상자 11 1040에서 추출되었습니다. | 123456 |
Box12 |
번호 | 상자 12 1040에서 추출되었습니다. | 123456 |
Box13 |
번호 | 상자 13 1040에서 추출되었습니다. | 123456 |
Box14 |
번호 | 상자 14 1040에서 추출되었습니다. | 123456 |
Box15 |
번호 | 상자 15 1040에서 추출되었습니다. | 123456 |
Box16FromForm |
string | 값은 noSelection, 8814, 4972, 기타 또는 multiSelection 중 하나일 수 있습니다. | 8814 |
Box16FromFormDetails |
개체 | Box 16에 대한 세부 정보가 포함된 개체 | |
Box16OtherFormNumber |
string | Box 16 1040에서 추출된 기타 양식 번호입니다. | 8888 |
Box16 |
번호 | 상자 16 1040에서 추출되었습니다. | 123456 |
Box17 |
번호 | 상자 17 1040에서 추출되었습니다. | 123456 |
Box18 |
번호 | 상자 18 1040에서 추출되었습니다. | 123456 |
Box19 |
번호 | 상자 19 1040에서 추출되었습니다. | 123456 |
Box20 |
번호 | 상자 20 1040에서 추출되었습니다. | 123456 |
Box21 |
번호 | 상자 21 1040에서 추출되었습니다. | 123456 |
Box22 |
번호 | 상자 22 1040에서 추출되었습니다. | 123456 |
Box23 |
번호 | 상자 23 1040에서 추출되었습니다. | 123456 |
Box24 |
번호 | 상자 24 1040에서 추출되었습니다. | 123456 |
Box25a |
번호 | Box 25a 1040에서 추출되었습니다. |
123456 |
Box25b |
번호 | Box 25b 1040에서 추출되었습니다. |
123456 |
Box25c |
번호 | Box 25c 1040에서 추출되었습니다. |
123456 |
Box25d |
번호 | Box 25d 1040에서 추출되었습니다. |
123456 |
Box26 |
번호 | 상자 26 1040에서 추출되었습니다. | 123456 |
Box27 |
번호 | 상자 27 1040에서 추출되었습니다. | 123456 |
Box28 |
번호 | 상자 28 1040에서 추출되었습니다. | 123456 |
Box29 |
번호 | 상자 29 1040에서 추출되었습니다. | 123456 |
Box31 |
번호 | 상자 31 1040에서 추출되었습니다. | 123456 |
Box32 |
번호 | 상자 32 1040에서 추출되었습니다. | 123456 |
Box33 |
번호 | 상자 33 1040에서 추출되었습니다. | 123456 |
Box34 |
번호 | 상자 34 1040에서 추출되었습니다. | 123456 |
Box35Checkbox |
부울 값 | 상자 35 1040에서 추출된 확인 상자입니다. | true |
Box35a |
번호 | Box 35a 1040에서 추출되었습니다. |
123456 |
Box35b |
번호 | Box 35b 1040에서 추출되었습니다. |
123456 |
Box35c |
string | 값은 noSelection, checking, savings 또는 multiSelection 중 하나일 수 있습니다. | 검사 |
Box35cDetails |
개체 | Box 35c 에 대한 세부 정보가 포함된 개체 |
|
Box35d |
번호 | Box 35d 1040에서 추출되었습니다. |
123456 |
Box36 |
번호 | 상자 36 1040에서 추출되었습니다. | 123456 |
Box37 |
번호 | 상자 37 1040에서 추출되었습니다. | 123456 |
Box38 |
번호 | 상자 38 1040에서 추출되었습니다. | 123456 |
HasAssignedThirdPartyDesignee |
string | 값은 noSelection, 예, 아니요 또는 multiSelection 중 하나일 수 있습니다. | 예 |
HasAssignedThirdPartyDesigneeDetails |
개체 | 할당된 타사 디자인 담당자에 대해 선택된 항목에 대한 정보를 포함하는 개체 |
추출된 세금 문서 키-값 쌍 및 품목은 JSON 출력의 documentResults
섹션에 있습니다.
다음 단계
문서 인텔리전스 스튜디오를 사용하여 사용자 고유의 양식 및 문서를 처리해 보세요.
Document Intelligence 빠른 시작을 완료하고 원하는 개발 언어로 문서 처리 앱 만들기를 시작해 보세요.