Model dokumen pajak US Kecerdasan Dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
- Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
- Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
- US Timur
- US Barat2
- Eropa Barat
Konten ini berlaku untuk:v4.0 (pratinjau) | Versi sebelumnya:v3.1 (GA)
Konten ini berlaku untuk:v3.1 (GA) | Versi terbaru:v4.0 (pratinjau)
Model kontrak Kecerdasan Dokumen menggunakan kemampuan Pengenalan Karakter Optik (OCR) yang kuat untuk menganalisis dan mengekstrak bidang kunci dan item baris dari sekelompok dokumen pajak tertentu. Dokumen pajak dapat memiliki berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. API menganalisis teks dokumen; mengekstrak informasi utama seperti nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah jatuh tempo; dan mengembalikan representasi data JSON terstruktur. Model saat ini mendukung format dokumen pajak bahasa Inggris tertentu.
Jenis dokumen yang didukung:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 dan variasi (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
- 1040 dan variasi (Jadwal 1, Jadwal 2, Jadwal 3, Jadwal 8812, Jadwal A, Jadwal B, Jadwal C, Jadwal D, Jadwal E, Jadwal
EIC
, Jadwal F, Jadwal H, Jadwal J, Jadwal R, Jadwal SE, dan Jadwal Senior)
Pemrosesan dokumen pajak otomatis
Pemrosesan dokumen pajak otomatis adalah proses ekstraksi bidang kunci dari dokumen pajak. Secara historis, dokumen pajak diproses secara manual. Model ini memungkinkan otomatisasi skenario pajak yang mudah.
Opsi pengembangan
Kecerdasan Dokumen v4.0 (pratinjau 10-10-2023) mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model formulir pajak AS | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S • prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule8812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC •built-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model formulir pajak AS | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Model formulir pajak AS | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Persyaratan input
Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Format file yang didukung:
Model PDF Gambar:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (Pratinjau 2024-02-29) Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).
Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar
8
-point pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.
Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1GB
dengan maksimum 10.000 halaman.
Coba ekstraksi data dokumen pajak
Lihat bagaimana data, termasuk informasi pelanggan, detail vendor, dan item baris, diekstrak dari faktur. Anda membutuhkan sumber daya berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Studio Kecerdasan Dokumen
Pada beranda Studio Kecerdasan Dokumen, pilih model dokumen pajak yang didukung.
Anda dapat menganalisis contoh dokumen pajak atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis :
Bahasa dan lokal yang didukung
Lihat halaman Dukungan Bahasa— model bawaan untuk daftar lengkap bahasa yang didukung.
Ekstraksi bidang W-2
Berikut ini adalah bidang yang diekstrak dari formulir pajak W-2 dalam respons output JSON.
Nama | Tipe | Deskripsi | Contoh output | Tanggungan |
---|---|---|---|---|
W-2FormVariant |
String | Varian Formulir IR W-2. Bidang ini dapat memiliki salah satu nilai berikut: W-2 , , W-2AS , W-2CM , W-2GU atau W-2VI |
W-2 | |
TaxYear |
Angka | Tahun pajak formulir | 2021 | |
W2Copy |
String | Versi salinan pajak W-2 bersama dengan instruksi cetak yang terkait dengan salinan ini | Salin A—Untuk Administrasi Jaminan Sosial | |
Employee |
object | Objek yang berisi nomor, nama, dan alamat jaminan sosial | ||
ControlNumber |
string | Nomor kontrol W-2. Bidang IRS W-2 d | 0AB12 D345 7890 | |
Employer |
Objek | Objek yang berisi nomor identifikasi, nama, dan alamat pemberi kerja | ||
WagesTipsAndOtherCompensation |
Angka | Upah, tips, dan jumlah kompensasi lainnya dalam USD. Bidang IRS W-2 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
Angka | Pajak penghasilan federal ditahan dalam USD. IRS W-2 bidang 2 | 1234567.89 | |
SocialSecurityWages |
Angka | Jumlah upah jaminan sosial dalam USD. IRS W-2 bidang 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
Angka | Pajak jaminan sosial ditahan dalam USD. Bidang IRS W-2 4 | 1234567.89 | |
MedicareWagesAndTips |
Angka | Upah Medicare dan jumlah tips dalam USD. IRS W-2 bidang 5 | 1234567.89 | |
MedicareTaxWithheld |
Angka | Pajak Medicare ditahan dalam USD. Bidang IRS W-2 6 | 1234567.89 | |
SocialSecurityTips |
Angka | Jumlah tips jaminan sosial dalam USD. IRS W-2 bidang 7 | 1234567.89 | |
AllocatedTips |
Angka | Tips yang dialokasikan dalam USD. Bidang IRS W-2 8 | 1234567.89 | |
VerificationCode |
Angka | Kode verifikasi W-2. IRS W-2 bidang 9 | 1234567.89 | |
DependentCareBenefits |
Angka | Jumlah manfaat perawatan dependen dalam USD. Bidang IRS W-2 10 | 1234567.89 | |
NonQualifiedPlans |
Angka | Jumlah paket yang tidak memenuhi syarat dalam USD. Bidang IRS W-2 11 | 1234567.89 | |
IsStatutoryEmployee |
String | Bagian dari bidang IRS W-2 13. Bisa benar atau salah | benar | |
IsRetirementPlan |
String | Bagian dari bidang IRS W-2 13. Bisa benar atau salah | benar | |
IsThirdPartySickPay |
String | Bagian dari bidang IRS W-2 13. Bisa benar atau salah | benar | |
Other |
String | Konten bidang IRS W-2 14 | UPAH LV SAKIT SBJT HINGGA $511/HARI BATAS 1356 | |
StateTaxInfos |
Array | Informasi terkait pajak negara. konten bidang IRS W-2 15 hingga 17 | ||
LocaleTaxInfos |
Array | Informasi terkait pajak lokal. Konten bidang IRS W-2 18 hingga 20 |
Ekstraksi bidang 1098
Berikut ini adalah bidang yang diekstrak dari formulir pajak 1098 dalam respons output JSON. Formulir 1098-T dan 1098-E juga didukung.
Nama | Tipe | Deskripsi | Contoh output |
---|---|---|---|
TaxYear | Angka | Tahun pajak formulir | 2021 |
Peminjam | Objek | Objek yang berisi TIN, Nama, Alamat, dan AccountNumber peminjam | |
Pemberi pinjaman | Objek | Objek yang berisi TIN, Nama, Alamat, dan Telepon pemberi pinjaman | |
MortgageInterest | Angka | Jumlah Bunga KPR yang diterima dari pembayar/peminjam (kotak 1) | 1,234,567.89 |
OutstandingMortgagePrincipal | Angka | Perwakilan hipotek terutang (kotak 2) | 1,234,567.89 |
MortgageOriginationDate | Tanggal | Tanggal asal cicilan (kotak 3) | 01-01-2022 |
OverpaidInterestRefund | Angka | Jumlah pengembalian dana atas bunga berbayar (kotak 4) | 1,234,567.89 |
MortgageInsurancePremium | Angka | Jumlah premi asuransi hipotret (kotak 5) | 1,234,567.89 |
PointsPaid | Angka | Poin yang dibayarkan pada pembelian tempat tinggal utama (Box 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | String | Apakah alamat properti yang mengamankan hipotek sama dengan alamat surat pembayar/peminjam (kotak 7) | benar |
PropertyAddress | String | Alamat atau deskripsi properti yang mengamankan hipotek (kotak 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | Angka | Jumlah properti yang digadaikan (kotak 9) | 1 |
Lainnya | String | Informasi tambahan untuk dilaporkan kepada pembeli (kotak 10) | |
RealEstateTax | Angka | Pajak real estat (kotak 1) | 1,234,567.89 |
AdditionalAssessment | String | Menambahkan penilaian yang dibuat pada properti (kotak 10) | 1,234,567.89 |
MortgageAcquisitionDate | date | Tanggal akuisisi hipotek (kotak 11) | 01-01-2022 |
Ekstraksi bidang 1099-NEC
Berikut ini adalah bidang yang diekstrak dari formulir pajak 1099 nec dalam respons output JSON. Variasi lain 1099 juga didukung.
Nama | Tipe | Deskripsi | Contoh output |
---|---|---|---|
TaxYear |
String | Tahun Pajak diekstrak dari Formulir 1099-NEC. | 2021 |
Payer |
Objek | Objek yang berisi TIN, Nama, Alamat, dan Telepon Number pembeli | |
Recipient |
Objek | Objek yang berisi TIN, Nama, Alamat, dan AccountNumber penerima | |
Box1 |
number | Kotak 1 diekstrak dari Formulir 1099-NEC. | 123456 |
Box2 |
Boolean | Kotak 2 diekstrak dari Formulir 1099-NEC. | benar |
Box4 |
number | Kotak 4 diekstrak dari Formulir 1099-NEC. | 123456 |
StateTaxesWithheld |
array | Pajak Negara Ditahan diekstrak dari Formulir 1099-NEC (kotak 5, 6, dan 7) |
Formulir pajak ekstraksi bidang 1040
Berikut ini adalah bidang yang diekstrak dari formulir pajak 1040 dalam respons output JSON. Variasi lain 1040 juga didukung.
Nama | Tipe | Deskripsi | Contoh output |
---|---|---|---|
TaxPayer |
Objek | Objek yang berisi informasi wajib pajak seperti SSN, Nama Belakang, dan Alamat | |
Spouse |
Objek | Objek yang berisi informasi pasangan seperti SSN, nama keluarga, dan nama depan dan Nama inisial | |
Dependents |
array | Array yang berisi daftar dependen termasuk informasi seperti Nama, SSN, dan Jenis Kredit | |
ThirdPartyDesignee |
object | Objek yang berisi informasi tentang perancang pihak ketiga | |
SignatureDetails |
object | Objek yang berisi informasi tentang penerima tanda tangan seperti nomor telepon dan email | |
PaidPreparer |
object | Objek yang berisi informasi tentang penyiap. | |
FillingStatus |
String | Nilai dapat berupa salah satu noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse atau multiSelection. | tunggal |
FilingStatusDetails |
object | Objek yang berisi informasi tentang status pengarsipan. | |
NameOfSpouseOrQualifyingPerson |
String | Nama Pasangan atau Orang yang Memenuhi Syarat yang diekstrak dari Formulir 1040. | John Smith |
PresidentialElectionCampaign |
String | Nilai dapat berupa salah satu noSelection, taxpayer, spouse, atau multiSelection. | Pembayar pajak |
PresidentialElectionCampaignDetails |
object | Objek yang berisi detail tentang kampanye pemilihan presiden. | |
DigitalAssets |
String | Nilai bisa menjadi salah satu noSelection, yes, no atau multiSelection. | yes |
DigitalAssetsDetails |
object | Objek yang berisi detail tentang aset digital. | |
ClaimStatus |
String | Nilai dapat berupa salah satu noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien atau multiSelection. | taxpayerAsDependent |
ClaimStatusDetails |
object | Objek yang berisi detail tentang status klaim. | |
TaxpayerAgeBlindness |
String | Nilai bisa menjadi salah satu noSelection, above64 , blind atau multiSelection. |
di atas64 |
TaxPayerAgeBlindnessDetails |
object | Objek yang berisi detail tentang kebutaan usia wajib pajak. | |
SpouseAgeBlindness |
String | Nilai bisa menjadi salah satu noSelection, above64 , blind atau multiSelection. |
di atas64 |
TaxPayerAgeBlindnessDetails |
object | Objek yang berisi detail tentang kebutaan usia pasangan. | |
MoreThanFourDependents |
Boolean | Lebih dari Empat Dependen diekstrak dari Formulir 1040. | benar |
Box1a |
number | Kotak 1a diekstrak dari 1040. |
123456 |
Berdasarkan struktur JSON yang disediakan dan mengonversinya menjadi format tabel yang sama seperti yang diminta, hasilnya adalah sebagai berikut: | |||
Box1b |
number | Kotak 1b diekstrak dari 1040. |
123456 |
Box1c |
number | Kotak 1c diekstrak dari 1040. |
123456 |
Box1d |
number | Kotak 1d diekstrak dari 1040. |
123456 |
Box1e |
number | Kotak 1e diekstrak dari 1040. |
123456 |
Box1f |
number | Kotak 1f diekstrak dari 1040. |
123456 |
Box1g |
number | Kotak 1g diekstrak dari 1040. |
123456 |
Box1h |
number | Kotak 1h diekstrak dari 1040. |
123456 |
Box1i |
number | Kotak 1i diekstrak dari 1040. |
123456 |
Box1z |
number | Kotak 1z diekstrak dari 1040. |
123456 |
Box2a |
number | Kotak 2a diekstrak dari 1040. |
123456 |
Box2b |
number | Kotak 2b diekstrak dari 1040. |
123456 |
Box3a |
number | Kotak 3a diekstrak dari 1040. |
123456 |
Box3b |
number | Kotak 3b diekstrak dari 1040. |
123456 |
Box4a |
number | Kotak 4a diekstrak dari 1040. |
123456 |
Box4b |
number | Kotak 4b diekstrak dari 1040. |
123456 |
Box5a |
number | Kotak 5a diekstrak dari 1040. |
123456 |
Box5b |
number | Kotak 5b diekstrak dari 1040. |
123456 |
Box6a |
number | Kotak 6a diekstrak dari 1040. |
123456 |
Box6b |
number | Kotak 6b diekstrak dari 1040. |
123456 |
Box6cCheckbox |
Boolean | Kotak 6c Centang diekstrak dari 1040. |
benar |
Box7Checkbox |
Boolean | Kotak 7 Kotak Centang diekstrak dari 1040. | benar |
Box7 |
number | Kotak 7 diekstrak dari 1040. | 123456 |
Box8 |
number | Kotak 8 diekstrak dari 1040. | 123456 |
Box9 |
number | Kotak 9 diekstrak dari 1040. | 123456 |
Box10 |
number | Kotak 10 diekstrak dari 1040. | 123456 |
Box11 |
number | Kotak 11 diekstrak dari 1040. | 123456 |
Box12 |
number | Kotak 12 diekstrak dari 1040. | 123456 |
Box13 |
number | Kotak 13 diekstrak dari 1040. | 123456 |
Box14 |
number | Kotak 14 diekstrak dari 1040. | 123456 |
Box15 |
number | Kotak 15 diekstrak dari 1040. | 123456 |
Box16FromForm |
string | Nilai dapat berupa salah satu noSelection, 8814, 4972, lainnya atau multiSelection. | 8814 |
Box16FromFormDetails |
object | Objek yang berisi detail tentang Box 16 | |
Box16OtherFormNumber |
string | Kotak 16 Nomor Formulir Lain yang diekstrak dari 1040. | 8888 |
Box16 |
number | Kotak 16 diekstrak dari 1040. | 123456 |
Box17 |
number | Kotak 17 diekstrak dari 1040. | 123456 |
Box18 |
number | Kotak 18 diekstrak dari 1040. | 123456 |
Box19 |
number | Kotak 19 diekstrak dari 1040. | 123456 |
Box20 |
number | Kotak 20 diekstrak dari 1040. | 123456 |
Box21 |
number | Kotak 21 diekstrak dari 1040. | 123456 |
Box22 |
number | Kotak 22 diekstrak dari 1040. | 123456 |
Box23 |
number | Kotak 23 diekstrak dari 1040. | 123456 |
Box24 |
number | Kotak 24 diekstrak dari 1040. | 123456 |
Box25a |
number | Kotak 25a diekstrak dari 1040. |
123456 |
Box25b |
number | Kotak 25b diekstrak dari 1040. |
123456 |
Box25c |
number | Kotak 25c diekstrak dari 1040. |
123456 |
Box25d |
number | Kotak 25d diekstrak dari 1040. |
123456 |
Box26 |
number | Kotak 26 diekstrak dari 1040. | 123456 |
Box27 |
number | Kotak 27 diekstrak dari 1040. | 123456 |
Box28 |
number | Kotak 28 diekstrak dari 1040. | 123456 |
Box29 |
number | Kotak 29 diekstrak dari 1040. | 123456 |
Box31 |
number | Kotak 31 diekstrak dari 1040. | 123456 |
Box32 |
number | Kotak 32 diekstrak dari 1040. | 123456 |
Box33 |
number | Kotak 33 diekstrak dari 1040. | 123456 |
Box34 |
number | Kotak 34 diekstrak dari 1040. | 123456 |
Box35Checkbox |
Boolean | Kotak Centang 35 diekstrak dari 1040. | benar |
Box35a |
number | Kotak 35a diekstrak dari 1040. |
123456 |
Box35b |
number | Kotak 35b diekstrak dari 1040. |
123456 |
Box35c |
string | Nilai dapat berupa salah satu noSelection, checking, savings, atau multiSelection. | Memeriksa |
Box35cDetails |
object | Objek yang berisi detail tentang Box 35c |
|
Box35d |
number | Kotak 35d diekstrak dari 1040. |
123456 |
Box36 |
number | Kotak 36 diekstrak dari 1040. | 123456 |
Box37 |
number | Kotak 37 diekstrak dari 1040. | 123456 |
Box38 |
number | Kotak 38 diekstrak dari 1040. | 123456 |
HasAssignedThirdPartyDesignee |
string | Nilai bisa menjadi salah satu noSelection, yes, no atau multiSelection. | yes |
HasAssignedThirdPartyDesigneeDetails |
object | Objek yang berisi informasi tentang apa yang dipilih untuk perancang pihak ketiga yang ditetapkan |
Dokumen pajak pasangan kunci-nilai dan item baris yang diekstrak berada di documentResults
bagian output JSON.