Model dokumen pajak US Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
  • Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
  • Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
  • US Timur
  • US Barat2
  • Eropa Barat

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau)

Model kontrak Kecerdasan Dokumen menggunakan kemampuan Pengenalan Karakter Optik (OCR) yang kuat untuk menganalisis dan mengekstrak bidang kunci dan item baris dari sekelompok dokumen pajak tertentu. Dokumen pajak dapat memiliki berbagai format dan kualitas termasuk gambar yang diambil telepon, dokumen yang dipindai, dan PDF digital. API menganalisis teks dokumen; mengekstrak informasi utama seperti nama pelanggan, alamat penagihan, tanggal jatuh tempo, dan jumlah jatuh tempo; dan mengembalikan representasi data JSON terstruktur. Model saat ini mendukung format dokumen pajak bahasa Inggris tertentu.

Jenis dokumen yang didukung:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 dan variasi (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 dan variasi (Jadwal 1, Jadwal 2, Jadwal 3, Jadwal 8812, Jadwal A, Jadwal B, Jadwal C, Jadwal D, Jadwal E, Jadwal EIC, Jadwal F, Jadwal H, Jadwal J, Jadwal R, Jadwal SE, dan Jadwal Senior)

Pemrosesan dokumen pajak otomatis

Pemrosesan dokumen pajak otomatis adalah proses ekstraksi bidang kunci dari dokumen pajak. Secara historis, dokumen pajak diproses secara manual. Model ini memungkinkan otomatisasi skenario pajak yang mudah.

Opsi pengembangan

Kecerdasan Dokumen v4.0 (pratinjau 10-10-2023) mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model formulir pajak AS Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC

prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812

prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
•built-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model formulir pajak AS Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model formulir pajak AS Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Persyaratan input

  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTML
    Read
    Tata letak ✔ (2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (Pratinjau 2024-02-29)
  • Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar 8-point pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1GB dengan maksimum 10.000 halaman.

Coba ekstraksi data dokumen pajak

Lihat bagaimana data, termasuk informasi pelanggan, detail vendor, dan item baris, diekstrak dari faktur. Anda membutuhkan sumber daya berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Cuplikan layar di titik akhir di portal Azure.

Studio Kecerdasan Dokumen

  1. Pada beranda Studio Kecerdasan Dokumen, pilih model dokumen pajak yang didukung.

  2. Anda dapat menganalisis contoh dokumen pajak atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis :

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa— model bawaan untuk daftar lengkap bahasa yang didukung.

Ekstraksi bidang W-2

Berikut ini adalah bidang yang diekstrak dari formulir pajak W-2 dalam respons output JSON.

Nama Tipe Deskripsi Contoh output Tanggungan
W-2FormVariant String Varian Formulir IR W-2. Bidang ini dapat memiliki salah satu nilai berikut: W-2, , W-2AS, W-2CM, W-2GUatau W-2VI W-2
TaxYear Angka Tahun pajak formulir 2021
W2Copy String Versi salinan pajak W-2 bersama dengan instruksi cetak yang terkait dengan salinan ini Salin A—Untuk Administrasi Jaminan Sosial
Employee object Objek yang berisi nomor, nama, dan alamat jaminan sosial
ControlNumber string Nomor kontrol W-2. Bidang IRS W-2 d 0AB12 D345 7890
Employer Objek Objek yang berisi nomor identifikasi, nama, dan alamat pemberi kerja
WagesTipsAndOtherCompensation Angka Upah, tips, dan jumlah kompensasi lainnya dalam USD. Bidang IRS W-2 1 1234567.89
FederalIncomeTaxWithheld Angka Pajak penghasilan federal ditahan dalam USD. IRS W-2 bidang 2 1234567.89
SocialSecurityWages Angka Jumlah upah jaminan sosial dalam USD. IRS W-2 bidang 3 1234567.89
SocialSecurityTaxWithheld Angka Pajak jaminan sosial ditahan dalam USD. Bidang IRS W-2 4 1234567.89
MedicareWagesAndTips Angka Upah Medicare dan jumlah tips dalam USD. IRS W-2 bidang 5 1234567.89
MedicareTaxWithheld Angka Pajak Medicare ditahan dalam USD. Bidang IRS W-2 6 1234567.89
SocialSecurityTips Angka Jumlah tips jaminan sosial dalam USD. IRS W-2 bidang 7 1234567.89
AllocatedTips Angka Tips yang dialokasikan dalam USD. Bidang IRS W-2 8 1234567.89
VerificationCode Angka Kode verifikasi W-2. IRS W-2 bidang 9 1234567.89
DependentCareBenefits Angka Jumlah manfaat perawatan dependen dalam USD. Bidang IRS W-2 10 1234567.89
NonQualifiedPlans Angka Jumlah paket yang tidak memenuhi syarat dalam USD. Bidang IRS W-2 11 1234567.89
IsStatutoryEmployee String Bagian dari bidang IRS W-2 13. Bisa benar atau salah benar
IsRetirementPlan String Bagian dari bidang IRS W-2 13. Bisa benar atau salah benar
IsThirdPartySickPay String Bagian dari bidang IRS W-2 13. Bisa benar atau salah benar
Other String Konten bidang IRS W-2 14 UPAH LV SAKIT SBJT HINGGA $511/HARI BATAS 1356
StateTaxInfos Array Informasi terkait pajak negara. konten bidang IRS W-2 15 hingga 17
LocaleTaxInfos Array Informasi terkait pajak lokal. Konten bidang IRS W-2 18 hingga 20

Ekstraksi bidang 1098

Berikut ini adalah bidang yang diekstrak dari formulir pajak 1098 dalam respons output JSON. Formulir 1098-T dan 1098-E juga didukung.

Nama Tipe Deskripsi Contoh output
TaxYear Angka Tahun pajak formulir 2021
Peminjam Objek Objek yang berisi TIN, Nama, Alamat, dan AccountNumber peminjam
Pemberi pinjaman Objek Objek yang berisi TIN, Nama, Alamat, dan Telepon pemberi pinjaman
MortgageInterest Angka Jumlah Bunga KPR yang diterima dari pembayar/peminjam (kotak 1) 1,234,567.89
OutstandingMortgagePrincipal Angka Perwakilan hipotek terutang (kotak 2) 1,234,567.89
MortgageOriginationDate Tanggal Tanggal asal cicilan (kotak 3) 01-01-2022
OverpaidInterestRefund Angka Jumlah pengembalian dana atas bunga berbayar (kotak 4) 1,234,567.89
MortgageInsurancePremium Angka Jumlah premi asuransi hipotret (kotak 5) 1,234,567.89
PointsPaid Angka Poin yang dibayarkan pada pembelian tempat tinggal utama (Box 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String Apakah alamat properti yang mengamankan hipotek sama dengan alamat surat pembayar/peminjam (kotak 7) benar
PropertyAddress String Alamat atau deskripsi properti yang mengamankan hipotek (kotak 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Angka Jumlah properti yang digadaikan (kotak 9) 1
Lainnya String Informasi tambahan untuk dilaporkan kepada pembeli (kotak 10)
RealEstateTax Angka Pajak real estat (kotak 1) 1,234,567.89
AdditionalAssessment String Menambahkan penilaian yang dibuat pada properti (kotak 10) 1,234,567.89
MortgageAcquisitionDate date Tanggal akuisisi hipotek (kotak 11) 01-01-2022

Ekstraksi bidang 1099-NEC

Berikut ini adalah bidang yang diekstrak dari formulir pajak 1099 nec dalam respons output JSON. Variasi lain 1099 juga didukung.

Nama Tipe Deskripsi Contoh output
TaxYear String Tahun Pajak diekstrak dari Formulir 1099-NEC. 2021
Payer Objek Objek yang berisi TIN, Nama, Alamat, dan Telepon Number pembeli
Recipient Objek Objek yang berisi TIN, Nama, Alamat, dan AccountNumber penerima
Box1 number Kotak 1 diekstrak dari Formulir 1099-NEC. 123456
Box2 Boolean Kotak 2 diekstrak dari Formulir 1099-NEC. benar
Box4 number Kotak 4 diekstrak dari Formulir 1099-NEC. 123456
StateTaxesWithheld array Pajak Negara Ditahan diekstrak dari Formulir 1099-NEC (kotak 5, 6, dan 7)

Formulir pajak ekstraksi bidang 1040

Berikut ini adalah bidang yang diekstrak dari formulir pajak 1040 dalam respons output JSON. Variasi lain 1040 juga didukung.

Nama Tipe Deskripsi Contoh output
TaxPayer Objek Objek yang berisi informasi wajib pajak seperti SSN, Nama Belakang, dan Alamat
Spouse Objek Objek yang berisi informasi pasangan seperti SSN, nama keluarga, dan nama depan dan Nama inisial
Dependents array Array yang berisi daftar dependen termasuk informasi seperti Nama, SSN, dan Jenis Kredit
ThirdPartyDesignee object Objek yang berisi informasi tentang perancang pihak ketiga
SignatureDetails object Objek yang berisi informasi tentang penerima tanda tangan seperti nomor telepon dan email
PaidPreparer object Objek yang berisi informasi tentang penyiap.
FillingStatus String Nilai dapat berupa salah satu noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse atau multiSelection. tunggal
FilingStatusDetails object Objek yang berisi informasi tentang status pengarsipan.
NameOfSpouseOrQualifyingPerson String Nama Pasangan atau Orang yang Memenuhi Syarat yang diekstrak dari Formulir 1040. John Smith
PresidentialElectionCampaign String Nilai dapat berupa salah satu noSelection, taxpayer, spouse, atau multiSelection. Pembayar pajak
PresidentialElectionCampaignDetails object Objek yang berisi detail tentang kampanye pemilihan presiden.
DigitalAssets String Nilai bisa menjadi salah satu noSelection, yes, no atau multiSelection. yes
DigitalAssetsDetails object Objek yang berisi detail tentang aset digital.
ClaimStatus String Nilai dapat berupa salah satu noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien atau multiSelection. taxpayerAsDependent
ClaimStatusDetails object Objek yang berisi detail tentang status klaim.
TaxpayerAgeBlindness String Nilai bisa menjadi salah satu noSelection, above64, blind atau multiSelection. di atas64
TaxPayerAgeBlindnessDetails object Objek yang berisi detail tentang kebutaan usia wajib pajak.
SpouseAgeBlindness String Nilai bisa menjadi salah satu noSelection, above64, blind atau multiSelection. di atas64
TaxPayerAgeBlindnessDetails object Objek yang berisi detail tentang kebutaan usia pasangan.
MoreThanFourDependents Boolean Lebih dari Empat Dependen diekstrak dari Formulir 1040. benar
Box1a number Kotak 1a diekstrak dari 1040. 123456
Berdasarkan struktur JSON yang disediakan dan mengonversinya menjadi format tabel yang sama seperti yang diminta, hasilnya adalah sebagai berikut:
Box1b number Kotak 1b diekstrak dari 1040. 123456
Box1c number Kotak 1c diekstrak dari 1040. 123456
Box1d number Kotak 1d diekstrak dari 1040. 123456
Box1e number Kotak 1e diekstrak dari 1040. 123456
Box1f number Kotak 1f diekstrak dari 1040. 123456
Box1g number Kotak 1g diekstrak dari 1040. 123456
Box1h number Kotak 1h diekstrak dari 1040. 123456
Box1i number Kotak 1i diekstrak dari 1040. 123456
Box1z number Kotak 1z diekstrak dari 1040. 123456
Box2a number Kotak 2a diekstrak dari 1040. 123456
Box2b number Kotak 2b diekstrak dari 1040. 123456
Box3a number Kotak 3a diekstrak dari 1040. 123456
Box3b number Kotak 3b diekstrak dari 1040. 123456
Box4a number Kotak 4a diekstrak dari 1040. 123456
Box4b number Kotak 4b diekstrak dari 1040. 123456
Box5a number Kotak 5a diekstrak dari 1040. 123456
Box5b number Kotak 5b diekstrak dari 1040. 123456
Box6a number Kotak 6a diekstrak dari 1040. 123456
Box6b number Kotak 6b diekstrak dari 1040. 123456
Box6cCheckbox Boolean Kotak 6c Centang diekstrak dari 1040. benar
Box7Checkbox Boolean Kotak 7 Kotak Centang diekstrak dari 1040. benar
Box7 number Kotak 7 diekstrak dari 1040. 123456
Box8 number Kotak 8 diekstrak dari 1040. 123456
Box9 number Kotak 9 diekstrak dari 1040. 123456
Box10 number Kotak 10 diekstrak dari 1040. 123456
Box11 number Kotak 11 diekstrak dari 1040. 123456
Box12 number Kotak 12 diekstrak dari 1040. 123456
Box13 number Kotak 13 diekstrak dari 1040. 123456
Box14 number Kotak 14 diekstrak dari 1040. 123456
Box15 number Kotak 15 diekstrak dari 1040. 123456
Box16FromForm string Nilai dapat berupa salah satu noSelection, 8814, 4972, lainnya atau multiSelection. 8814
Box16FromFormDetails object Objek yang berisi detail tentang Box 16
Box16OtherFormNumber string Kotak 16 Nomor Formulir Lain yang diekstrak dari 1040. 8888
Box16 number Kotak 16 diekstrak dari 1040. 123456
Box17 number Kotak 17 diekstrak dari 1040. 123456
Box18 number Kotak 18 diekstrak dari 1040. 123456
Box19 number Kotak 19 diekstrak dari 1040. 123456
Box20 number Kotak 20 diekstrak dari 1040. 123456
Box21 number Kotak 21 diekstrak dari 1040. 123456
Box22 number Kotak 22 diekstrak dari 1040. 123456
Box23 number Kotak 23 diekstrak dari 1040. 123456
Box24 number Kotak 24 diekstrak dari 1040. 123456
Box25a number Kotak 25a diekstrak dari 1040. 123456
Box25b number Kotak 25b diekstrak dari 1040. 123456
Box25c number Kotak 25c diekstrak dari 1040. 123456
Box25d number Kotak 25d diekstrak dari 1040. 123456
Box26 number Kotak 26 diekstrak dari 1040. 123456
Box27 number Kotak 27 diekstrak dari 1040. 123456
Box28 number Kotak 28 diekstrak dari 1040. 123456
Box29 number Kotak 29 diekstrak dari 1040. 123456
Box31 number Kotak 31 diekstrak dari 1040. 123456
Box32 number Kotak 32 diekstrak dari 1040. 123456
Box33 number Kotak 33 diekstrak dari 1040. 123456
Box34 number Kotak 34 diekstrak dari 1040. 123456
Box35Checkbox Boolean Kotak Centang 35 diekstrak dari 1040. benar
Box35a number Kotak 35a diekstrak dari 1040. 123456
Box35b number Kotak 35b diekstrak dari 1040. 123456
Box35c string Nilai dapat berupa salah satu noSelection, checking, savings, atau multiSelection. Memeriksa
Box35cDetails object Objek yang berisi detail tentang Box 35c
Box35d number Kotak 35d diekstrak dari 1040. 123456
Box36 number Kotak 36 diekstrak dari 1040. 123456
Box37 number Kotak 37 diekstrak dari 1040. 123456
Box38 number Kotak 38 diekstrak dari 1040. 123456
HasAssignedThirdPartyDesignee string Nilai bisa menjadi salah satu noSelection, yes, no atau multiSelection. yes
HasAssignedThirdPartyDesigneeDetails object Objek yang berisi informasi tentang apa yang dipilih untuk perancang pihak ketiga yang ditetapkan

Dokumen pajak pasangan kunci-nilai dan item baris yang diekstrak berada di documentResults bagian output JSON.

Langkah berikutnya

  • Coba pemrosesan formulir dan dokumen Anda sendiri dengan Studio Kecerdasan Dokumen.

  • Selesaikan mulai cepat Kecerdasan Dokumen dan mulai membuat aplikasi pemrosesan dokumen dalam bahasa pengembangan pilihan Anda.