Modelo de documentos fiscales de EE. UU. de Documento de inteligencia

Importante

  • Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo.
  • Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
  • La versión preliminar pública de las bibliotecas cliente de Documentación de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-02-29-preview.
  • La versión preliminar pública 2024-02-29-preview solo está disponible en las siguientes regiones de Azure:
  • Este de EE. UU.
  • Oeste de EE. UU. 2
  • Oeste de Europa

Este contenido se aplica a:marca de verificaciónv4.0 (versión preliminar) | Versiones anteriores:marca de verificación azulv3.1 (GA)

Este contenido se aplica a:marca de verificaciónv3.1 (GA) | Versión más reciente:marca de verificación púrpurav4.0 (versión preliminar)

El modelo de contrato de Documento de inteligencia usa eficaces funcionalidades de Reconocimiento óptico de caracteres (OCR) para analizar y extraer campos clave y elementos de línea de un grupo seleccionado de documentos fiscales. Los documentos fiscales pueden ser de distintos formatos y tener diferentes grados de calidad, lo que incluye imágenes capturadas por un teléfono, documentos digitalizados y archivos PDF digitales. La API analiza el texto de los documentos fiscales; extrae información clave, como el nombre del cliente, la dirección de facturación, la fecha de vencimiento y el importe a pagar; y devuelve una representación de datos JSON estructurada. El modelo admite actualmente determinados formatos de documentos fiscales en inglés.

Tipos de documento admitidos:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 y variaciones (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 y variaciones (Schedule 1, Schedule 2, Schedule 3, Schedule 8812, Schedule A, Schedule B, Schedule C, Schedule D, Schedule E, Schedule EIC, Schedule F, Schedule H, Schedule J, Schedule R, Schedule SE y Schedule Senior)

Procesamiento automatizado de documentos fiscales

El procesamiento automatizado de documentos fiscales es el proceso de extracción de campos clave de documentos fiscales. Históricamente, los documentos fiscales se procesaban manualmente. Este modelo permite la automatización sencilla de escenarios fiscales.

Opciones de desarrollo

Documento de inteligencia v4.0 (2023-10-31-preview) admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Documento de inteligencia v3.1 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Documento de inteligencia v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Requisitos de entrada

  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) y HTML
    Leer
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Documento general
    Creada previamente
    Extracción personalizada
    Clasificación personalizada ✔ (2024-02-29-preview)
  • En el caso de PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones de entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un 8 texto de 150 puntos a 150 puntos por pulgada (DPI).

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

    • Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 G-MB para el modelo neuronal.

    • Para el modelo de entrenamiento de clasificación personalizada, el tamaño total de los datos de entrenamiento es 1GB con un máximo de 10 000 páginas.

Prueba de la extracción de datos de documentos fiscales

Vea cómo se extraen los datos, incluida la información del cliente, los detalles del proveedor y los elementos de línea, de las facturas. Tendrá que supervisar los recursos siguientes:

  • Una suscripción a Azure: puede crear una cuenta gratuita.

  • Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Estudio del documento de inteligencia

  1. En la página principal de Document Intelligence Studio, seleccione el modelo de documento fiscal admitido.

  2. Puede analizar un documento fiscal de ejemplo o cargar archivos propios.

  3. Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

    Captura de pantalla de los botones Ejecutar análisis y Analizar opciones en Document Intelligence Studio.

Idiomas y configuraciones regionales compatibles

Vea nuestra página de Compatibilidad de idiomas: modelos precompilados para obtener una lista completa de los idiomas admitidos.

Extracción de campos W-2

A continuación se muestran los campos extraídos de un formulario fiscal W-2 en la respuesta de salida JSON.

Nombre Escribir Descripción Salida de ejemplo dependientes
W-2FormVariant Cadena Variante de formulario de IR W-2. Puede tener uno de los siguientes valores: W-2, W-2AS, W-2CM, W-2GU o W-2VI W-2
TaxYear Número Año fiscal del formulario 2021
W2Copy String Versión de copia fiscal W-2 junto con instrucciones impresas relacionadas con esta copia Copia A para la Administración del Seguro Social
Employee object Objeto que contiene el número de seguridad social, el nombre y la dirección
ControlNumber cadena Número de control W-2. Campo D de IRS W-2 0AB12 D345 7890
Employer Object Objeto que contiene el número de identificación, el nombre y la dirección del empleador
WagesTipsAndOtherCompensation Número Salarios, propinas y otra cantidad de compensaciones en USD. Campo 1 de IRS W-2 1234567.89
FederalIncomeTaxWithheld Número Impuestos federales sobre ingresos retenidos en USD. Campo 2 de IRS W-2 1234567.89
SocialSecurityWages Número Importe de salarios de seguridad social en USD. Campo 3 de IRS W-2 1234567.89
SocialSecurityTaxWithheld Número Importe retenido del impuesto sobre la seguridad social en USD. Campo 4 de IRS W-2 1234567.89
MedicareWagesAndTips Número Salarios y propinas de Medicare en USD. Campo 5 de IRS W-2 1234567.89
MedicareTaxWithheld Número Importe retenido por impuestos de Medicare en USD. Campo 6 de IRS W-2 1234567.89
SocialSecurityTips Número Importe de las propinas de seguridad social en USD. Campo 7 de IRS W-2 1234567.89
AllocatedTips Número Propinas asignadas en USD. Campo 8 de IRS W-2 1234567.89
VerificationCode Número Código de verificación W-2. Campo 9 de IRS W-2 1234567.89
DependentCareBenefits Número Importe de los beneficios de asistencia a dependientes en USD. Campo 10 de IRS W-2 1234567.89
NonQualifiedPlans Número Importe de planes no calificados en USD. Campo 11 de IRS W-2 1234567.89
IsStatutoryEmployee String Parte del campo 13 del IRS W-2. Puede ser verdadero o falso true
IsRetirementPlan String Parte del campo 13 del IRS W-2. Puede ser verdadero o falso true
IsThirdPartySickPay String Parte del campo 13 del IRS W-2. Puede ser verdadero o falso true
Other String Contenido del campo 14 de IRS W-2 SALARIOS POR ENFERMEDAD SBJT A $511/DÍA LÍMITE 1356
StateTaxInfos Matriz Información relacionada con los impuestos estatales. contenido del campo W-2 de IRS de 15 a 17
LocaleTaxInfos Matriz Información relacionada con impuestos locales. Contenido del campo IRS W-2 de 18 a 20

Extracción de campos 1098

A continuación se muestran los campos extraídos de un formulario fiscal 1098 en la respuesta de salida JSON. También se admiten los formularios 1098-T y 1098-E.

Nombre Escribir Descripción Salida de ejemplo
TaxYear Número Año fiscal del formulario 2021
Prestatario Object Objeto que contiene el TIN, el nombre, la dirección y el número de cuenta del prestatario
Prestamista Object Objeto que contiene el TIN del prestamista, el nombre, la dirección y el teléfono
MortgageInterest Número Importe de interés hipoteca recibido de los pagadores/prestatarios (casilla 1) 1,234,567.89
OutstandingMortgagePrincipal Número Capital hipotecario pendiente (casilla 2) 1,234,567.89
MortgageOriginationDate Date Fecha de origen de la hipoteca (cuadro 3) 2022-01-01
OverpaidInterestRefund Número Importe de reembolso de los intereses pagados en exceso (casilla 4) 1,234,567.89
MortgageInsurancePremium Número Importe de la prima del seguro de hipoteca (casilla 5) 1,234,567.89
PointsPaid Número Puntos pagados en la compra de residencia principal (Cuadro 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String Es la dirección de la propiedad que protege la hipoteca de la misma manera que la dirección postal del pagador/prestatario (caja 7) true
PropertyAddress String Dirección o descripción de la propiedad que protege la hipoteca (cuadro 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Número Número de propiedades hipotecadas (cuadro 9) 1
Otros String Información adicional para informar al pagador (casilla 10)
RealEstateTax Número Impuesto sobre bienes raíces (casilla 1) 1,234,567.89
AdditionalAssessment String Valoraciones agregadas realizadas en la propiedad (cuadro 10) 1,234,567.89
MortgageAcquisitionDate date Fecha de adquisición de hipotecas (cuadro 11) 2022-01-01

Extracción de campos de 1099-NEC

A continuación se muestran los campos extraídos de un formulario fiscal 1099-NEC en la respuesta de salida JSON. También se admiten las otras variaciones de 1099.

Nombre Escribir Descripción Salida de ejemplo
TaxYear String Año fiscal extraído del formulario 1099-NEC. 2021
Payer Object Objeto que contiene el TIN del pagador, el nombre, la dirección y el número de teléfono
Recipient Object Objeto que contiene el TIN del destinatario, el nombre, la dirección y el número de cuenta
Box1 number Casilla 1 extraída del formulario 1099-NEC. 123456
Box2 boolean Casilla 2 extraída del formulario 1099-NEC. true
Box4 number Casilla 4 extraída del formulario 1099-NEC. 123456
StateTaxesWithheld array Impuestos estatales retenidos extraídos del formulario 1099-NEC (casillas 5, 6 y 7)

Formulario fiscal de extracción de campos 1040

A continuación se muestran los campos extraídos de un formulario fiscal 1040 en la respuesta de salida JSON. También se admiten las otras variaciones de 1040.

Nombre Escribir Descripción Salida de ejemplo
TaxPayer Object Objeto que contiene la información del contribuyente, como SSN, Apellidos y Dirección
Spouse Object Un objeto que contiene la información del cónyuge, como el número de seguridad social, el apellido y el nombre e iniciales
Dependents array Una matriz que contiene una lista de dependientes que incluye información como nombre, número de seguridad social y tipo de crédito
ThirdPartyDesignee object Objeto que contiene información sobre el destinatario de diseño de terceros
SignatureDetails object Objeto que contiene información sobre el firmante, como números de teléfono y correos electrónicos
PaidPreparer object Objeto que contiene información sobre el preparador.
FillingStatus Cadena Value puede ser una de noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse o multiSelection. single
FilingStatusDetails object Objeto que contiene información sobre el estado de presentación.
NameOfSpouseOrQualifyingPerson Cadena Nombre del cónyuge o persona apta extraída del formulario 1040. John Smith
PresidentialElectionCampaign Cadena El valor puede ser uno de noSelection, contribuyente, cónyuge o multiSelection. Contribuyente
PresidentialElectionCampaignDetails object Objeto que contiene detalles sobre la campaña electoral presidencial.
DigitalAssets Cadena El valor puede ser una de noSelection, sí, no o multiSelection.
DigitalAssetsDetails object Objeto que contiene detalles sobre los recursos digitales.
ClaimStatus Cadena El valor puede ser uno de noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien o multiSelection. taxpayerAsDependent
ClaimStatusDetails object Objeto que contiene detalles sobre el estado de la notificación.
TaxpayerAgeBlindness Cadena El valor puede ser una de noSelection, above64, blind o multiSelection. above64
TaxPayerAgeBlindnessDetails object Objeto que contiene detalles sobre la invidencia de la edad del contribuyente.
SpouseAgeBlindness Cadena El valor puede ser una de noSelection, above64, blind o multiSelection. above64
TaxPayerAgeBlindnessDetails object Objeto que contiene detalles sobre la invidencia de la edad del cónyuge.
MoreThanFourDependents boolean Más de cuatro dependientes extraídos del formulario 1040. true
Box1a number Casilla 1a extraída de 1040. 123456
En función de la estructura JSON proporcionada y convertirlo en el mismo formato de tabla que se solicitó, el resultado es el siguiente:
Box1b number Casilla 1b extraída de 1040. 123456
Box1c number Casilla 1c extraída de 1040. 123456
Box1d number Casilla 1d extraída de 1040. 123456
Box1e number Casilla 1e extraída de 1040. 123456
Box1f number Casilla 1f extraída de 1040. 123456
Box1g number Casilla 1g extraída de 1040. 123456
Box1h number Casilla 1h extraída de 1040. 123456
Box1i number Casilla 1i extraída de 1040. 123456
Box1z number Casilla 1z extraída de 1040. 123456
Box2a number Casilla 2a extraída de 1040. 123456
Box2b number Casilla 2b extraída de 1040. 123456
Box3a number Casilla 3a extraída de 1040. 123456
Box3b number Casilla 3b extraída de 1040. 123456
Box4a number Casilla 4a extraída de 1040. 123456
Box4b number Casilla 4b extraída de 1040. 123456
Box5a number Casilla 5a extraída de 1040. 123456
Box5b number Casilla 5b extraída de 1040. 123456
Box6a number Casilla 6a extraída de 1040. 123456
Box6b number Casilla 6b extraída de 1040. 123456
Box6cCheckbox boolean Casilla 6c extraída de 1040. true
Box7Checkbox boolean Casilla 7 extraída de 1040. true
Box7 number Casilla 7 extraída de 1040. 123456
Box8 number Casilla 8 extraída de 1040. 123456
Box9 number Casilla 9 extraída de 1040. 123456
Box10 number Casilla 10 extraída de 1040. 123456
Box11 number Casilla 11 extraída de 1040. 123456
Box12 number Casilla 12 extraída de 1040. 123456
Box13 number Casilla 13 extraída de 1040. 123456
Box14 number Casilla 14 extraída de 1040. 123456
Box15 number Casilla 15 extraída de 1040. 123456
Box16FromForm string El valor puede ser una de las noSelection, 8814, 4972, o multiSelection. 8814
Box16FromFormDetails object Objeto que contiene detalles sobre la casilla 16
Box16OtherFormNumber string Casilla 16 Otro número de formulario extraído de 1040. 8888
Box16 number Casilla 16 extraída de 1040. 123456
Box17 number Casilla 17 extraída de 1040. 123456
Box18 number Casilla 18 extraída de 1040. 123456
Box19 number Casilla 19 extraída de 1040. 123456
Box20 number Casilla 20 extraída de 1040. 123456
Box21 number Casilla 21 extraída de 1040. 123456
Box22 number Casilla 22 extraída de 1040. 123456
Box23 number Casilla 23 extraída de 1040. 123456
Box24 number Casilla 24 extraída de 1040. 123456
Box25a number Casilla 25a extraída de 1040. 123456
Box25b number Casilla 25b extraída de 1040. 123456
Box25c number Casilla 25c extraída de 1040. 123456
Box25d number Casilla 25d extraída de 1040. 123456
Box26 number Casilla 26 extraída de 1040. 123456
Box27 number Casilla 27 extraída de 1040. 123456
Box28 number Casilla 28 extraída de 1040. 123456
Box29 number Casilla 29 extraída de 1040. 123456
Box31 number Casilla 31 extraída de 1040. 123456
Box32 number Casilla 32 extraída de 1040. 123456
Box33 number Casilla 33 extraída de 1040. 123456
Box34 number Casilla 34 extraída de 1040. 123456
Box35Checkbox boolean Casilla 35 extraída de 1040. true
Box35a number Casilla 35a extraída de 1040. 123456
Box35b number Casilla 35b extraída de 1040. 123456
Box35c string El valor puede ser una de las noSelection, check, savings o multiSelection. comprobar
Box35cDetails object Objeto que contiene detalles sobre la casilla 35c
Box35d number Casilla 35d extraída de 1040. 123456
Box36 number Casilla 36 extraída de 1040. 123456
Box37 number Casilla 37 extraída de 1040. 123456
Box38 number Casilla 38 extraída de 1040. 123456
HasAssignedThirdPartyDesignee string El valor puede ser una de noSelection, sí, no o multiSelection.
HasAssignedThirdPartyDesigneeDetails object Objeto que contiene información sobre lo que se seleccionó para el designado de terceros asignado

Los pares de clave/valor y los elementos de línea de los documentos fiscales extraídos se encuentran en la sección documentResults de la salida JSON.

Pasos siguientes