Novedades de Comprensión de contenidos de Azure AI

2025-06-09

El servicio Azure AI Content Understanding se actualiza de forma continua. Marque esta página para mantenerse al día con las notas de la versión, las mejoras de características y la documentación más reciente.

Mayo de 2025

La API REST de Comprensión de contenido 2025-05-01-preview de Azure AI ya está disponible. Esta actualización presenta las siguientes actualizaciones y funcionalidades mejoradas:

Modos de procesamiento

Con la 2025-05-01-preview versión, presentamos dos modos: standard y pro. El modo predeterminado para todos los analizadores es standard. Content Understanding pro mode agrega razonamiento, compatibilidad con varios documentos de entrada, la capacidad de configurar una base de conocimiento externa para vincular, enriquecer y validar. Estas características automatizan tareas complejas mediante la extensión de funcionalidades de extracción de campos para cubrir escenarios que anteriormente requerían código personalizado o esfuerzo humano.

El modo pro está limitado actualmente a los documentos como entradas, con compatibilidad con otros tipos de tipos de contenido próximamente. Los desafíos comunes que aborda el modo pro agregan un esquema entre distintos archivos de entrada, validan los resultados entre documentos y usan conocimientos externos para generar un esquema de salida. Obtenga más información sobre el modo pro.

Experiencia de AI Foundry

Con esta versión, las siguientes actualizaciones ya están disponibles para la experiencia de Content Understanding en Azure AI Foundry:

Se añadió compatibilidad para crear tareas en ambos modos, standard y pro, en la experiencia existente de Content Understanding. Ahora con el modo pro, tiene la capacidad de integrar sus propios datos de referencia y crear una tarea que ejecute el razonamiento de varios pasos en sus datos. Obtenga más información sobre los dos tipos de tareas en Uso de la comprensión de contenido de Azure AI en Azure AI Foundry.
Las experiencias de prueba ya están disponibles para el análisis general de documentos y el análisis de facturas. Pruebe estas características precompiladas en sus propios datos y empiece a obtener información sin tener que crear una tarea personalizada.

Clasificación y división de documentos

En esta versión se presenta una nueva API de clasificación. Esta API admite la clasificación y división lógica de un único archivo que contiene varios documentos con enrutamiento opcional a analizadores de extracción de campos. Puede crear un clasificador personalizado para dividir y clasificar un archivo en varios documentos lógicos y enrutar los documentos individuales a un modelo de extracción de campos de bajada en una sola llamada API.

Mejoras en el procesamiento de documentos

Se ha agregado compatibilidad para extraer tablas que abarcan varias páginas como una sola tabla lógica. Obtenga más información sobre las actualizaciones de extracción de estructuras en documentos.
Compatibilidad de marcas de selección con botones de radio y marca de verificación como caracteres unicode. Obtenga más información sobre las actualizaciones de extracción de estructuras en documentos.
Extracción de códigos de barras como parte de la extracción de contenido predeterminada junto con OCR. Obtenga más información sobre las actualizaciones de extracción de estructuras en documentos.
Mejoras en la puntuación de confianza con mejores resultados de puesta a tierra para campos extractivos.
Se ha ampliado la compatibilidad con el nuevo formato de archivo para los siguientes tipos de documento: docx, xslxpptxmsgemlrtfhtml, y . mdxml

Mejoras en el procesamiento de vídeo

Se ha agregado compatibilidad con campos de vídeo completos. Obtenga más información sobre las mejoras de procesamiento de vídeo.
Se ha agregado compatibilidad con los capítulos de vídeo a través de la segmentación. Obtenga más información sobre las mejoras de procesamiento de vídeo.
Se ha añadido soporte para la identificación de rostros en las miniaturas de caras extraídas. La identidad mejora la descripción y las tareas posteriores, tales como la búsqueda y la recuperación. Más información sobre la detección de caras en vídeos
Se ha añadido soporte para desactivar el desenfoque facial en la configuración del analizador. Obtenga más información sobre las mejoras de procesamiento de vídeo.
Mejoras en el procesamiento de audio
Se han agregado configuraciones regionales adicionales para la transcripción de audio. Obtenga más información sobre las funcionalidades de audio.
Se ha agregado compatibilidad con el procesamiento multilingüe de audio. Obtenga más información sobre las mejoras de control de idioma en audio.
Se ha aumentado el tamaño máximo de archivo admitido para ≤ 1 GB y la longitud de ≤ 4 horas. Obtenga más información sobre los límites del servicio de audio.

API de Reconocimiento Facial

Esta versión agrega nuevas funcionalidades de detección y reconocimiento de caras a Content Understanding. Puede crear un directorio de caras y personas. El directorio se puede usar para reconocer las caras en el contenido procesado. Obtenga más información sobre cómo detectar y reconocer caras.

Abril de 2025

2024-12-01-preview La API REST presenta las siguientes actualizaciones y funcionalidades mejoradas:

Mejoras generales. Para todas las modalidades, para solicitar un aumento de los límites actuales, póngase en contacto con nosotros en cu_contact@microsoft.com.
Plantilla de factura precompilada. La plantilla de factura ahora es personalizable. Una vez que seleccione la plantilla de factura, puede acceder a una lista predefinida de campos que se pueden adaptar a sus necesidades específicas agregando o quitando campos.
Campos generativos y de clasificación
- Ahora se admiten campos generativos y clasificados para la modalidad de documentos.
- Ahora puede usar el punto de conexión REST o Studio para definir campos generativos y de clasificación con salidas de captura cero para documentos. Esta característica permite generar resúmenes, inferir resultados y clasificar documentos individuales en varios archivos.
- Se pueden invocar varios analizadores para procesar archivos individuales.
Modalidad de vídeo
- Mejora de la latencia para el procesamiento de vídeo, lo que da lugar a una latencia del 50 % menor.
- Tipos de salida expandidos para agregar compatibilidad con Object y Arrays
- Se ha agregado compatibilidad con los archivos de vídeo proporcionados a través de la ingesta de direcciones URL presignadas de S3.
- Se ha mejorado la segmentación de vídeo para segmentar semánticamente, especialmente cuando no existe ninguna edición de captura en el vídeo.
Modalidad de audio
- La API ahora admite el tipo de campo: group.
Modalidad de texto
- Compatibilidad de API con el tipo de campo: group.
Mejoras en la experiencia del usuario
- Se ha agregado funcionalidad para descargar y cargar configuraciones de esquema durante la definición del esquema.
- Procesos mejorados de creación de etiquetas y analizadores de archivos.
- Agregue ejemplos de código de descarga para la configuración rápida agregada.

Noviembre de 2024

¡Bienvenido! La versión de la API de Azure AI Content Understanding 2024-12-01-preview ahora está en versión preliminar pública. Esta versión permite generar una representación estructurada del contenido adaptado a tareas específicas de diversas modalidades o formatos. Content Understanding usa un esquema definido para extraer contenido adecuado para su procesamiento por modelos de lenguaje grandes y aplicaciones posteriores.