Crear un indexador en Azure AI Search
Este artículo se centra en los pasos básicos de creación de un indexador. Según el origen de datos y el flujo de trabajo, puede ser necesaria una mayor configuración.
Puede usar un indizador para automatizar la importación y la indexación de datos en Búsqueda de Azure AI. Un indexador es un objeto con nombre en un servicio de búsqueda que se conecta a un origen de datos externo de Azure, lee los datos y lo pasa a un motor de búsqueda para la indexación. El uso de indexadores reduce, si se está usando un origen de datos compatible, significativamente la cantidad y la complejidad del código que se debe escribir.
Los indizadores admiten dos flujos de trabajo:
Indexación basada en texto: extracción de cadenas y metadatos de contenido de texto para escenarios de búsqueda de texto completo.
Indización basada en aptitudes: usar aptitudes integradas o personalizadas que agregan aprendizaje automático integrado para el análisis de imágenes y grandes volúmenes de contenido no diferenciado, extrayendo o infiriendo el texto y la estructura. La indexación basada en aptitudes permite la búsqueda en contenido que no es fácil detectar mediante búsquedas de texto completo. Para obtener más información, consulta Enriquecimiento con IA en Azure AI Search.
Requisitos previos
Un origen de datos compatible que contenga el contenido que quiere ingerir.
Un origen de datos de indexador que configure una conexión a datos externos.
Un índice de búsqueda que pueda aceptar datos entrantes.
No supere los límites máximos para el nivel de servicio. El nivel Gratis permite tres objetos de cada tipo y de 1 a 3 minutos de procesamiento del indizador, o de 3 a 10 minutos si hay un conjunto de aptitudes.
Patrones del indexador
Cuando se crea un indizador, la definición sigue uno de estos dos patrones: indexación basada en texto o indexación basada en aptitudes. Los patrones son los mismos, salvo por el hecho de que la indexación basada en aptitudes tiene más definiciones.
Ejemplo de indexador para la indexación basada en texto
La indexación basada en texto para la búsqueda de texto completo es el principal caso de uso de los indizadores. Para este flujo de trabajo, un indizador tiene el aspecto que se muestra en este ejemplo.
{
"name": (required) String that uniquely identifies the indexer,
"description": (optional),
"dataSourceName": (required) String indicating which existing data source to use,
"targetIndexName": (required) String indicating which existing index to use,
"parameters": {
"batchSize": null,
"maxFailedItems": 0,
"maxFailedItemsPerBatch": 0,
"base64EncodeKeys": false,
"configuration": {}
},
"fieldMappings": (optional) unless field discrepancies need resolution,
"disabled": null,
"schedule": null,
"encryptionKey": null
}
Los indizadores tienen los siguientes requisitos:
- Una propiedad
name
que identifica de forma única al indexador en la colección de indexadores. - Una propiedad
dataSourceName
que apunta a un objeto de origen de datos. Especifica una conexión a datos externos. - Una propiedad
targetIndexName
que apunta al índice de búsqueda de destino.
Otros parámetros son opcionales y modifican comportamientos en tiempo de ejecución, como el número de errores que se aceptan antes de que se produzca un error en todo el trabajo. Los parámetros necesarios se especifican en todos los indexadores y se documentan en la referencia de la API de REST.
Los indexadores específicos del origen de datos para blobs, SQL y Azure Cosmos DB proporcionan parámetros configuration
adicionales para comportamientos específicos del origen. Por ejemplo, si el origen es Blob Storage, puede establecer un parámetro que filtre las extensiones de los archivos, como por ejemplo:
"parameters" : { "configuration" : { "indexedFileNameExtensions" : ".pdf,.docx" } }
Si el origen es Azure SQL, puede establecer un parámetro de tiempo de espera de consulta.
Las asignaciones de campos sirven para asignar explícitamente campos de origen a destino cuando existen discrepancias de nombre o de tipo entre un campo del origen de datos y un campo en el índice de búsqueda.
De manera predeterminada, un indexador se ejecuta inmediatamente cuando lo crea en el servicio de búsqueda. Si no quiere que se ejecute el indizador, establezca disabled
en true al crear el indizador.
También puede especificar una programación o establecer una clave de cifrado para el cifrado complementario de la definición del indexador.
Ejemplo de indexador para la indexación basada en aptitudes
La indexación basada en aptitudes usa el enriquecimiento de la IA para procesar el contenido que no se puede buscar en su forma bruta. Se aplican todas las propiedades y parámetros anteriores, pero las siguientes propiedades adicionales son específicas del enriquecimiento de IA: skillSetName
, cache
, outputFieldMappings
.
{
"name": (required) String that uniquely identifies the indexer,
"dataSourceName": (required) String, provides raw content that will be enriched,
"targetIndexName": (required) String, name of an existing index,
"skillsetName" : (required for AI enrichment) String, name of an existing skillset,
"cache": {
"storageConnectionString" : (required if you enable the cache) Connection string to a blob container,
"enableReprocessing": true
},
"parameters": { },
"fieldMappings": (optional) Maps fields in the underlying data source to fields in an index,
"outputFieldMappings" : (required) Maps skill outputs to fields in an index,
}
El enriquecimiento con IA tiene su propia área temática y está fuera del ámbito de este artículo. Para más información, empiece por Enriquecimiento de IA, Conjuntos de aptitudes en Búsqueda de Azure AI, Crear un conjunto de aptitudes, Asignar campos de salida enriquecidos y Habilitar el almacenamiento en caché para el enriquecimiento de IA.
Preparación de datos externos
Los indexadores funcionan con conjuntos de datos. Cuando se ejecuta un indexador, se conecta al origen de datos, recupera los datos del contenedor o carpeta y, opcionalmente, los serializa en JSON antes de pasarlos al motor de búsqueda para la indexación. En esta sección, se describen los requisitos de los datos entrantes para la indexación basada en texto.
Datos de origen | Tareas |
---|---|
Documentos JSON | Asegúrese de que la estructura o la forma de los datos entrantes se corresponda con el esquema del índice de búsqueda. La mayoría de los índices de búsqueda son bastante planos, es decir, la colección de campos consta de campos en el mismo nivel. Sin embargo, las estructuras jerárquicas o anidadas son posibles a través de campos y colecciones complejos. |
Relacional | Proporcione los datos como un conjunto de filas aplanado, en el que cada fila se convierte en un documento de búsqueda total o parcial en el índice. Para acoplar los datos relacionales a un conjunto de filas, debe crear una vista SQL, o bien crear una consulta que devuelva los registros primarios y secundarios de la misma fila. Por ejemplo, el conjunto de datos del ejemplo de hoteles integrado es una base de datos SQL que tiene 50 registros (uno para cada hotel), vinculados a los registros de las habitaciones de una tabla relacionada. La consulta que acopla los datos colectivos a un conjunto de filas inserta toda la información de las habitaciones en los documentos JSON de cada registro del hotel. La información de las habitaciones insertada la genera una consulta que usa una cláusula FOR JSON AUTO. Para más información sobre esta técnica, consulte el apartado Definición de una consulta que devuelve JSON insertado. Este es solo un ejemplo; puedes encontrar otros enfoques que producirán el mismo resultado. |
Archivos | Los indizadores generalmente crean un documento de búsqueda para cada archivo, donde el documento de búsqueda consta de campos para contenido y metadatos. En función del tipo de archivo, el indizador a veces puede analizar un archivo en varios documentos de búsqueda. Por ejemplo, en un archivo CSV, cada fila puede convertirse en un documento de búsqueda independiente. |
Recuerda que solo es necesario extraer datos que se pueden buscar y filtrar:
- Los datos que se pueden buscar son texto
- Los datos filtrables son alfanuméricos
Azure AI Search no puede realizar búsquedas en datos binarios en ningún formato, pero puede extraer y deducir descripciones de texto de los archivos de imagen (consulta Enriquecimiento con IA) para crear contenido en el que se puedan realizar búsquedas. Del mismo modo, los modelos de lenguaje natural pueden analizar y desglosar textos grandes para buscar estructuras o información relevante, lo que genera contenido nuevo que se puede agregar a un documento de búsqueda.
Dado que los indexadores no solucionan problemas de datos, es posible que se necesiten otras formas de limpieza o manipulación de datos. Para más información, consulte la documentación del producto de Azure Database.
Preparación de un origen de datos
Los indizadores requieren un origen de datos que especifique el tipo, el contenedor y la conexión.
Asegúrese de que usa un tipo de origen de datos compatible.
Definición de Crear un origen de datos. Los orígenes de datos siguientes son algunos de los orígenes más usados con más frecuencia:
Si el origen de datos es una base de datos, como Azure SQL o Cosmos DB, habilite el seguimiento de cambios. Azure Storage tiene un seguimiento de cambios integrado a través de la propiedad
LastModified
en cada blob, archivo y tabla. En los vínculos de los distintos orígenes de datos se explica qué métodos de seguimiento de cambios son compatibles con los indexadores.
Preparación de un índice
Los indizadores también requieren un índice de búsqueda. Recuerde que los indexadores pasan datos al motor de búsqueda para la indexación. Del mismo modo que los indexadores tienen propiedades que determinan el comportamiento de la ejecución, un esquema de índice tiene propiedades que influyen considerablemente en la forma en que se indexan las cadenas (solo se analizan y acortan las cadenas).
Comience con Crear un índice de búsqueda.
Configure la colección de campos y los atributos de campo.
Los campos son los únicos receptores de contenido externo. En función de cómo se les asignen atributos en el esquema, los valores de cada campo se analizan, se tokenizan o se almacenan como cadenas textuales para filtros, búsqueda aproximada y consultas de escritura anticipada.
Los indizadores pueden asignar automáticamente campos de origen a campos de índice de destino cuando los nombres y tipos son equivalentes. Si un campo no se puede asignar implícitamente, recuerde que puede definir una asignación de campos explícita que indique al indizador cómo enrutar el contenido.
Revise las asignaciones del analizador en cada campo. Los analizadores pueden transformar cadenas. Por lo tanto, las cadenas indexadas pueden ser diferentes de las que ha pasado. Los efectos de los analizadores se pueden ver mediante Analizar texto (REST). Para más información acerca de los analizadores, consulte el artículo sobre analizadores para el procesamiento de texto.
Durante la indexación, un indizador solo comprueba los tipos y nombres de campo. No hay ningún paso de validación que asegure que el contenido entrante sea correcto para el campo de búsqueda correspondiente en el índice.
Creación de un indexador
Cuando estés listo para crear un indexador en un servicio de búsqueda remota, necesitarás un cliente de búsqueda. Un cliente de búsqueda puede ser Azure Portal, un cliente REST o código que cree instancias de un cliente de indizador. Se recomienda Azure Portal o las API REST para realizar las primeras pruebas de desarrollo y de prueba de concepto.
Inicie sesión en Azure Portal y busque su servicio de búsqueda.
En la página Información general del servicio de búsqueda, elija entre dos opciones:
Asistente para la importación de datos: el asistente es único en el sentido de que crea todos los elementos necesarios. Otros enfoques requieren un origen de datos y un índice predefinidos.
Agregar indizador: un editor visual para especificar la definición de un indizador.
Ejecución del indexador
De manera predeterminada, un indexador se ejecuta inmediatamente cuando lo crea en el servicio de búsqueda. Puede invalidar este comportamiento estableciendo disabled
en true en la definición del indexador. La ejecución del indexador es el momento de la verdad en el que averiguará si hay problemas con las conexiones, las asignaciones de campos o la construcción del conjunto de habilidades.
Hay varias maneras de ejecutar un indexador:
Se ejecuta al crear o actualizar el indexador (valor predeterminado).
Se ejecuta a petición cuando no hay ningún cambio en la definición o precede al restablecimiento para la indexación completa. Para más información, consulte el artículo en el que se explican los procedimientos para ejecutar o restablecer indexadores.
Programe el procesamiento del indexador para invocar la ejecución a intervalos regulares.
La ejecución programada normalmente se implementa cuando se necesita indexación incremental para que pueda elegir los cambios más recientes. Por lo tanto, la programación depende de la detección de cambios.
Los indexadores son uno de los pocos subsistemas que realizan llamadas salientes abiertas a otros recursos de Azure. En términos de roles de Azure, los indexadores no tienen identidades independientes: una conexión del motor de búsqueda a otro recurso de Azure se realiza mediante la identidad administrada asignada por el usuario o el sistema de un servicio de búsqueda. Si el indexador se conecta a un recurso de Azure en una red virtual, debe crear un vínculo privado compartido para esa conexión. Para más información sobre las conexiones seguras, consulte Seguridad en la Búsqueda de Azure AI.
Comprobar los resultados
Supervise el estado del indexador para comprobar el estado. Una ejecución correcta puede incluir advertencias y notificaciones. Asegúrese de comprobar las notificaciones de estado correctas y con errores para obtener más información sobre el trabajo.
Si quiere comprobar el contenido, puede ejecutar consultas en el índice rellenado que devuelven documentos completos o campos seleccionados.
Detección de cambios y estado interno
Si el origen de datos admite la detección de cambios, un indizador puede detectar cambios subyacentes en los datos y procesar solo documentos nuevos o actualizados en cada ejecución del indizador, dejando el contenido sin cambios tal y como está. Si el historial de ejecución del indizador indica que una ejecución se realizó correctamente con 0/0 documentos procesados, significa que el indizador no encontró filas o blobs nuevos o modificados en el origen de datos subyacente.
La lógica de detección de cambios está integrada en las plataformas de datos. La forma en que un indizador admite la detección de cambios varía según el origen de datos:
Azure Storage tiene detección de cambios integrada, lo que significa que un indexador puede reconocer documentos nuevos y actualizados automáticamente. Blob Storage, Azure Table Storage y Azure Data Lake Storage Gen2 marcan cada actualización de blob o fila con una fecha y hora. Un indexador usa esta información automáticamente para determinar qué documentos se van a actualizar en el índice. Para más información sobre la detección de eliminaciones, consulte Detección de cambios y eliminaciones usando indizadores para Azure Storage.
Las tecnologías de base de datos en la nube proporcionan características opcionales de detección de cambios en sus plataformas. En estos orígenes de datos, la detección de cambios no es automática. Se deberá especificar en la definición del origen de datos qué directiva de detección de cambios se usa:
Los indexadores llevan un seguimiento del último documento que se procesó desde el origen de datos gracias a un valor de límite máximo interno. El marcador nunca se expone en la API, aunque internamente el indizador registra en dónde se detuvo. Cuando se reanuda la indexación, ya sea a través de una ejecución programada o una invocación a petición, el indizador consulta la marca de límite superior para continuar donde se quedó.
Si tiene que borrar ese valor de límite máximo para volver a realizar una indexación completa, puede usar la operación Restablecer indexador. Para realizar una nueva indexación más selectiva, use las operaciones Restablecer aptitudes o Restablecer documentos. A través de las API de restablecimiento, puede borrar el estado interno y vaciar la memoria caché si ha habilitado el enriquecimiento incremental. Para obtener más información sobre los antecedentes y la comparación de cada opción de restablecimiento, consulte Ejecución o restablecimiento de indizadores, aptitudes y documentos.