Inicio rápido: Creación de un conjunto de aptitudes de Azure Cognitive Search en Azure Portal

En este inicio rápido, obtendrá información sobre cómo el enriquecimiento con IA de Azure Cognitive Search permite agregar reconocimiento óptico de caracteres (OCR), análisis de imágenes, detección de idioma, traducción de texto y reconocimiento de entidades para crear contenido que permite búsquedas de texto en un índice de búsqueda.

Ejecutará el Asistente para la importación de datos en Azure Portal para aplicar aptitudes que transforman y enriquecen el contenido durante la indexación. La salida es un índice que permite búsquedas que contiene texto, títulos y entidades de imagen generados por IA. El contenido enriquecido se puede consultar en el portal mediante el Explorador de búsqueda.

Para prepararse, creará algunos recursos y cargará archivos de ejemplo antes de ejecutar el asistente.

Requisitos previos

Antes de comenzar, tiene que cumplir los siguientes requisitos previos:

Nota

Este inicio rápido usa Cognitive Services para IA. Dado que la carga de trabajo es tan pequeña, Cognitive Services se aprovecha en segundo plano del procesamiento gratuito de hasta 20 transacciones. Puede completar este ejercicio sin tener que crear un recurso de Cognitive Services.

Configuración de los datos

En los pasos siguientes, configure un contenedor de blobs en Azure Storage para almacenar archivos de contenido heterogéneo.

  1. Descargue los datos de ejemplo que están formados por un pequeño conjunto de archivos de diferentes tipos. Descomprima los archivos.

  2. Inicie sesión en Azure Portal con su cuenta de Azure.

  3. Cree una cuenta de Azure Storage o busque una cuenta existente.

    • Elija la misma región de Azure Cognitive Search para evitar cargos de ancho de banda.

    • Elija el tipo de cuenta StorageV2 (de uso general V2).

  4. En Azure Portal, abra la página Azure Storage y cree un contenedor. Puede usar el nivel de acceso público predeterminado.

  5. En Contenedor, haga clic en Cargar para cargar los archivos de ejemplo que descargó en el primer paso. Tenga en cuenta que dispone de una amplia gama de tipos de contenido, como imágenes y archivos de aplicación, en los que no se pueden realizar búsquedas de texto completo en sus formatos nativos.

    Captura de pantalla de los archivos de origen en Azure Blob Storage.

Ahora ya está preparado para continuar con el Asistente para la importación de datos.

Ejecutar el Asistente para la importación de datos

  1. Inicie sesión en Azure Portal con su cuenta de Azure.

  2. Busque su servicio de búsquedas y, en la página de información general, seleccione Importar datos en la barra de comandos para configurar el enriquecimiento cognitivo en cuatro pasos.

    Captura de pantalla del comando para importar datos.

Paso 1: Creación de un origen de datos

  1. En Conectarse a los datos propios, seleccione Azure Blob Storage.

  2. Elija una conexión existente con la cuenta de almacenamiento y seleccione el contenedor que ha creado. Asigne un nombre al origen de datos y use los valores predeterminados para el resto.

    Captura de pantalla de la página de definición del origen de datos.

    Continúe en la siguiente página.

Paso 2: Adición de aptitudes cognitivas

Después, configure el enriquecimiento de inteligencia artificial para invocar a OCR, el análisis de imágenes y el procesamiento de lenguaje natural.

  1. En este inicio rápido, se usará el recurso Free de Cognitive Services. Los datos de ejemplo se componen de 14 archivos, por lo que la cobertura gratuita de 20 transacciones de Cognitive Services es suficiente para este inicio rápido.

    Captura de pantalla de la pestaña Adjuntar Cognitive Services.

  2. Expanda Agregar enriquecimientos y haga seis selecciones.

    Habilite el OCR para agregar aptitudes de análisis de imágenes a la página del asistente.

    Elija las aptitudes de reconocimiento de entidades (personas, organizaciones o ubicaciones) y análisis de imágenes (etiquetas, títulos).

    Captura de pantalla de la página de definición del conjunto de aptitudes.

    Continúe en la siguiente página.

Paso 3: Configuración del índice

Un índice incluye el contenido en el que se pueden realizar búsquedas y el Asistente para la importación de datos puede crear normalmente el esquema mediante el muestreo del origen de datos. En este paso, repase el esquema generado y revise la configuración. A continuación se ofrece el esquema predeterminado que se creó para el conjunto de datos de blob de demostración.

En esta guía de inicio rápido, el asistente realiza un trabajo remarcable a la hora de configurar valores predeterminados razonables:

  • Los campos predeterminados se basan en las propiedades de los metadatos de los blobs existentes, además de los nuevos campos para la salida de enriquecimiento (por ejemplo, people, organizations, locations). Los tipos de datos se deducen de los metadatos y del muestreo de datos.

  • La clave de documento predeterminada es metadata_storage_path (se ha seleccionado porque el campo contiene valores únicos).

  • Los atributos predeterminados son Retrievable (Recuperable) y Searchable (Permite búsquedas). El atributo Searchable (Permite búsqueda) permite buscar texto completo en un campo. El atributo Retrievable (Recuperable) indica que un valor puede aparecer en los resultados. El asistente da por supuesto que desea que estos campos se puedan recuperar y permitan búsquedas porque los creó a través de un conjunto de aptitudes. Seleccione Filtrable si quiere usar campos en una expresión de filtro.

    Captura de pantalla de la página de definición del índice.

Marcar un campo como Retrievable no significa que el campo debe esté presente en los resultados de búsqueda. Puede controlar la composición de los resultados de la búsqueda si usa el parámetro de consulta $select para especificar qué campos quiere incluir.

Continúe en la siguiente página.

Paso 4: Configuración del indexador

El indexador rige el proceso de indexación. Asimismo, especifica el nombre del origen de datos, un índice de destino y la frecuencia de ejecución. El Asistente para la importación de datos crea varios objetos, incluido un indexador que se puede restablecer y ejecutar repetidamente.

  1. En la página Indexador, puede aceptar el nombre predeterminado y seleccionar Una vez para ejecutarlo de inmediato.

    Captura de pantalla de la página de definición del índice.

  2. Seleccione Enviar para crear y ejecutar simultáneamente el indexador.

Supervisión de estado

La indexación cognitiva de aptitudes tarda más en completarse que la indexación típica basada en texto, especialmente en OCR y análisis de imágenes. Para supervisar el progreso, vaya a la página de información general y seleccione Indexadores en medio de la página.

Captura de pantalla de la página de estado del indexador.

Para comprobar los detalles sobre el estado de ejecución, seleccione un indexador de la lista y, a continuación, seleccione Correcto (o Erróneo) para ver los detalles de ejecución.

En esta demostración, hay una advertencia: "No se pudo ejecutar la aptitud porque una o varias entradas de aptitud no eran válidas". Indica que un archivo PNG del origen de datos no proporciona una entrada de texto a Reconocimiento de entidades. Esta advertencia se produce porque la aptitud de OCR ascendente no reconoció ningún texto de la imagen y, por tanto, no pudo proporcionar una entrada de texto a la aptitud Reconocimiento de entidades descendente.

Las advertencias son comunes en la ejecución del conjunto de aptitudes. A medida que se familiarice con cómo las aptitudes recorren en iteración los datos, empezará a observar patrones y aprenderá qué advertencias puede omitir sin problemas.

Consulta en el Explorador de búsqueda

Después de crear un índice, ejecute consultas en Explorador de búsqueda para devolver los resultados.

  1. En la página del panel del servicio de búsqueda, seleccione Explorador de búsqueda en la barra de comandos.

  2. Seleccione Cambiar índice en la parte superior para seleccionar el índice que haya creado.

  3. Escriba una cadena de búsqueda para consultar el índice como, por ejemplo, search=Satya Nadella&$select=people,organizations,locations&$count=true.

Los resultados se devuelven en formato JSON detallado, lo que puede ser difícil de leer, especialmente si se trata de documentos de gran tamaño. Algunas sugerencias para buscar en esta herramienta incluyen las siguientes técnicas:

  • Anexe $select para limitar los campos devueltos en los resultados.
  • Use CTRL-F para buscar en el JSON las propiedades o los términos específicos.

Las cadenas de consulta distinguen mayúsculas de minúsculas, por lo que si obtiene un mensaje de "campo desconocido", compruebe los campos o la definición de índice (JSON) para comprobar el nombre y el caso.

Captura de pantalla de la página del explorador de búsqueda.

Puntos clave

Ahora ha creado su primer conjunto de aptitudes y ha aprendido conceptos importantes útiles para crear prototipos de una solución de búsqueda enriquecida mediante sus propios datos.

Algunos conceptos clave que esperamos que haya tenido en cuenta incluyen la dependencia de los orígenes de datos de Azure. Un conjunto de aptitudes está enlazado a un indexador y los indexadores son de Azure y específicos del origen. Aunque esta guía de inicio rápido usa Azure Blob Storage, también se pueden usar otros orígenes de datos de Azure. Para más información, consulte Indexadores de Azure Cognitive Search.

Otro concepto importante es que las aptitudes operan sobre los tipos de contenido y, al trabajar con contenido heterogéneo, se omitirán algunas entradas. Además, los archivos o campos grandes pueden superar los límites del indexador de su nivel de servicio. Es normal ver las advertencias cuando se producen estos eventos.

La salida se dirige a un índice de búsqueda y hay una asignación entre los pares nombre y valor que se crearon durante la indexación y los campos individuales del índice. De forma interna, el portal establece las anotaciones y define un conjunto de aptitudes que establece el orden de las operaciones y el flujo general. Estos pasos están ocultos en el portal, pero recuerde que estos conceptos serán importantes cuando comience a escribir el código.

Por último, aprendió que se puede comprobar el contenido consultando el índice. Al final, lo que proporciona Azure Cognitive Search es un índice de búsqueda que puede consultar mediante la sintaxis de consulta simple o totalmente extendida. Un índice que contenga campos enriquecidos es como cualquier otro. Si desea incorporar analizadores personalizados o estándar, perfiles de puntuación, sinónimos, navegación por facetas, búsquedas geográficas o cualquier otra característica de Azure Cognitive Search, puede hacerlo.

Limpieza de recursos

Cuando trabaje con su propia suscripción, es una buena idea al final de un proyecto identificar si todavía se necesitan los recursos que ha creado. Los recursos que se dejan en ejecución pueden costarle mucho dinero. Puede eliminar los recursos de forma individual o eliminar el grupo de recursos para eliminar todo el conjunto de recursos.

Puede encontrar y administrar recursos en el portal, mediante el vínculo Todos los recursos o Grupos de recursos en el panel de navegación izquierdo.

Si está usando un servicio gratuito, recuerde que está limitado a tres índices, indexadores y orígenes de datos. Puede eliminar elementos individuales en el portal para mantenerse por debajo del límite.

Pasos siguientes

Para crear estos conjuntos de aptitudes, puede usar el portal, el SDK de .NET o la API REST. Para ampliar sus conocimientos, pruebe la API REST con Postman y más datos de ejemplo.