Inicio rápido: Creación de un conjunto de aptitudes en Azure Portal

En este inicio rápido, aprenderá la forma en que cualquier conjunto de habilidades de Búsqueda de Azure AI agrega reconocimiento óptico de caracteres (OCR), análisis de imágenes, detección de idiomas, traducción de texto y reconocimiento de entidades para crear contenido de búsqueda de texto en un índice de búsqueda.

Puede ejecutar el asistente Importar datos en el Azure Portal para aplicar habilidades que crean y transforman contenido textual durante la indexación. La entrada está constituida por los datos sin procesar, normalmente blobs de Azure Storage. La salida es un índice que permite búsquedas que contiene texto, títulos y entidades de imagen generados por IA. El contenido generado se puede consultar en el portal mediante Explorador de búsqueda.

Para prepararse, se crean algunos recursos y se cargan archivos de muestra antes de ejecutar el asistente.

Requisitos previos

Antes de comenzar, tiene que cumplir los siguientes requisitos previos:

Nota:

En este inicio rápido, se usan los servicios de Azure AI para las transformaciones de IA. Debido a que la carga de trabajo es tan pequeña, los servicios de Azure AI se usan en segundo plano para el procesamiento gratuito de hasta 20 transacciones. Puede completar este ejercicio sin tener que crear un recurso de varios servicios de Azure AI.

Configuración de los datos

En los pasos siguientes, configure un contenedor de blobs en Azure Storage para almacenar archivos de contenido heterogéneo.

  1. Descargue los datos de ejemplo que están formados por un pequeño conjunto de archivos de diferentes tipos.

  2. Inicie sesión en Azure Portal con su cuenta de Azure.

  3. Cree una cuenta de Azure Storage o busque una cuenta existente.

    • Para evitar cargos por el ancho de banda, elija la misma región que Azure AI Search.

    • Elija el tipo de cuenta StorageV2 (de uso general V2).

  4. En Azure Portal, abra la página Azure Storage y cree un contenedor. Puede usar el nivel de acceso predeterminado.

  5. En el contenedor, seleccione Cargar para cargar los archivos de ejemplo. Tenga en cuenta que dispone de una amplia gama de tipos de contenido, como imágenes y archivos de aplicación, en los que no se pueden realizar búsquedas de texto completo en sus formatos nativos.

    Screenshot of source files in Azure Blob Storage.

Ahora ya está preparado para continuar con el Asistente para la importación de datos.

Ejecutar el Asistente para la importación de datos

  1. Inicie sesión en Azure Portal con su cuenta de Azure.

  2. Busque su servicio de búsqueda y, en la página de información general, seleccione Importar datos en la barra de comandos para crear contenido en el que se puedan realizar búsquedas en cuatro pasos.

    Screenshot of the Import data command.

Paso 1: Creación de un origen de datos

  1. En Conectarse a los datos propios, seleccione Azure Blob Storage.

  2. Elija una conexión existente con la cuenta de almacenamiento y seleccione el contenedor que ha creado. Asigne un nombre al origen de datos y use los valores predeterminados para el resto.

    Screenshot of the data source definition page.

    Continúe en la siguiente página.

Si recibe un "Error al detectar el esquema de índice del origen de datos", el indexador que está alimentando el asistente no se puede conectar al origen de datos. Lo más probable es que el origen de datos tenga protecciones de seguridad. Pruebe las siguientes soluciones y vuelva a ejecutar el asistente.

Característica de seguridad Solución
El recurso requiere roles de Azure o sus claves de acceso están deshabilitadas Conectar como servicio de confianza o conectar mediante una identidad administrada
El recurso está detrás de un firewall de IP Crear una regla de entrada para Buscar y para Azure Portal
El recurso requiere una conexión de punto de conexión privado Conexión a un punto de conexión privado

Paso 2: agregar conocimientos cognitivos

Después, configure el enriquecimiento de inteligencia artificial para invocar a OCR, el análisis de imágenes y el procesamiento de lenguaje natural.

  1. En este inicio rápido, se usará el recurso Gratis de los servicios de Azure AI. Los datos de ejemplo incluyen 14 archivos, por lo que la cobertura gratuita de 20 transacciones de servicios de Azure AI es suficiente para este inicio rápido.

    Screenshot of the Attach Azure AI services tab.

  2. Expanda Agregar enriquecimientos y haga seis selecciones.

    Habilite el OCR para agregar aptitudes de análisis de imágenes a la página del asistente.

    Elija las aptitudes de reconocimiento de entidades (personas, organizaciones o ubicaciones) y análisis de imágenes (etiquetas, títulos).

    Screenshot of the skillset definition page.

    Continúe en la siguiente página.

Paso 3: Configuración del índice

Un índice incluye el contenido en el que se pueden realizar búsquedas y el Asistente para la importación de datos puede crear normalmente el esquema mediante el muestreo del origen de datos. En este paso, repase el esquema generado y revise la configuración.

En esta guía de inicio rápido, el asistente realiza un trabajo remarcable a la hora de configurar valores predeterminados razonables:

  • Los campos predeterminados se basan en las propiedades de los metadatos de los blobs existentes, además de los nuevos campos para la salida de enriquecimiento (por ejemplo, people, organizations, locations). Los tipos de datos se deducen de los metadatos y del muestreo de datos.

  • La clave de documento predeterminada es metadata_storage_path (se ha seleccionado porque el campo contiene valores únicos).

  • Los atributos predeterminados son Retrievable (Recuperable) y Searchable (Permite búsquedas). El atributo Searchable (Permite búsqueda) permite buscar texto completo en un campo. El atributo Retrievable (Recuperable) indica que un valor puede aparecer en los resultados. El asistente da por supuesto que desea que estos campos se puedan recuperar y permitan búsquedas porque los creó a través de un conjunto de aptitudes. Seleccione Filtrable si quiere usar campos en una expresión de filtro.

    Screenshot of the index definition page.

Marcar un campo como Retrievable no significa que el campo debe esté presente en los resultados de búsqueda. Puede controlar la composición de los resultados de la búsqueda si usa el parámetro de consulta select para especificar qué campos quiere incluir.

Continúe en la siguiente página.

Paso 4: configurar el indexador

El indexador rige el proceso de indexación. Asimismo, especifica el nombre del origen de datos, un índice de destino y la frecuencia de ejecución. El Asistente para la importación de datos crea varios objetos, incluido un indexador que se puede restablecer y ejecutar repetidamente.

  1. En la página Indexador, acepte el nombre predeterminado y seleccione Una vez.

    Screenshot of the indexer definition page.

  2. Seleccione Enviar para crear y ejecutar simultáneamente el indexador.

Supervisión de estado

Seleccione Indexadores en el panel de navegación izquierdo para supervisar el estado y, a continuación, seleccione el indexador. La indexación basada en aptitudes tarda más en completarse que la indexación basada en texto, especialmente en OCR y análisis de imágenes.

Screenshot of the indexer status page.

Para ver los detalles sobre el estado de ejecución, seleccione Correcto (o Erróneo) para ver los detalles de ejecución.

En esta demostración, hay varias advertencias: "Could not execute skill because one or more skill input was invalid." Le indican que un archivo PNG del origen de datos no proporciona una entrada de texto a Entity Recognition. Esta advertencia se produce porque la aptitud de OCR ascendente no reconoció ningún texto de la imagen y, por tanto, no pudo proporcionar una entrada de texto a la aptitud Reconocimiento de entidades descendente.

Las advertencias son comunes en la ejecución del conjunto de aptitudes. A medida que se familiarice con la forma en que las competencias iteran sobre sus datos, es posible que comience a notar patrones y a aprender qué advertencias es seguro ignorar.

Consulta en el Explorador de búsqueda

Después de crear un índice, use el Explorador de búsqueda para devolver los resultados.

  1. A la izquierda, seleccione Índices y, después, seleccione el índice. Explorador de búsqueda se encuentra en la primera pestaña.

  2. Escriba una cadena de búsqueda para consultar el índice como, por ejemplo, satya nadella. La barra de búsqueda acepta palabras clave, frases entre comillas y operadores ("Satya Nadella" +"Bill Gates" +"Steve Ballmer").

Los resultados se devuelven en formato JSON detallado, lo que puede ser difícil de leer, especialmente si se trata de documentos de gran tamaño. Algunas sugerencias para buscar en esta herramienta incluyen las siguientes técnicas:

  • Cambie a la vista JSON para especificar los parámetros que darán forma a los resultados.

  • Agregue select para limitar los campos de los resultados.

  • Agregue count para mostrar el número de coincidencias.

  • Use CTRL-F para buscar en el JSON las propiedades o los términos específicos.

    Screenshot of the Search explorer page.

Este es un texto JSON que puede pegar en la vista:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

Sugerencia

Las cadenas de consulta distinguen mayúsculas de minúsculas, por lo que si obtiene un mensaje de "campo desconocido", compruebe los campos o la definición de índice (JSON) para comprobar el nombre y el caso.

Puntos clave

Ahora ha creado su primer conjunto de aptitudes y ha aprendido los pasos básicos de la indexación basada en aptitudes.

Algunos conceptos clave que esperamos que haya tenido en cuenta incluyen las dependencias. Un conjunto de aptitudes está enlazado a un indexador y los indexadores son de Azure y específicos del origen. Aunque esta guía de inicio rápido usa Azure Blob Storage, también se pueden usar otros orígenes de datos de Azure. Para más información, consulte Indexadores de Azure AI Search.

Otro concepto importante es que las competencias operan sobre tipos de contenido y, cuando se trabaja con contenido heterogéneo, algunas entradas se omiten. Además, los archivos o campos grandes pueden superar los límites del indexador de su nivel de servicio. Es normal ver las advertencias cuando se producen estos eventos.

La salida se enruta hacia un índice de búsqueda y hay una asignación entre los pares nombre y valor que se crearon durante la indexación y los campos individuales del índice. De forma interna, el asistente configura un árbol de enriquecimiento y define un conjunto de aptitudes que establece el orden de las operaciones y el flujo general. Estos pasos están ocultos en el asistente, pero recuerde que estos conceptos serán importantes cuando comience a escribir el código.

Por último, aprendió que se puede comprobar el contenido consultando el índice. Al final, lo que proporciona Azure AI Search es un índice de búsqueda en el que se pueden realizar consultas mediante la sintaxis de consulta simple o extendida. Un índice que contenga campos enriquecidos es como cualquier otro. Si desea incorporar analizadores personalizados o estándar, perfiles de puntuación, sinónimos, navegación por facetas, búsquedas geográficas o cualquier otra característica de Azure AI Search, puede hacerlo.

Limpieza de recursos

Cuando trabaje con su propia suscripción, es una buena idea al final de un proyecto identificar si todavía se necesitan los recursos que ha creado. Los recursos que se dejan en ejecución pueden costarle mucho dinero. Puede eliminar los recursos de forma individual o eliminar el grupo de recursos para eliminar todo el conjunto de recursos.

Puede encontrar y administrar recursos en el portal, mediante el vínculo Todos los recursos o Grupos de recursos en el panel de navegación izquierdo.

Si ha usado un servicio gratuito, recuerde que está limitado a tres índices, indexadores y orígenes de datos. Puede eliminar elementos individuales en el portal para mantenerse por debajo del límite.

Pasos siguientes

Para crear estos conjuntos de aptitudes, puede usar el portal, el SDK de .NET o la API REST. Para ampliar sus conocimientos, pruebe la API REST con un cliente de REST y más datos de ejemplo.