Inicio rápido: Vectorización de texto e imágenes mediante Azure Portal

Artigo
07/12/2024

Importante

El asistente para Importar y vectorizar datos se encuentra en versión preliminar pública y sujeto a las Condiciones de uso suplementarias. De forma predeterminada, tiene como destino la API REST 2024-05-01-Preview.

Este inicio rápido le ayuda dar sus primeros pasos en la vectorización integrada (versión preliminar) mediante el asistente para Importación y vectorización de datos en Azure Portal. Este asistente llama a un modelo de inserción especificado por el usuario para vectorizar el contenido durante la indexación y para las consultas.

Limitaciones de vista previa

Los datos de origen son archivos y accesos directos de Azure Blob Storage o OneLake mediante el modo de análisis predeterminado (un documento de búsqueda por blob o archivo).
El esquema de índice no es configurable. Los campos de origen incluyen content (fragmentado y vectorizado), metadata_storage_name para el título y metadata_storage_path para la clave del documento. Esta clave se representa como parent_id en el índice.

La fragmentación no es configurable. La configuración efectiva es:

textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500

Para obtener menos limitaciones o más opciones de origen de datos, pruebe un enfoque de código base. Para más información, consulte el ejemplo de vectorización integrada.

Requisitos previos

Suscripción a Azure. cree una de forma gratuita.
En el caso de los datos, Azure Blob Storage o almacén de lago de OneLake.

Azure Storage debe ser una cuenta de rendimiento estándar (v2 de uso general). Los niveles de acceso pueden ser frecuente, esporádico y frío.

No use Azure Data Lake Storage Gen2 (una cuenta de almacenamiento con un espacio de nombres jerárquico). Esta versión del asistente no admite Data Lake Storage Gen2.
Para la vectorización, necesita una cuenta de varios servicios de Azure AI o un punto de conexión de Azure OpenAI Service con implementaciones.

Para multimodal con Visión de Azure AI, cree un servicio de Azure AI en SwedenCentral, EastUS, NorthEurope, WestEurope,WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth o JapanEast. Compruebe la documentación para obtener una lista actualizada.

También puede usar el catálogo de modelos de Inteligencia artificial de Azure Studio (y el centro y el proyecto) con implementaciones de modelos.
Para la indexación y las consultas, Búsqueda de Azure AI. Debe estar en la misma región que el servicio de Azure AI. Se recomienda el nivel Básico o superior.
Asignaciones de roles o claves de API para conexiones a modelos de inserción y orígenes de datos. En este artículo se proporcionan instrucciones para el control de acceso basado en rol (RBAC).

Todos los recursos anteriores deben tener habilitado el acceso público para que los nodos del portal puedan acceder a ellos. De lo contrario, se produce un error en el asistente. Una vez que se ejecute el asistente, puede habilitar firewalls y puntos de conexión privados en los componentes de integración de cara a la seguridad. Para obtener más información, consulte Conexiones seguras en los asistentes de importación.

Si ya existen puntos de conexión privados y no se pueden deshabilitar, la opción alternativa es ejecutar el flujo de un extremo a otro correspondiente desde un script o programa en una máquina virtual. La máquina virtual debe estar en la misma red virtual que el punto de conexión privado. Este es un ejemplo de código de Python para la vectorización integrada. El mismo repositorio de GitHub tiene ejemplos en otros lenguajes de programación.

Un servicio de búsqueda gratuito admite RBAC en conexiones a Búsqueda de Azure AI, pero no admite identidades administradas en conexiones salientes a Azure Storage o Visión de Azure AI. Este nivel de compatibilidad significa que debe usar la autenticación basada en claves en las conexiones entre un servicio de búsqueda gratuito y otros servicios de Azure. Para las conexiones que son más seguras:

Use el nivel Básico o superior.
Configure una identidad administrada y asignaciones de roles para admitir solicitudes de Búsqueda de Azure AI en otros servicios de Azure.

Nota:

Si no puede avanzar a través del asistente porque otras opciones no están disponibles (por ejemplo, no puede seleccionar un origen de datos o un modelo de inserción), vuelva a las asignaciones de roles. Los mensajes de error indican que los modelos o implementaciones no existen, cuando, de hecho, el problema real es que el servicio de búsqueda no tiene permiso para acceder a ellos.

Búsqueda de espacio

Si empieza con el servicio gratuito, está limitado a tres índices, tres orígenes de datos, tres conjuntos de aptitudes y tres indizadores. Asegúrese de que tiene espacio para elementos adicionales antes de empezar. Este inicio rápido crea uno de cada objeto.

Comprobación de la identidad del servicio

Se recomiendan asignaciones de roles para las conexiones de servicio de búsqueda a otros recursos.

Búsqueda de Azure AI, habilite RBAC.
Configure el servicio de búsqueda para usar una identidad administrada asignada por el usuario o por el sistema.

En las secciones siguientes, puede asignar la identidad administrada del servicio de búsqueda a roles de otros servicios. En ellas se proporcionan pasos para las asignaciones de roles cuando corresponda.

Comprobación de la clasificación semántica

Este asistente admite la clasificación semántica, pero solo en el nivel Básico y versiones posteriores, y solo si la clasificación semántica ya está habilitada en el servicio de búsqueda. Si usa un nivel facturable, compruebe si la clasificación semántica está habilitada.

Preparación de datos de ejemplo

Esta sección le dirige hacia los datos que funcionan para este inicio rápido.

Almacenamiento de Azure
OneLake

Inicie sesión en Azure Portal con su cuenta de Azure y vaya a la cuenta de Azure Storage.
En el panel izquierdo, en Almacenamiento de datos, seleccione Contenedores.
Cree un contenedor y, a continuación, cargue los documentos PDF sobre el plan de mantenimiento que se usan para este inicio rápido.
En Control de acceso, asigne Lector de datos de Blob Storage en el contenedor a la identidad del servicio de búsqueda. O bien, obtenga una cadena de conexión a la cuenta de almacenamiento de la página Claves de acceso.

Inicie sesión en Power BI y cree un área de trabajo.
En Power BI, seleccione Áreas de trabajo en el menú izquierdo y abra el área de trabajo que ha creado.
Asigne permisos en el nivel de área de trabajo:
1. En el menú superior derecho, seleccione Administrar acceso.
2. Seleccione Agregar personas o grupos.
3. Escriba el nombre del servicio de búsqueda. Por ejemplo, si la dirección URL es https://my-demo-service.search.windows.net, el nombre del servicio de búsqueda es my-demo-service.
4. Seleccione un rol. El valor predeterminado es Espectador, pero necesita el rol de Colaborador para extraer datos en un índice de búsqueda.
Carga de los datos de ejemplo:
1. En el conmutador de Power BI de la parte inferior izquierda, seleccione Ingeniería de datos.
2. En el panel Ingeniería de datos, seleccione Almacén de lago para crear un almacén de lago.
3. Proporcione un nombre y, a continuación, seleccione Crear para crear y abrir el nuevo almacén de lago.
4. Seleccione Cargar archivos y, a continuación, cargue los documentos PDF del plan de mantenimiento que se usan para este inicio rápido.
Antes de salir del almacén de lago, copie la dirección URL u obtenga los identificadores del área de trabajo y el almacén de lago para que pueda especificar el almacén de lago en el asistente. La URL está en este formato: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering.

Configuración de modelos de inserción

La vectorización integrada y el asistente para Importar y vectorizar datos se centran en modelos de inserción implementados durante la indexación para convertir texto e imágenes en vectores.

Puede usar los modelos de inserción implementados en Azure OpenAI, en Visión de Azure AI para inserciones multimodales o en el catálogo de modelos de Inteligencia artificial de Azure Studio.

La función Importar y vectorizar datos admite text-embedding-ada-002, text-embedding-3-large y text-embedding-3-small. Internamente, el asistente usa la aptitud AzureOpenAIEmbedding para conectarse a Azure OpenAI.

Siga estas instrucciones para asignar permisos o obtener una clave de API para la conexión del servicio de búsqueda a Azure OpenAI. Debe configurar permisos o tener la información de conexión disponible antes de ejecutar el asistente.

Inicie sesión en Azure Portal con su cuenta de Azure y vaya al recurso de Azure OpenAI.
Configurar permisos:
1. En el menú izquierdo, seleccione Access Control.
2. Seleccione Agregar y, después, Agregar asignación de roles.
3. En Roles de función de trabajo, seleccione Usuario de OpenAI de Cognitive Services y, a continuación, elija Siguiente.
4. En Miembros, seleccione Identidad administrada y, a continuación, elija Miembros.
5. Filtre por suscripción y tipo de recurso (servicios de búsqueda) y seleccione la identidad administrada del servicio de búsqueda.
6. Seleccione Revisar y asignar.
En la página Información general, seleccione Hacer clic aquí para ver los puntos de conexión o Hacer clic aquí para administrar claves si necesita copiar un punto de conexión o una clave de API. Puede pegar estos valores en el asistente si usa un recurso de Azure OpenAI con autenticación basada en claves.
En Administración de recursos e Implementaciones del modelo, seleccione Administrar implementaciones para abrir Azure AI Studio.
Copie el nombre de implementación de text-embedding-ada-002 u otro modelo de inserción admitido. Si no tiene un modelo de inserción, implemente uno ahora.

Inicio del asistente

Inicie sesión en Azure Portal con su cuenta de Azure y vaya al servicio de Azure AI Search.
En la página Información general, seleccione Importar y vectorizar datos.

Conectarse a los datos propios

El siguiente paso consiste en conectarse a un origen de datos que se usará para el índice de búsqueda.

En el asistente para importar y vectorizar datos, en la página Configurar la conexión de datos, seleccione Azure Blob Storage o OneLake.
Especifique la suscripción de Azure.
En OneLake, especifique la dirección URL del almacén de lago o proporcione los identificadores del área de trabajo y el almacén de lago.

Para Azure Storage, seleccione la cuenta de almacenamiento y el contenedor que proporciona los datos.
Especifique si desea detección de eliminación.
Seleccione Siguiente.

Vectorizar el texto

En este paso, especifique el modelo de inserción para vectorizar datos fragmentados.

En la página Vectorizar el texto, especifique si los modelos implementados se encuentran en Azure OpenAI, en el catálogo de modelos de Inteligencia artificial de Azure Studio o en un recurso multimodal de Visión de Azure AI de la misma región que Búsqueda de Azure AI.
Especifique la suscripción de Azure.
Realice selecciones según el recurso:
1. En Azure OpenAI, seleccione el servicio, la implementación del modelo y el tipo de autenticación.
2. En el catálogo de AI Studio, seleccione el proyecto, la implementación del modelo y el tipo de autenticación.
3. En Vectorización de AI Vision, seleccione la cuenta.
Para más información, consulte Configuración de modelos de inserción anteriormente en este artículo.
Active la casilla que confirma el impacto en la facturación del uso de estos recursos.
Seleccione Siguiente.

Vectorizar y enriquecer las imágenes

Si el contenido incluye imágenes, puede aplicar IA de dos maneras:

Use un modelo de inserción de imágenes compatibles desde el catálogo o elija la API de inserciones vectoriales de Azure AI Vision para vectorizar imágenes.
Use el reconocimiento óptico de caracteres (OCR) para reconocer el texto de las imágenes.

Azure AI Search y el recurso de Azure AI deben estar en la misma región.

En la página Vectorizar las imágenes, especifique el tipo de conexión que debe realizar el asistente. Para la vectorización de imágenes, puede conectarse a modelos de inserción en Inteligencia artificial de Azure Studio o Visión de Azure AI.
Especifique la suscripción.
Para el catálogo de modelos de Inteligencia artificial de Azure Studio, especifique el proyecto y la implementación. Para más información, consulte Configuración de modelos de inserción anteriormente en este artículo.
Opcionalmente, puede descifrar imágenes binarias (por ejemplo, archivos de documentos escaneados) y usar OCR para reconocer texto.
Active la casilla que confirma el impacto en la facturación del uso de estos recursos.
Seleccione Siguiente.

Selección de opciones de configuración avanzada

En la página Configuración avanzada, puede agregar opcionalmente la clasificación semántica para volver a clasificar resultados al final de la ejecución de consultas. Cuando se vuelven a clasificar los resultados, las coincidencias que son más relevantes semánticamente se mueven arriba.
Opcionalmente, especifique una programación del tiempo de ejecución para el indexador.
Seleccione Siguiente.

Finalización del asistente

En la página Revisar la configuración, especifique un prefijo para los objetos que creará el asistente. Un prefijo común le ayuda a mantenerse organizado.
Seleccione Crear.

Cuando el asistente completa la configuración, crea los siguientes objetos:

Conexión de origen de datos.
Índice con campos vectoriales, vectorizadores, perfiles vectoriales, algoritmos vectoriales. No se puede modificar ni diseñar el índice predeterminado durante el flujo de trabajo del asistente. Los índices se ajustan a la API REST 2024-05-01-preview.
Conjunto de aptitudes con la aptitud División de texto para la fragmentación y una aptitud de inserción para la vectorización. La aptitud de inserción es la aptitud AzureOpenAIEmbeddingModel para Azure OpenAI o la aptitud AML para el catálogo de modelos de Inteligencia artificial de Azure Studio.
Indexador con asignaciones de campos y asignaciones de campos de salida (si procede).

Comprobar los resultados

El Explorador de búsqueda acepta cadenas de texto como entrada y, a continuación, vectoriza el texto para la ejecución de consultas vectoriales.

En Azure Portal, vaya a Administración de búsqueda>Índices y, a continuación, seleccione el índice que creó.
Opcionalmente, seleccione Opciones de consulta y oculte los valores vectoriales en los resultados de la búsqueda. Este paso facilita la lectura de los resultados de búsqueda.
En el menú Ver, seleccione Vista JSON para que pueda escribir texto para la consulta vectorial en el parámetro de consulta vectorial text.

El asistente ofrece una consulta predeterminada que emite una consulta vectorial en el campo vector y devuelve los cinco resultados más próximos. Si optó por ocultar los valores vectoriales, la consulta predeterminada incluye una instrucción select que excluye el campo vector de los resultados de la búsqueda.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Para el valor text, reemplace el asterisco (*) por una pregunta relacionada con los planes de mantenimiento, como Which plan has the lowest deductible?.
Seleccione Buscar para ejecutar la consulta.

Deben aparecer cinco coincidencias. Cada documento es un fragmento del PDF original. El campo title muestra de qué PDF procede el fragmento.

Para ver todos los fragmentos de un documento específico, agregue un filtro para el campo title de un PDF específico:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Limpiar

Azure AI Search es un recurso facturable. Si ya no es necesario, elimínelo de la suscripción para evitar cargos.

Paso siguiente

Este inicio rápido sirve de introducción al asistente para Importar y vectorizar datos que crea todos los objetos necesarios para la vectorización integrada. Si desea explorar cada paso con detalle, pruebe los ejemplos de vectorización integrada.

Compartir por