Inicio rápido: el asistente Importar y vectorizar datos (versión preliminar)

Artículo
06/19/2024

Importante

El asistente para importar y vectorizar datos se encuentra en versión preliminar pública y sujeto a las Condiciones de uso suplementarias. De forma predeterminada, tiene como destino la API REST 2024-05-01-Preview.

Introducción a la vectorización integrada (versión preliminar) mediante el asistente para importar y vectorizar datos en Azure Portal. Este asistente llama a un modelo de inserción especificado por el usuario para vectorizar el contenido durante la indexación y para las consultas.

Necesita tres recursos de Azure y algunos archivos de ejemplo para completar este tutorial:

Azure Blob Storage o Microsoft Fabric con OneLake para los datos
Vectorizaciones de Azure: cuenta de varios servicios de Azure AI, Azure OpenAI o catálogo de modelos de Inteligencia artificial de Azure Studio
Búsqueda de Azure AI para indexación y consultas

Limitaciones de vista previa

Los datos de origen son archivos y accesos directos de Azure Blob Storage o OneLake mediante el modo de análisis predeterminado (un documento de búsqueda por blob o archivo).
El esquema de índice no es configurable. Los campos de origen incluyen "content" (fragmentado y vectorizado), "metadata_storage_name" para el título y un "metadata_storage_path" para la clave de documento, representada como parent_id en el índice.

La fragmentación no es configurable. La configuración efectiva es:

textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500

Para obtener menos limitaciones o más opciones de origen de datos, pruebe un enfoque de código base. Consulte el ejemplo de vectorización integrada para más información.

Requisitos previos

Suscripción a Azure. cree una de forma gratuita.
En el caso de los datos, use una cuenta de Azure Storage o almacén de lago de OneLake. Para Azure Storage, use una cuenta de rendimiento estándar (v2 de uso generalizado). Los niveles de acceso pueden ser frecuente, esporádico y frío.
Para la vectorización, tenga una cuenta de varios servicios de Azure AI o un punto de conexión de Azure OpenAI con implementaciones.

Para varios modos con Visión de Azure AI, cree un servicio de Azure AI en SwedenCentral, EastUS, NorthEurope, WestEurope,WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast. Compruebe la documentación para obtener una lista actualizada.

También puede usar el catálogo de modelos de Inteligencia artificial de Azure Studio (y el centro y el proyecto) con implementaciones de modelos.
Búsqueda de Azure AI, en la misma región que el servicio Azure AI. Se recomienda el nivel Básico o superior.
Las asignaciones de roles o las claves de API son necesarias para las conexiones para insertar modelos y orígenes de datos. En este artículo se proporcionan instrucciones para el acceso basado en roles.

Todos los recursos anteriores deben tener habilitado el acceso público para que los nodos del portal puedan acceder a ellos. De lo contrario, se produce un error en el asistente. Una vez que se ejecute el asistente, los firewalls y los puntos de conexión privados se pueden habilitar en los distintos componentes de integración para la seguridad.

Si los puntos de conexión privados ya están presentes y no se pueden deshabilitar, la opción alternativa es ejecutar el flujo de un extremo a otro correspondiente desde un script o programa desde una máquina virtual dentro de la misma red virtual que el punto de conexión privado. Este es un ejemplo de código de Python para la vectorización integrada. En el mismo repositorio de GitHub hay ejemplos en otros lenguajes de programación.

Un servicio de búsqueda gratuito admite el control de acceso basado en rol en conexiones a Búsqueda de Azure AI, pero no admite identidades administradas en conexiones salientes a Azure Storage o Visión de Azure AI. Esto significa que debe usar la autenticación basada en claves en conexiones gratuitas del servicio de búsqueda a otros servicios de Azure. Para conexiones más seguras, use el nivel básico o superior y configure una identidad administrada y asignaciones de roles para admitir solicitudes de Búsqueda de Azure AI en otros servicios de Azure.

Búsqueda de espacio

Si empieza con el servicio gratuito, está limitado a tres índices, tres orígenes de datos, tres conjuntos de aptitudes y tres indizadores. Asegúrese de que tiene espacio para elementos adicionales antes de empezar. Este inicio rápido crea uno de cada objeto.

Comprobación de la identidad del servicio

Se recomiendan asignaciones de roles para las conexiones de servicio de búsqueda a otros recursos.

En Azure AI Search, habilite el acceso basado en roles.
Configure el servicio de búsqueda para usar una identidad administrada asignada por el usuario o el sistema.

En las secciones siguientes, puede asignar la identidad administrada del servicio de búsqueda a roles de otros servicios. Los pasos para las asignaciones de roles se proporcionan cuando corresponda.

Comprobación de la clasificación semántica

Este asistente admite la clasificación semántica, pero solo en el nivel Básico y versiones posteriores, y solo si la clasificación semántica ya está habilitada en el servicio de búsqueda. Si usa un nivel facturable, compruebe si la clasificación semántica está habilitada.

Preparación de datos de ejemplo

Esta sección le dirige hacia los datos que funcionan para este inicio rápido.

Almacenamiento de Azure
OneLake

Inicie sesión en Azure Portal con su cuenta de Azure y vaya a la cuenta de Azure Storage.
En el panel de navegación, en Almacenamiento de datos, seleccione Contenedores.
Cree un contenedor y, a continuación, cargue los documentos PDF sobre el plan de mantenimiento que se usan para este inicio rápido.
En Control de acceso, asigne Lector de datos de Blob Storage en el contenedor a la identidad del servicio de búsqueda. O bien, obtenga una cadena de conexión a la cuenta de almacenamiento de la página Claves de acceso.

Inicie sesión en Power BI y cree un área de trabajo.
En Power BI, seleccione Áreas de trabajo en el menú izquierdo y abra el área de trabajo que creó.
Asigne permisos en el nivel de área de trabajo:
1. Seleccione Administrar acceso en el menú superior derecho.
2. Seleccione Agregar personas o grupos.
3. Escriba el nombre del servicio de búsqueda. Por ejemplo, si la dirección URL es https://my-demo-service.search.windows.net, el nombre del servicio de búsqueda es my-demo-service.
4. Seleccione un rol. El valor predeterminado es Espectador, pero necesita el rol de Colaborador para extraer datos en un índice de búsqueda.
Carga de los datos de ejemplo:
1. En el conmutador de Power BI situado en la parte inferior izquierda, seleccione Ingeniería de datos.
2. En la pantalla Ingeniería de datos, seleccione Lakehouse para crear uno.
3. Proporcione un nombre y, a continuación, seleccione Crear para crear y abrir el nuevo lakehouse.
4. Seleccione Cargar archivos y, a continuación, cargue los documentos PDF sobre el plan de mantenimiento que se usan para este inicio rápido.
Antes de salir del lakehouse, copie la dirección URL o obtenga los identificadores de área de trabajo y lakehouse para que pueda especificar el lakehouse en el asistente. La dirección URL tiene este formato: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering

Configuración de modelos de inserción

La vectorización integrada y el asistente para Importar y vectorizar datos se centran en modelos de inserción implementados durante la indexación para convertir texto e imágenes en vectores.

Puede usar los modelos de inserción implementados en Azure OpenAI, Azure AI Vision para inserciones replicadas o en el catálogo de modelos de Azure AI Studio.

Importar y vectorizar datos admite: text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. Internamente, el asistente usa la aptitud AzureOpenAIEmbedding para conectarse a Azure OpenAI.

Siga estas instrucciones para asignar permisos o obtener una clave de API para la conexión del servicio de búsqueda a Azure OpenAI. Debe configurar permisos o tener la información de conexión a mano antes de ejecutar el asistente.

Inicie sesión en Azure Portal con su cuenta de Azure y vaya al recurso de Azure OpenAI.
Configurar permisos:
1. Seleccione Control de acceso en el menú izquierdo.
2. Seleccione Agregar y, luego, Agregar asignación de roles.
3. En Roles de función de trabajo, seleccione Usuario OpenAI de Cognitive Services y, a continuación, Siguiente.
4. En Miembros, seleccione Identidad administrada y, a continuación, Miembros.
5. Filtre por suscripción y tipo de recurso (Servicios de búsqueda) y seleccione la identidad administrada del servicio de búsqueda.
6. Seleccione Revisar y asignar.
En la página Información general, seleccione Haga clic aquí para ver los puntos de conexión y Haga clic aquí para administrar claves si necesita copiar un punto de conexión o una clave de API. Puede pegar estos valores en el asistente si usa un recurso de Azure OpenAI con autenticación basada en claves.
En Administración de recursos e Implementaciones del modelo, seleccione Administrar implementaciones para abrir Azure AI Studio.
Copie el nombre de implementación de text-embedding-ada-002 u otro modelo de inserción admitido. Si no tiene un modelo de inserción, implemente uno ahora.

Inicio del asistente

Inicie sesión en Azure Portal con su cuenta de Azure y vaya al servicio de Azure AI Search.
En la página Información general, seleccione Importar y vectorizar datos.

Conectarse a los datos propios

El siguiente paso consiste en conectarse a un origen de datos que se usará para el índice de búsqueda.

En el asistente Importar y vectorizar datos, en la pestaña Conectarse a los datos, expanda la lista desplegable Origen de datos y seleccione Azure Blob Storage o OneLake.
Especifique la suscripción de Azure.
En OneLake, especifique la dirección URL del lakehouse o proporcione los identificadores de área de trabajo y lakehouse.
Para Azure Storage, seleccione la cuenta de almacenamiento y el contenedor que proporciona los datos.
Especifique si desea detección de eliminación.
Seleccione Siguiente.

Vectorizar el texto

En este paso, especifique el modelo de inserción que se usa para vectorizar los datos fragmentados.

Especifique si los modelos implementados se encuentran en Azure OpenAI, en el catálogo de modelos de Azure AI Studio o en un recurso multiproceso de Azure AI Vision existente en la misma región que Azure AI Search.
Especifique la suscripción de Azure.
En Azure OpenAI, seleccione el servicio, la implementación del modelo y el tipo de autenticación. Consulte Configuración de modelos de inserción para obtener más información.
En el catálogo de AI Studio, seleccione el proyecto, la implementación del modelo y el tipo de autenticación. Consulte Configuración de modelos de inserción para obtener más información.
En Vectorización de AI Vision, seleccione la cuenta. Consulte Configuración de modelos de inserción para obtener más información.
Active la casilla que confirma el impacto en la facturación del uso de estos recursos.
Seleccione Siguiente.

Vectorizar y enriquecer las imágenes

Si el contenido incluye imágenes, puede aplicar IA de dos maneras:

Use un modelo de inserción de imágenes compatibles desde el catálogo o elija la API de inserciones vectoriales de Azure AI Vision para vectorizar imágenes.
Use OCR para reconocer texto en imágenes.

Azure AI Search y el recurso de Azure AI deben estar en la misma región.

Especifique el tipo de conexión que debe realizar el asistente. Para la vectorización de imágenes, puede conectarse a modelos de inserción en Azure AI Studio o Azure AI Vision.
Especifique la suscripción.
Para el catálogo de modelos de Azure AI Studio, especifique el proyecto y la implementación. Consulte Configuración de un modelo de inserción para obtener más información.
Opcionalmente, puede descifrar imágenes binarias (por ejemplo, archivos de documentos escaneados) y usar OCR para reconocer texto.
Active la casilla que confirma el impacto en la facturación del uso de estos recursos.
Seleccione Siguiente.

Configuración avanzada

Opcionalmente, puede agregar clasificación semántica para volver a clasificar los resultados al final de la ejecución de la consulta, promocionando las coincidencias más pertinentes desde el punto de vista semántico en la parte superior.
Opcionalmente, especifique una programación del tiempo de ejecución para el indizador.
Seleccione Siguiente.

Ejecutar el asistente

En Revisar y crear, especifique un prefijo para los objetos creados cuando se ejecute el asistente. Un prefijo común le ayuda a mantenerse organizado.
A continuación, seleccione Crear para iniciar el asistente. Este paso crea los siguientes objetos:
- Conexión de origen de datos.
- Índice con campos vectoriales, vectorizadores, perfiles vectoriales, algoritmos vectoriales. No se le pedirá que diseñe ni modifique el índice predeterminado durante el flujo de trabajo del asistente. Los índices se ajustan a la API REST 2024-05-01-preview.
- Conjunto de aptitudes con la aptitud División de texto para la fragmentación y una aptitud de inserción para la vectorización. La aptitud de inserción es la aptitud AzureOpenAIEmbeddingModel para Azure OpenAI o la aptitud AML para el catálogo de modelos de Azure AI Studio.
- Indexador con asignaciones de campos y asignaciones de campos de salida (si procede).

Si no puede seleccionar el vectorizador de Azure AI Vision, asegúrese de tener un recurso de Azure AI Vision en una región compatible y de que la identidad administrada del servicio de búsqueda tenga permisos de Usuario OpenAI de Cognitive Services.

Si no puede avanzar a través del asistente porque otras opciones no están disponibles (por ejemplo, no puede seleccionar un origen de datos o un modelo de inserción), vuelva a las asignaciones de roles. Los mensajes de error indican que los modelos o implementaciones no existen, cuando, de hecho, el problema real es que el servicio de búsqueda no tiene permiso para acceder a ellos.

Comprobar los resultados

El Explorador de búsqueda acepta cadenas de texto como entrada y, a continuación, vectoriza el texto para la ejecución de consultas vectoriales.

En Azure Portal, en Administración de búsqueda e Índices, seleccione el índice que creó.
Opcionalmente, seleccione Opciones de consulta y oculte los valores vectoriales en los resultados de la búsqueda. Este paso facilita la lectura de los resultados de búsqueda.
Seleccionar vista JSON le permitirá escribir texto para la consulta vectorial en el parámetro de consulta vectorial texto.

Este asistente ofrece una consulta predeterminada que emite una consulta vectorial en el campo "vector", devolviendo los 5 vecinos más próximos. Si optó por ocultar valores vectoriales, la consulta predeterminada incluye una instrucción "select" que excluye el campo vectorial de los resultados de la búsqueda.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Reemplace el texto "*" por una pregunta relacionada con los planes de salud, como "qué plan tiene el deducible más bajo".
Seleccione Buscar para ejecutar la consulta.

Debería ver 5 coincidencias, donde cada documento es un fragmento del PDF original. El campo de título muestra de qué PDF procede el fragmento.

Para ver todos los fragmentos de un documento específico, agregue un filtro para el campo de título de un PDF específico:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Limpiar

Azure AI Search es un recurso facturable. Si ya no es necesario, elimínelo de la suscripción para evitar cargos.

Pasos siguientes

Este inicio rápido sirve de presentación del asistente para importar y vectorizar datos que crea todos los objetos necesarios para la vectorización integrada. Si desea explorar cada paso con detalle, pruebe los ejemplos de vectorización integrada.

Compartir vía