Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Se aplica a: Azure Logic Apps (Consumo + Estándar)
A veces, tiene que convertir contenido en tokens, que son palabras o fragmentos de caracteres, o dividir un documento grande en fragmentos más pequeños antes de poder usar este contenido con acciones específicas. Por ejemplo, las acciones Búsqueda de Azure AI o Azure OpenAI esperan entrada tokenizada y solo pueden controlar un número limitado de tokens.
En estos escenarios, use las acciones de Operaciones de datos denominadas Analizar un documento y Texto fragmento en el flujo de trabajo de la aplicación lógica. Estas acciones transforman respectivamente el contenido, como un documento PDF, un archivo CSV, Excel archivo, etc., en una salida de cadena con token y, a continuación, dividen la cadena en partes, en función del número de tokens. A continuación, puede hacer referencia a estas salidas y usarlas con acciones posteriores en el flujo de trabajo.
Sugerencia
Para más información, puede hacer Azure Copilot estas preguntas:
- ¿Qué es un token en IA?
- ¿Qué es la entrada tokenizada?
- ¿Qué es la salida de cadena tokenizada?
- ¿Qué es el análisis en IA?
- ¿Qué es la fragmentación en IA?
Para buscar Azure Copilot, en la barra de herramientas Azure, seleccione Copilot.
En esta guía se muestra cómo agregar y configurar acciones para analizar documentos y fragmentar texto en el flujo de trabajo.
Limitaciones y problemas conocidos
En Flujos de trabajo de consumo, la acción Parse un documento solo está disponible en las siguientes regiones de Azure:
- Australia East
- Sur de Brasil
- Este de Asia
- East US
- Este de EE. UU. 2
- Norte de Europa
- Centro-sur de EE. UU.
- Sudeste de Asia
- Centro de Suecia
- Oeste de EE. UU. 2
- Oeste de EE. UU. 3
- Sur de Reino Unido
Estas regiones proporcionan conexiones de origen de datos, seguimiento de documentos, fragmentación de documentos, compatibilidad con modelos de incrustación de Azure OpenAI, y soporte de indexación integrado para extraer datos. Para obtener más información, consulte Indexación automática en la búsqueda de IA con flujos de trabajo en Azure Logic Apps.
Actualmente, las accionesAnalizar un documento y Texto fragmento no admiten archivos host, por ejemplo, archivos binarios de sistema central y de rango medio, como archivos del método de acceso de almacenamiento virtual (VSAM). Sin embargo, si está trabajando con flujos de trabajo estándar, puede usar la acción integradaArchivo Host IBM denominada Analizar contenido de archivo Host en su lugar.
Requisitos previos
Una cuenta y una suscripción de Azure. Si no tiene una suscripción de Azure, signe para obtener una cuenta gratuita de Azure.
Un flujo de trabajo de aplicación lógica estándar o consumo con un desencadenador existente porque el Analizar un documento y operaciones de Texto fragmento solo están disponibles como acciones. Asegúrese de que la acción que recupera el contenido que desea analizar o fragmentar precede a estas operaciones de datos.
Análisis de un documento
La acción Parse un documento convierte contenido, como un documento PDF, un archivo CSV, Excel archivo, etc., en una cadena tokenizada. En este ejemplo, supongamos que el flujo de trabajo comienza con el desencadenador De solicitud denominado Cuando se recibe una solicitud HTTP. Este desencadenador espera a recibir una solicitud HTTP enviada desde otro componente, como una función de Azure, otro flujo de trabajo de aplicación lógica, etc. La solicitud HTTP incluye la dirección URL de un nuevo documento cargado que está disponible para que el flujo de trabajo recupere y analice. Una acción de HTTP sigue inmediatamente el desencadenador y envía una solicitud HTTP a la dirección URL del documento y devuelve con el contenido del documento desde su ubicación de almacenamiento.
Si usa otros orígenes de contenido, como Azure Blob Storage, SharePoint, OneDrive, Sistema de archivos, FTP, etc., puede comprobar si los desencadenadores están disponibles para estos orígenes. También puede comprobar si hay acciones disponibles para recuperar el contenido de estos orígenes. Para más información, consulte Operaciones integradasy conectores administrados .
En el portal de Azure, abra su recurso y flujo de trabajo de Logic App en el diseñador.
En el desencadenador y las acciones existentes, siga estos pasos generales para agregar la acciónOperaciones de datos denominada Analizar un documento al flujo de trabajo.
En el diseñador, seleccione la acción Analizar un documento.
Una vez que se abra el panel de información de acción, en la pestaña Parámetros , en la propiedad contenido del documento, especifique el contenido que se va a analizar siguiendo estos pasos:
Seleccione dentro del cuadro Contenido del documento.
Aparecen las opciones de la lista de contenido dinámico (icono de rayo) y el editor de expresiones (icono de función).
Para elegir la salida de una acción anterior, seleccione la lista de contenido dinámico.
Para crear una expresión que manipule la salida de una acción anterior, seleccione el editor de expresiones.
En este ejemplo se continúa seleccionando el icono de rayo de la lista de contenido dinámico.
Una vez que se abra la lista de contenido dinámico, seleccione la salida que desea de una operación anterior.
En este ejemplo, la acciónAnalizar un documento hace referencia a la salida del Cuerpo de la acción de HTTP.
La salida Cuerpo aparece ahora en el cuadro Contenido del Documento:
En la acciónAnalizar un documento, agregue las acciones que desea trabajar con la salida de cadena con token, por ejemplo, Fragmento de texto, que esta guía describe más adelante.
Análisis de un documento: referencia
Parámetros
| Nombre | Value | Tipo de datos | Descripción | Límite |
|---|---|---|---|---|
| Contenido de documento | < content-to-parse> | Any | Contenido que se va a analizar. | None |
Salidas
| Nombre | Tipo de datos | Descripción |
|---|---|---|
| Texto del resultado analizado | Matriz de cadena | Una matriz de cadenas. |
| Resultado analizado | Object | Objeto que contiene todo el texto analizado. |
Fragmento de texto
La acción Fragmento de texto divide el contenido en partes más pequeñas para que las acciones posteriores se usen más fácilmente en el flujo de trabajo actual. Los pasos siguientes se basan en el ejemplo de la sección Parse de un documento y dividen la salida de la cadena de token para su uso con operaciones de inteligencia artificial Azure que esperan fragmentos de contenido tokenizados y pequeños.
Nota:
Las acciones anteriores que usan la fragmentación no afectan a la acción de Texto de fragmento, ni tampoco afecta a la acción de texto de fragmento afecta a las acciones posteriores que usan la fragmentación.
En el portal de Azure, abra su recurso y flujo de trabajo de Logic App en el diseñador.
En la acción Analizar un documento, siga estos pasos generales para agregar la acción Operaciones de datos denominada Fragmento de texto .
En el diseñador, seleccione la acción Fragmento de texto.
Una vez que se abra el panel de información de acción, en la pestaña Parámetros, para la propiedad estrategia de fragmentación, seleccione TokenSize como método de fragmentación, si aún no está seleccionado.
Estrategia Descripción TokenSize Divida el contenido especificado, en función del número de tokens. Después de seleccionar la estrategia, seleccione dentro del cuadro Texto para especificar el contenido para la fragmentación.
Aparecen las opciones de la lista de contenido dinámico (icono de rayo) y el editor de expresiones (icono de función).
Para elegir la salida de una acción anterior, seleccione la lista de contenido dinámico.
Para crear una expresión que manipule la salida de una acción anterior, seleccione el editor de expresiones.
En este ejemplo se continúa seleccionando el icono de rayo de la lista de contenido dinámico.
Una vez que se abra la lista de contenido dinámico, seleccione la salida que desea de una operación anterior.
En este ejemplo, la acción Fragmento de texto hace referencia a la salida de texto del resultado analizado de la acciónAnalizar un documento.
El cuadro Texto ahora muestra la acción Resultado analizado salida:
Complete la configuración de la acción de Fragmento de texto, en función de la estrategia y el escenario seleccionados. Para obtener más información, consulte Fragmento de texto: referencia.
Ahora, cuando añada otras acciones que esperen y utilicen entradas tokenizadas, como las acciones de Azure AI, el contenido de la entrada se formatea para facilitar su consumo.
Fragmento de texto: referencia
Parámetros
| Nombre | Value | Tipo de datos | Descripción | Límites |
|---|---|---|---|---|
| Estrategia de fragmentación | TokenSize | Enumeración de cadena | Divida el contenido en función del número de tokens. Valor predeterminado: TokenSize |
No aplicable |
| Texto | < content-to-chunk> | Any | Contenido que se va a fragmentar. | Consulte Guía de referencia de configuración y límites |
| EncodingModel | < Método de codificación> | Enumeración de cadena | Modelo de codificación que se va a usar: - Valor predeterminado: cl100k_base (gpt4, gpt-3.5-turbo, gpt-35-turbo) - r50k_base (gpt-3) - p50k_base (gpt-3) - p50k_edit (gpt-3) - cl200k_base (gpt-4o) Para obtener más información, consulte OpenAI - Información general sobre los modelos. |
No aplicable |
| TokenSize | < max-tokens-per-chunk> | Entero | Número máximo de tokens por fragmento de contenido. Valor predeterminado: ninguno |
Mínimo: 1 Máximo: 8000 |
| PageOverlapLength | < número de caracteres superpuestos> | Entero | Número de caracteres del final del fragmento anterior que se va a incluir en el fragmento siguiente. Esta configuración le ayuda a evitar perder información importante al dividir el contenido en fragmentos y conserva la continuidad y el contexto entre fragmentos. Valor predeterminado: 0: no existen caracteres superpuestos. |
Mínimo: 0 |
Sugerencia
Para más información, puede hacer Azure Copilot estas preguntas:
- ¿Qué es PageOverlapLength en la fragmentación?
- ¿Qué es la codificación en Azure AI?
Para buscar Azure Copilot, en la barra de herramientas Azure, seleccione Copilot.
Salidas
| Nombre | Tipo de datos | Descripción |
|---|---|---|
| Elementos de texto de resultado fragmentado | Matriz de cadena | Una matriz de cadenas. |
| Elemento de texto de resultado fragmentado | String | Una sola cadena de la matriz. |
| Resultado fragmentado | Object | Objeto que contiene todo el texto fragmentado. |
Flujo de trabajo de ejemplo
En el ejemplo siguiente se incluyen otras acciones que crean un patrón de flujo de trabajo completo para ingerir datos de cualquier origen:
| Paso | Tarea | Operaciones subyacentes | Descripción |
|---|---|---|---|
| 1 | Espere o compruebe si hay contenido nuevo. | Cuando se recibe una solicitud HTTP | Desencadenador que sondea o espera a que lleguen nuevos datos, ya sea en función de una periodicidad programada o en respuesta a eventos específicos, respectivamente. Este evento puede ser un nuevo archivo que se carga en un sistema de almacenamiento específico, como Azure Blob Storage, SharePoint, OneDrive, Sistema de archivos, FTP, etc. En este ejemplo, la operación de desencadenador Solicitud espera una solicitud HTTP o HTTPS enviada desde otro punto de conexión. La solicitud incluye la dirección URL de un nuevo documento cargado. |
| 2 | Obtenga el contenido. | HTTP | Acción HTTP que recupera el documento cargado mediante la dirección URL del archivo de la salida del desencadenador. |
| 3 | Redactar detalles del documento. | Compose | Acción Operaciones de datos que concatena varios elementos. En este ejemplo se concatena información de clave-valor sobre el documento. |
| 4 | Cree una cadena de token. | Analizar un documento | Acción de Operaciones de datos que genera una cadena con token mediante la salida de la acción Redactar. |
| 5 | Cree fragmentos de contenido. | Fragmento de texto | Una acción de Operaciones de datos que divide la cadena de token en partes, en función del número de tokens por fragmento de contenido. |
| 6 | Convierta texto con tokens y fragmentado en JSON. | Análisis del archivo JSON | Una acción Operaciones de datos que convierte la salida fragmentada en una matriz JSON. |
| 7 | Seleccione elementos de matriz JSON. | Select | Acción Operaciones de datos que selecciona varios elementos de la matriz JSON. |
| 8 | Genere las inserciones. | Obtención de varias incrustaciones | Acción Azure OpenAI que crea incrustaciones para cada elemento de matriz JSON. |
| 9 | Seleccione inserciones y otra información. | Select | Acción Operaciones de datos que selecciona incrustaciones y otra información del documento. |
| 10 | Indexe los datos. | Indexar documentos | Acción Búsqueda de Azure AI que indexa los datos en función de cada inserción seleccionada. |