Flujos de datos de streaming (versión preliminar)

Las organizaciones quieren trabajar con los datos a medida que los reciben, en lugar de días o semanas más tarde. La visión de Power BI es simple: las diferencias entre por lotes, en tiempo real y de streaming deben desaparecer. Los usuarios deben poder trabajar con todos los datos en cuanto están disponibles.

Importante

Los flujos de datos de streaming se han retirado y ya no están disponibles. Azure Stream Analytics ha combinado la funcionalidad de flujos de datos de streaming. Para obtener más información sobre la retirada de flujos de datos de streaming, consulte el anuncio de retirada.

Normalmente, los analistas necesitan ayuda técnica para trabajar con los orígenes de datos de streaming, la preparación de datos, las operaciones complejas basadas en el tiempo y la visualización de datos en tiempo real. Los departamentos de TI a menudo se basan en sistemas creados a medida y en una combinación de tecnologías de varios proveedores para realizar análisis oportunos de los datos. Sin esta complejidad, no pueden proporcionar información a los responsables de la toma de decisiones casi en tiempo real.

Los flujos de datos de streaming permiten a los creadores conectarse, ingerir, mezclar, modelar y crear informes basados en datos de streaming casi en tiempo real directamente en el servicio Power BI. Este ofrece experiencias de arrastrar y colocar sin código.

Puede mezclar y hacer coincidir datos de streaming con datos por lotes si necesita a través de una interfaz de usuario (IU) que incluya una vista de diagrama para facilitar la mezcla de datos. El elemento final generado es un flujo de datos que se puede consumir en tiempo real para crear informes interactivos casi en tiempo real. Todas las funcionalidades de visualización de datos de Power BI funcionan con datos de streaming, del mismo modo que con los datos por lotes.

Diagram showing an example of mixed streaming and batch data in a simple workflow that creates real-time reports in Power BI.

Los usuarios pueden realizar operaciones de preparación de datos, como combinaciones y filtros. También pueden realizar agregaciones de ventana de tiempo (como ventanas de saltos de tamaño constante, de saltos y de sesión) para operaciones agrupadas.

Los flujos de datos de streaming de Power BI permiten a las organizaciones:

  • Tomar decisiones seguras casi en tiempo real. Las organizaciones pueden ser más ágiles y adoptar medidas significativas en función de las conclusiones más actualizadas.
  • Democratizar los datos de streaming. Las organizaciones pueden hacer que los datos sean más accesibles y fáciles de interpretar con una solución sin código, y esta accesibilidad reduce los recursos de TI.
  • Acelere la velocidad de las conclusiones mediante una solución de análisis de streaming de un extremo a otro con almacenamiento de datos e inteligencia empresarial integrados.

Los flujos de datos de streaming admiten DirectQuery y la actualización automática de páginas y detección de cambios. Esta compatibilidad permite que los usuarios creen informes que se actualizan casi en tiempo real, hasta cada segundo, mediante cualquier objeto visual disponible en Power BI.

Requisitos

Antes de crear el primer flujo de datos de streaming, asegúrese de cumplir todos los requisitos siguientes:

  • Para crear y ejecutar un flujo de datos de streaming, necesita un área de trabajo que forme parte de una capacidad Premium o una licencia Premium por usuario (PPU) .

    Importante

    Si usa una licencia PPU y quiere que otros usuarios consuman informes creados con flujos de datos de streaming que se actualizan en tiempo real, también necesitarán una licencia del mismo tipo. De este modo, podrán consumir los informes con la misma frecuencia de actualización que configure, si esa actualización es menor a cada 30 minutos.

  • Habilite los flujos de datos para el inquilino. Para obtener más información, consulte Habilitación de flujos de datos de Power BI Premium.

  • Para asegurarse de que los flujos de datos de streaming funcionan en la capacidad Premium, es necesario que el motor de proceso mejorado esté activado. El motor está activado de manera predeterminada, pero los administradores de capacidades de Power BI pueden desactivarlo. En ese caso, comuníquese con el administrador para activarlo.

    El motor de proceso mejorado solo está disponible en las capacidades Premium P o Embedded A3 y mayores. Para usar flujos de datos de streaming, necesita PPU, una capacidad Premium P de cualquier tamaño o una capacidad Embedded A3 o mayor. Para obtener más información sobre las SKU Premium y sus especificaciones, consulte Capacidad y SKU de los análisis incrustados de Power BI.

  • Para crear informes que se actualizan en tiempo real, asegúrese de que el administrador (de la capacidad o de Power BI para PPU) haya habilitado la actualización automática de páginas. Asegúrese también de que haya permitido un intervalo de actualización mínimo que se ajuste a sus necesidades. Para más información, consulte Actualización automática de páginas en Power BI.

Creación de un flujo de datos de streaming

Un flujo de datos de streaming, al igual que su flujo de datos relativo, es una colección de entidades (tablas) creadas y administradas en áreas de trabajo del servicio Power BI. Una tabla es un conjunto de campos que se usan para almacenar datos, muy similar a una tabla de una base de datos.

Puede agregar y editar tablas en el flujo de datos de streaming directamente desde el área de trabajo en la que se haya creado el flujo de datos. La principal diferencia con los flujos de datos normales es que no es necesario preocuparse por las actualizaciones o la frecuencia. Dada la naturaleza de los datos de streaming, hay un flujo constante de datos entrantes. La actualización es constante o incluso infinita, a menos que la detenga.

Nota

Puede tener solo un tipo de flujo de datos por cada área de trabajo. Si ya tiene un flujo de datos normal en el área de trabajo Premium, no podrá crear un flujo de datos de streaming (y viceversa).

Para crear un flujo de datos de streaming:

  1. Abra el servicio Power BI en un explorador y, a continuación, seleccione un área de trabajo habilitada para Premium. (Los flujos de datos de streaming, como los flujos de datos normales, no están disponibles en Mi área de trabajo).

  2. Seleccione el menú desplegable Nuevo y, luego, seleccione Flujo de datos de streaming.

    Screenshot that shows the New menu options with streaming dataflow highlighted.

  3. En el panel lateral que se abre, debe asignar un nombre al flujo de datos de streaming. Escriba un nombre en el cuadro Nombre (1) y seleccione Crear (2).

    Screenshot of the new streaming dataflow pane with name and create highlighted.

    Se muestra la vista de diagrama vacía para los flujos de datos de streaming.

En la captura de pantalla siguiente se muestra un flujo de datos finalizado. Están resaltadas todas las secciones disponibles para crear elementos en la interfaz de usuario del flujo de datos de streaming.

Screenshot of an example dataflow window with the ribbon, diagram view, side pane, and tabs highlighted.

  1. Cinta de opciones: en la cinta de opciones las secciones siguen el orden de un proceso de análisis "clásico": entradas (también conocidas como orígenes de datos), transformaciones (operaciones ETL de streaming), salidas, y un botón para guardar el progreso.

  2. Vista de diagrama: esta vista es una representación gráfica del flujo de datos, desde las entradas a las operaciones y las salidas.

  3. Panel lateral: en función del componente que seleccione en la vista de diagrama, se muestran valores para modificar cada entrada, transformación o salida.

  4. Pestañas para vista previa de datos, errores de creación y errores en tiempo de ejecución: para cada tarjeta mostrada, en la vista previa de datos, se muestran los resultados de ese paso (en directo para las entradas y a petición para las transformaciones y salidas).

    En esta sección también se resumen los errores o advertencias de creación que puedan aparecer en los flujos de datos. Al seleccionar cada error o advertencia, se selecciona esa transformación. Asimismo, tiene acceso a los errores en tiempo de ejecución una vez que el flujo de datos esté en ejecución, como los mensajes eliminados.

    Siempre puede minimizar esta sección de flujos de datos de streaming si selecciona la flecha de la esquina superior derecha.

Un flujo de datos de streaming se basa en tres componentes principales: entradas de streaming, transformaciones y salidas. Puede tener tantos componentes como quiera, incluidas varias entradas, ramas paralelas con varias transformaciones y varias salidas.

Adición de una entrada de streaming

Para agregar una entrada de streaming, seleccione el icono de la cinta y proporcione la información necesaria en el panel lateral para configurarla. A partir de julio de 2021, la versión preliminar de flujos de datos de streaming admite Azure Event Hubs y Azure IoT Hub como entradas.

Los servicios Azure Event Hubs y Azure IoT Hub están basados en una arquitectura común para facilitar la ingesta y el consumo rápidos y escalables de eventos. En concreto, IoT Hub está adaptado como centro de conectividad de mensajes para comunicaciones bidireccionales entre una aplicación IoT y sus dispositivos conectados.

Azure Event Hubs

Azure Event Hubs es una plataforma de streaming de macrodatos y un servicio de ingesta de eventos. Puede recibir y procesar millones de eventos por segundo. Los datos enviados a un centro de eventos se pueden transformar y almacenar con cualquier proveedor de análisis en tiempo real o puede usar adaptadores de procesamiento por lotes y almacenamiento.

Para configurar un centro de eventos como entrada para flujos de datos de streaming, seleccione el icono centro de eventos. Aparece una tarjeta en la vista de diagrama, así como un panel lateral para su configuración.

Screenshot that shows the event hub card and configuration pane in diagram view.

Tiene la opción de pegar la cadena de conexión de Event Hubs. Los flujos de datos de streaming rellenan toda la información necesaria, incluido el grupo de consumidores opcional (que de manera predeterminada es $Default). Si quiere escribir todos los campos manualmente, puede activar el botón de alternancia de entrada manual para mostrarlos. Para obtener más información, consulte Obtención de una cadena de conexión de Event Hubs.

Después de configurar las credenciales de Event Hubs y seleccionar Conectar, puede agregar campos manualmente mediante + Agregar campo si conoce los nombres de estos. Como alternativa, para detectar campos y tipos de datos automáticamente en función de un ejemplo de los mensajes entrantes, seleccione Detección automática de campos. Al seleccionar el icono de engranaje, puede editar las credenciales si es necesario.

Screenshot that shows input data options, EntryTime is selected with the more options tool tip displayed.

Cuando los flujos de datos de streaming detecten los campos, puede verlos en la lista. También hay una vista previa dinámica de los mensajes entrantes en la tabla Vista previa de datos en la vista de diagrama.

Siempre puede editar los nombres de campo, o quitar o cambiar el tipo de datos si selecciona más opciones (...) junto a cada campo. También puede expandir, seleccionar y editar los campos anidados de los mensajes entrantes, como se muestra en la imagen siguiente.

Screenshot that shows remove, rename and data type options for input data.

Azure IoT Hub

IoT Hub es un servicio administrado que se hospeda en la nube. Actúa como centro de mensajes para comunicaciones bidireccionales entre una aplicación de IoT y los dispositivos conectados. Puede conectar millones de dispositivos y sus soluciones de back-end con confianza y de forma segura. La mayoría de los dispositivos se pueden conectar a un centro de IoT.

La configuración de IoT Hub es similar a la de Event Hubs debido a su arquitectura en común. Pero hay algunas diferencias, como dónde encontrar la cadena de conexión compatible con Event Hubs para el punto de conexión integrado. Para más información, consulte Leer mensajes de dispositivo a nube desde el punto de conexión integrado.

 Screenshot that shows the IOT Hub card and configuration pane in diagram view

Después de pegar la cadena de conexión para el punto de conexión integrado, toda la funcionalidad para seleccionar, agregar, detectar automáticamente y editar campos procedentes de IoT Hub es la misma que en Event Hubs. También puede editar las credenciales seleccionando el icono de engranaje.

Sugerencia

Si tiene acceso a Event Hubs o a IoT Hub en la instancia de Azure Portal de la organización y quiere usarla como entrada para el flujo de datos de streaming, puede encontrar las cadenas de conexión en las ubicaciones siguientes:

En el caso de Event Hubs:

  1. En la sección Análisis, seleccione Todos los servicios>Event Hubs.
  2. Seleccione Espacio de nombres de Event Hubs>Entidades/Event Hubs y, a continuación, seleccione el nombre del centro de eventos.
  3. En la lista Directivas de acceso compartido, seleccione una directiva.
  4. Seleccione Copiar en el Portapapeles junto al campo Cadena de conexión: clave principal.

En el caso de IoT Hub:

  1. En la sección Internet de las cosas, seleccione Todos los servicios>Centros de IoT.
  2. Seleccione el centro de IoT al que quiere conectarse y, a continuación, seleccione Puntos de conexión integrados.
  3. Seleccione Copiar en el Portapapeles junto al punto de conexión compatible con Event Hubs.

Cuando se usan datos de flujo de Event Hubs o de IoT Hub, puede acceder a los siguientes campos de hora de metadatos en el flujo de datos de streaming:

  • EventProcessedUtcTime: fecha y hora a la que se ha procesado el evento.
  • EventEnqueuedUtcTime: fecha y hora a la que se ha recibido el evento.

Ninguno de estos campos se muestra en la vista previa de entrada. Y los debe agregar manualmente.

Blob Storage

Azure Blob Storage es la solución de almacenamiento de objetos de Microsoft para la nube. El almacenamiento de blobs está optimizado para almacenar grandes cantidades de datos no estructurados. Los datos no estructurados son datos que no se ciñen a ningún un modelo de datos o definición concretos, como texto o datos binarios.

Puede usar blobs de Azure como entrada de streaming o de referencia. Los blobs de streaming se comprueban cada segundo en busca de actualizaciones. A diferencia de un blob de streaming, un blob de referencia solo se carga al principio de la actualización. Son datos estáticos que no se espera que cambien, y el límite recomendado es de 50 MB o menos.

Power BI espera que los blobs de referencia se usen junto con orígenes de streaming, por ejemplo, a través de JOIN. Por lo tanto, un flujo de datos de streaming con un blob de referencia también debe tener un origen de streaming.

La configuración de los blobs de Azure es ligeramente diferente a la de un nodo de Azure Event Hubs. Para buscar la cadena de conexión del blob de Azure, consulte Visualización de claves de acceso de la cuenta.

 Screenshot that shows the Streaming blob card and configuration pane in diagram view

Después de escribir la cadena de conexión del blob, debe proporcionar el nombre del contenedor. También necesita introducir el patrón de ruta dentro del directorio para acceder a los archivos que quiere establecer como origen para el flujo de datos.

En el caso de los blobs de streaming, se espera que el patrón de ruta de acceso del directorio sea un valor dinámico. Se necesita que la fecha forme parte de la ruta de archivo del blob, a la que se hace referencia como {date}. Además, no se admite un asterisco (*) en el patrón de ruta de acceso, como {date}/{time}/*.json.

Por ejemplo, si tiene un blob denominado ExampleContainer en el que almacena archivos .json anidados, y en el que el primer nivel es la fecha de creación y el segundo nivel es la hora de creación (yyyy-mm-dd/hh), la entrada de contenedor sería "ExampleContainer". El patrón de ruta de directorio sería "{date}/{time}", y aquí podría modificar el patrón de fecha y hora.

Screenshot that shows the stream blob input boxes used to configure the example container.

Una vez que el blob está conectado al punto de conexión, toda la funcionalidad para seleccionar, agregar, detectar automáticamente y editar campos procedentes de Blob de Azure es la misma que en Event Hubs. También puede editar las credenciales seleccionando el icono de engranaje.

A menudo, al trabajar con datos en tiempo real, los datos se condensan y los identificadores se usan para representar el objeto. Un posible caso de uso de blobs también podría ser como datos de referencia para los orígenes de streaming. Los datos de referencia permiten unir datos estáticos a datos de streaming para enriquecer las secuencias para su análisis. Un ejemplo rápido de cuándo sería útil esta característica sería si estuviera instalando sensores en diferentes tiendas por departamento para medir cuántos usuarios entran en la tienda en un momento dado. Normalmente, el identificador del sensor debe unirse a una tabla estática para indicar en qué almacén de departamentos y en qué ubicación se encuentra el sensor. Ahora, con los datos de referencia, es posible unir estos datos durante la fase de ingesta para facilitar la tarea de ver qué tienda tiene la salida más alta de los usuarios.

Nota

Un trabajo de flujos de datos de streaming extrae datos de la entrada de Azure Blob Storage o ADLS Gen2 cada segundo si el archivo de blob está disponible. Si el archivo de blob no está disponible, hay un retroceso exponencial con un retraso de tiempo máximo de 90 segundos.

Tipos de datos

Los tipos de datos disponibles para los campos de flujos de datos de streaming incluyen:

  • DateTime: campo de fecha y hora en formato ISO
  • Float: número decimal
  • Int: número entero
  • Record: objeto anidado con varios registros
  • Cadena: texto

Importante

Los tipos de datos seleccionados para una entrada de streaming tienen implicaciones importantes más adelante para el flujo de datos de streaming. Seleccione el tipo de datos lo antes posible en el flujo de datos para evitar tener que detenerlo después para realizar cambios.

Adición de una transformación de datos de streaming

Las transformaciones de datos de streaming son inherentemente diferentes de las transformaciones de datos por lotes. Casi todos los datos de streaming tienen un componente de tiempo que afecta a las tareas de preparación de datos implicadas.

Para agregar una transformación de datos de streaming al flujo de datos, seleccione el icono de transformación de la cinta de esa transformación. La tarjeta correspondiente aparece en la vista de diagrama. Una vez que la seleccione, aparecerá el panel lateral de esa transformación para configurarla.

A partir de julio de 2021, los flujos de datos de streaming admiten las siguientes transformaciones de streaming.

Filter

Use la transformación Filtro para filtrar eventos en función del valor de un campo de la entrada. En función del tipo de datos (número o texto), la transformación mantiene los valores que coincidan con la condición seleccionada.

Screenshot that shows the Filter input boxes used to configure the example container.

Nota:

Dentro de cada tarjeta aparecerá información sobre qué más se necesita para que la transformación esté lista. Por ejemplo, cuando agregue una tarjeta nueva, verá el mensaje "Configuración necesaria". Si falta un conector de nodo, verá un mensaje de "Error" o "Advertencia".

Administrar campos

La transformación Administrar campos permite agregar, quitar o cambiar el nombre de los campos procedentes de una entrada u otra transformación. Los valores del panel lateral le ofrecen la opción de agregar uno nuevo si selecciona Agregar campo, o bien de agregar todos los campos a la vez.

Screenshot that shows configuration of the Manage fields transformation.

Sugerencia

Después de configurar una tarjeta, la vista de diagrama le mostrará una visión de la configuración dentro de la propia tarjeta. Por ejemplo, en el área Administrar campos de la imagen anterior, puede ver que se están administrando los tres primeros campos y se les están asignando nombres nuevos. Cada tarjeta tiene información pertinente para ella.

Agregado

Puede usar la transformación Agregado para calcular una agregación (Suma, Mínimo, Máximo o Promedio) cada vez que se produzca un nuevo evento durante un período de tiempo. Esta operación también permite filtrar o segmentar la agregación en función de otras dimensiones de los datos. Puede tener una o varias agregaciones en la misma transformación.

Para agregar una agregación, seleccione el icono Transformación. Luego, conecte una entrada, seleccione la agregación, agregue cualquier dimensión de filtro o intervalo de tiempo, y seleccione el período en el que desea calcular la agregación. Este ejemplo calcula la suma del valor del peaje según el estado del que procede el vehículo durante los últimos 10 segundos.

 Screenshot of an aggregate card with an existing aggregate function. The aggregate pane shows the calculation details.

Para agregar otra agregación a la misma transformación, seleccione Agregar función de agregado. Tenga en cuenta que el filtro o intervalo de tiempo se aplica a todas las agregaciones de la transformación.

Join

Use la transformación Combinación para combinar eventos de dos entradas en función de los pares de campo que seleccione. Si no selecciona un par de campos, la combinación se basa en el tiempo de forma predeterminada. El valor predeterminado hace que esta transformación sea diferente de una por lotes.

Al igual que con las combinaciones normales, tiene diferentes opciones para la lógica de combinación:

  • Combinación interna: incluye solo los registros de ambas tablas donde coincide el par. En este ejemplo, se refiere a cuando la matrícula coincide con ambas entradas.
  • Combinación externa izquierda: se incluyen todos los registros de la tabla izquierda (la primera) y solo los registros de la segunda que coincidan con el par de campos. Si no hay coincidencias, los campos de la segunda entrada se establecen en blanco.

Para seleccionar el tipo de combinación, seleccione el icono del tipo preferido en el panel lateral.

Por último, seleccione durante qué período de tiempo quiere que se calcule la combinación. En este ejemplo, la combinación examina los últimos 10 segundos. Tenga en cuenta que cuanto mayor sea el período, menos frecuente será la salida y más recursos de procesamiento usa para la transformación.

De manera predeterminada, se incluyen todos los campos de ambas tablas. Los prefijos a la izquierda (primer nodo) y a la derecha (segundo nodo) en la salida le ayudan a diferenciar el origen.

Screenshot of the event hub and join cards with the join configuration pane open.

Agrupar por

Use la transformación Agrupar por para calcular agregaciones en todos los eventos dentro de un período de tiempo determinado. Puede agrupar por los valores en uno o varios campos. Es similar a la transformación Agregado, pero proporciona más opciones para agregaciones. También incluye opciones más complejas de ventana de tiempo. Como la de Agregado, también se puede incluir más de una agregación por transformación.

Las agregaciones disponibles en esta transformación son: Promedio, Recuento, Máximo, Mínimo, Percentil (continuo y discreto), Desviación estándar, Suma y Varianza.

Para configurar esta transformación haga lo siguiente:

  1. Seleccione su agregación preferida.
  2. Seleccione el campo en el que desea realizar la agregación.
  3. Seleccione un campo Agrupar por opcional si quiere obtener el cálculo agregado en relación con otra dimensión o categoría (por ejemplo, Estado).
  4. Seleccione la función para los períodos de tiempo.

Para agregar otra agregación a la misma transformación, seleccione Agregar función de agregado. Tenga en cuenta que el campo Agrupar por y la función de período de tiempo se aplican a todas las agregaciones de la transformación.

Screenshot of the Group by card with the configuration pane open.

Se incluye una marca de tiempo para el final del período de tiempo en la salida de las transformación como referencia.

Una sección más adelante en este artículo explica cada tipo de período de tiempo disponible para esta transformación.

Union

Use la transformación Unión para conectar dos o más entradas a fin de agregar eventos con campos compartidos (con el mismo nombre y tipo de datos) en una tabla. Los campos que no coincidan se descartan y no se incluyen en la salida.

Configuración de funciones de período de tiempo

Los períodos de tiempo son uno de los conceptos más complejos en los datos de streaming. Es uno de los conceptos básicos del análisis de streaming.

Con los flujos de datos de streaming, puede configurar períodos de tiempo al agregar datos como una opción para la transformación Agrupar por.

Nota

Tenga en cuenta que todos los resultados de salida de las operaciones de períodos de tiempo se calculan al final del período de tiempo. La salida de la ventana será un solo evento que está basado en la función de agregado. Este evento tendrá la marca de tiempo del final del período de tiempo y todas las funciones de período de tiempo se definen con una longitud fija.

Diagram that shows three time windows on a graph.

Hay cinco tipos de períodos de tiempo entre los que elegir: saltos de tamaño constante, saltos, deslizante, de sesión y de instantánea.

Ventana de saltos de tamaño constante

El de saltos de tamaño constante es el período de tiempo más común. Las características clave de las ventanas de saltos de tamaño constante son que se repiten, tienen la misma longitud de tiempo y no se superponen. Un evento no puede pertenecer a más de una ventana de saltos de tamaño constante.

Diagram that shows a 10-second tumbling window.

Al configurar una ventana de saltos de tamaño constante en flujos de datos de streaming, debe especificar la duración de dicha ventana (en este caso, es la misma para todas). También puede proporcionar un desplazamiento opcional. De manera predeterminada, las ventanas de saltos de tamaño constante incluyen el final de la ventana y excluyen el principio. Puede usar este parámetro para cambiar este comportamiento e incluir los eventos al principio de la ventana y excluir los del final.

Screenshot that shows duration and offset settings for a tumbling time window.

Ventana de salto

Las ventanas de salto "saltan" hacia adelante en el tiempo un período fijo. Puede imaginarlas como ventanas de saltos de tamaño constante que pueden superponerse y emitirse con más frecuencia que el tamaño de ventana. Los eventos pueden pertenecer a más de un conjunto de resultados de una ventana de salto. Para hacer que una ventana de salto sea igual que una ventana de saltos de tamaño constante, puede especificar el tamaño de salto para que coincida con el tamaño de la ventana.

Diagram that shows a 10-second hopping window.

Cuando configure una ventana de salto en flujos de datos de streaming, deberá proporcionar su duración (igual que para las ventanas de saltos de tamaño constante). También debe proporcionar el tamaño del salto, que indica a los flujos de datos de streaming la frecuencia con la que quiere que se calcule la agregación para la duración definida.

El parámetro de compensación también está disponible en ventanas de salto por la misma razón que en las ventanas de saltos de tamaño constante. Define la lógica para incluir y excluir eventos para el principio y el final de la ventana de salto.

Screenshot that shows hop size, duration, and offset settings for a hopping time window.

Ventana deslizante

Las ventanas deslizantes, a diferencia de las de saltos de tamaño constante o las de salto, calculan la agregación solo para los puntos en el tiempo cuando el contenido de la ventana cambia realmente. Cuando un evento entra o sale del período de tiempo, se calcula la agregación. Por tanto, cada ventana tiene al menos un evento. De forma similar a lo que sucede en las ventanas de salto, los eventos pueden pertenecer a más de una ventana deslizante.

Diagram that shows a 10-second sliding window.

El único parámetro necesario para una ventana deslizante es la duración, porque los propios eventos definen cuándo inicia la ventana. No se necesita ninguna lógica de desplazamiento.

Screenshot that shows the duration setting for a sliding time window.

Ventana de sesión

Las ventanas de sesión son el tipo más complejo. Agrupan eventos que suceden a la misma hora, y se excluyen los períodos de tiempo en los que no hay datos. Para esta ventana, debe proporcionar:

  • Un tiempo de espera: cuánto tiempo se debe esperar si no hay datos nuevos.
  • Una duración máxima: el tiempo más largo que se calcula la agregación si los datos siguen recibiéndose.

También puede definir una partición, si así lo desea.

Diagram that shows session windows with a five-minute timeout.

Configure una ventana de sesión directamente en el panel lateral de la transformación. Si se especifica una partición, la agregación solo agrupará eventos para la misma clave.

Screenshot that shows the duration, timeout, and partition settings for a session time window.

Ventana de instantánea

Las ventanas de instantánea agrupan los eventos que tienen la misma marca de tiempo. A diferencia de otras ventanas, una de instantánea no requiere ningún parámetro porque usa la hora del sistema.

Diagram that shows a snapshot window on a 35-minute timeline.

Definir las salidas

Cuando configure las entradas y las transformaciones, es el momento de definir una o varias salidas. A partir de julio de 2021, los flujos de datos de streaming admiten tablas de Power BI como el único tipo de salida.

Esta salida es una tabla de flujo de datos (es decir, una entidad) que puede usar para crear informes en Power BI Desktop. Para que funcione, tiene que unir los nodos del paso anterior con la salida que se crea. Después de eso, asígnele un nombre a la tabla.

Screenshot that shows the output table card and output table configuration pane.

Después de conectarse al flujo de datos, esta tabla estará disponible para que pueda crear objetos visuales que se actualicen en tiempo real para los informes.

Vista previa de datos y errores

Los flujos de datos de streaming proporcionan herramientas para ayudarle a crear, solucionar problemas y evaluar el rendimiento de la canalización de análisis para los datos de streaming.

Vista previa de datos dinámica para entradas

Al conectarse a un centro de eventos o centro de IoT y seleccionar su tarjeta en la vista de diagrama (pestaña Vista previa de datos), se obtiene una vista previa dinámica de los datos que llegan si se cumplen todos los requisitos siguientes:

  • Los datos se están insertando.
  • La entrada se configuró correctamente.
  • Se han agregado campos.

Como se muestra en la captura de pantalla siguiente, si quiere ver o explorar en profundidad algo específico, puede pausar la vista previa (1). O bien, puede iniciarla de nuevo si ha terminado.

También puede ver los detalles de un registro específico (una "celda" en la tabla). Para ello, selecciónelo y, luego, seleccione Mostrar detalles u Ocultar detalles (2). La captura de pantalla muestra la vista detallada de un objeto anidado en un registro.

Screenshot that shows a live data preview with the pause and show or hide options highlighted.

Vista previa estática para transformaciones y salidas

Después de agregar y configurar los pasos en la vista de diagrama, puede probar su comportamiento si selecciona el botón de datos estáticos.

Después de hacerlo, los flujos de datos de streaming evalúan todas las transformaciones y salidas configuradas correctamente. A continuación, los flujos de datos de streaming muestran los resultados en la vista previa de datos estática, tal como se muestra en la siguiente imagen.

Screenshot that shows a static data preview with the refresh and hide options highlighted.

Para actualizar la versión preliminar, seleccione Actualizar vista previa estática (1). Al hacerlo, los flujos de datos de streaming toman nuevos datos de la entrada y vuelven a evaluar todas las transformaciones y salidas con cualquier actualización que haya realizado. La opción Mostrar u ocultar detalles también está disponible (2).

Errores de creación

Si tiene errores o advertencias de creación, la pestaña Errores de creación (1) los muestra en una lista, como se muestra en la captura de pantalla siguiente. La lista incluye detalles del error o advertencia, el tipo de tarjeta (entrada, transformación o salida), el nivel de error y una descripción del error o advertencia (2). Al seleccionar cualquiera de los errores o advertencias, se selecciona la tarjeta correspondiente y se abre el panel lateral de configuración para que realice los cambios necesarios.

Screenshot that shows a list of authoring errors.

Errores de tiempo de ejecución

La última pestaña disponible en la vista preliminar es Errores en tiempo de ejecución (1), como se muestra en la captura de pantalla siguiente. En esta pestaña se enumeran todos los errores en el proceso de ingesta y análisis del flujo de datos de streaming después de iniciarlo. Por ejemplo, podría obtener un error en tiempo de ejecución si un mensaje se recibe dañado y el flujo de datos no ha podido ingerirlo ni realizar las transformaciones definidas.

Como los flujos de datos pueden ejecutarse durante un largo período de tiempo, esta tabla ofrece la opción de filtrar por intervalo de tiempo y de descargar la lista de errores y actualizarla si es necesario (2).

Screenshot that shows the tab for runtime errors, along with options for filtering, downloading, and refreshing.

Modificación de la configuración de flujos de datos de streaming

Al igual que con los flujos de datos normales, la configuración de los flujos de datos de streaming se puede modificar en función de las necesidades de propietarios y creadores. Los siguientes valores de configuración son únicos para los flujos de datos de streaming. Para el resto de las configuraciones, debido a la infraestructura de recursos compartidos entre los dos tipos de flujos de datos, puede suponer que el uso es el mismo.

Screenshot that shows settings for a streaming dataflow.

  • Historial de actualizaciones: dado que los flujos de datos de streaming se ejecutan continuamente, el historial de actualizaciones solo muestra información sobre cuándo se inicia el flujo de datos, cuándo se cancela o cuándo se produce un error (con detalles y códigos de error cuando corresponde). Esta información es similar a la que se muestra para los flujos de datos normales. Puede usar esta información para solucionar problemas o para ofrecer al soporte técnico de Power BI los detalles que solicite.

  • Credenciales del origen de datos: esta configuración muestra las entradas que se han configurado para el flujo de datos de streaming específico.

  • Configuración del motor de proceso mejorado: los flujos de datos de streaming necesitan el motor de proceso mejorado para proporcionar objetos visuales en tiempo real, por lo que este valor está activado de manera predeterminada.

  • Duración de retención: este valor es específico de los flujos de datos de streaming. Aquí puede definir cuánto tiempo quiere conservar los datos en tiempo real para su visualización en los informes. Los datos históricos se guardan de manera predeterminada en Azure Blob Storage. Esa configuración es específica del lado en tiempo real de los datos (almacenamiento de acceso frecuente). El valor mínimo es de 1 día o 24 horas.

    Importante

    La cantidad datos de acceso frecuente almacenados por esta duración de retención influye directamente en el rendimiento de los objetos visuales en tiempo real al crear informes basados en estos datos. Cuanto mayor sea la retención, más objetos visuales en tiempo real de los informes pueden verse afectados por el bajo rendimiento. Si tiene que realizar análisis históricos, debe usar el almacenamiento en reposo proporcionado para flujos de datos de streaming.

Ejecución y edición de un flujo de datos de streaming

Después de guardar y configurar el flujo de datos de streaming, todo está listo para ejecutarlo. A continuación, puede empezar a ingerir datos en Power BI con la lógica de análisis de streaming que ha definido.

Ejecución del flujo de datos de streaming

Para iniciar el flujo de datos de streaming, primero guárdelo y vaya al área de trabajo donde lo creó. Mantenga el puntero sobre el flujo de datos de streaming y seleccione el botón Reproducir que se muestra. Un mensaje emergente le indica que el flujo de datos de streaming se está iniciando.

Screenshot that shows the play button for starting a streaming dataflow.

Nota:

Puede tardar hasta cinco minutos en comenzar a ingerir los datos y verá que estos se reciben para crear informes y paneles en Power BI Desktop.

Edición del flujo de datos de streaming

Mientras un flujo de datos de streaming está en ejecución, no se puede editar. Pero puede ir a un flujo de datos de streaming que se encuentra en estado de ejecución y ver la lógica de análisis en la que está basado el flujo de datos.

Cuando vaya a un flujo de datos de streaming en ejecución, todas las opciones de edición están deshabilitadas y se muestra un mensaje: "El flujo de datos no se puede editar mientras se está ejecutando. Detenga el flujo de datos si desea continuar". La vista previa de datos también está deshabilitada.

Para editar el flujo de datos de streaming, debe detenerlo. Un flujo de datos detenido provoca que falten datos.

La única experiencia disponible mientras se ejecuta un flujo de datos de streaming es la pestaña Errores en tiempo de ejecución, donde puede supervisar el comportamiento de su flujo de datos en busca de mensajes eliminados y situaciones similares.

Screenshot that shows the disabled data preview when a streaming dataflow is running.

Consideración del almacenamiento de datos al editar el flujo de datos

Al editar un flujo de datos, debe tomar en cuenta otras consideraciones. Como sucede con los cambios de esquema para flujos de datos normales, si realiza cambios en una tabla de salida, se perderán datos que ya se han insertado y guardado en Power BI. La interfaz proporciona información clara sobre las consecuencias de cualquiera de estos cambios en el flujo de datos de streaming, junto con opciones para los cambios que realice antes de guardar.

Esta experiencia se ilustra mejor con un ejemplo. En la captura de pantalla siguiente, se muestra el mensaje que recibe después de agregar una columna a una tabla, cambiar el nombre de una segunda tabla y dejar la tercera sin cambios.

Screenshot that shows an informational message that lists the changes made to output tables and their impact.

En este ejemplo, los datos ya guardados en las dos tablas que tenían cambios de esquema y nombre se eliminan si se guardan los cambios. En el caso de la tabla que ha permanecido igual, tiene la opción de eliminar los datos antiguos y empezar desde cero, o bien de guardarlos para su análisis posterior junto con los nuevos datos que se van a recibir.

Tenga en cuenta estos matices al editar el flujo de datos de streaming, en especial, si necesita datos históricos disponibles más adelante para su posterior análisis.

Consumo de un flujo de datos de streaming

Cuando el flujo de datos de streaming esté en ejecución, estará listo para empezar a crear contenido basado en los datos de streaming. No hay ningún cambio estructural en comparación con lo que tiene que hacer para crear informes que se actualizan en tiempo real. Hay algunos detalles y actualizaciones que se deben tener en cuenta, por lo que puede aprovechar este nuevo tipo de preparación de datos para el streaming de datos.

Configuración del almacenamiento de datos

Como se ha mencionado antes, los flujos de datos de streaming guardan los datos en las dos ubicaciones siguientes. El uso de estos orígenes depende del tipo de análisis que intente hacer.

  • Almacenamiento de acceso frecuente (análisis en tiempo real): a medida que los datos llegan a Power BI procedentes de flujos de datos de streaming, se almacenan en una ubicación de acceso frecuente a la que puede acceder con objetos visuales en tiempo real. La cantidad de datos que se guardan en este almacenamiento depende del valor que haya definido en Duración de retención en la configuración del flujo de datos de streaming. El valor predeterminado (y mínimo) es de 24 horas.
  • Almacenamiento en reposo (análisis histórico) : cualquier período de tiempo que no se encuentra en el período que definió en Duración de retención se guarda en el almacenamiento en reposo (blob) en Power BI para que lo consuma si es necesario.

Nota

Hay superposición entre estas dos ubicaciones de almacenamiento de datos. Si necesita usar ambas ubicaciones juntas (por ejemplo, para el cambio de porcentaje del día a día), es posible que tenga que desduplicar los registros. Depende de los cálculos de inteligencia de tiempo que se están realizando y de la directiva de retención.

Conexión a flujos de datos de streaming desde Power BI Desktop

Power BI Desktop ofrece un conector denominado Flujos de datos para que pueda usar. Como parte de este conector para los flujos de datos de streaming, se mostrarán dos tablas que coinciden con el almacenamiento de datos descrito anteriormente.

Para conectarse a los datos para flujos de datos de streaming:

  1. Vaya a Obtener datos, seleccione Power Platform y seleccione el conector Flujos de datos.

    Screenshot of the Get Data window, Power Platform is selected in the navigation pane and Dataflows is highlighted in the main pane.

  2. Inicie sesión con sus credenciales de Power BI.

  3. Seleccione las áreas de trabajo. Busque la que contiene el flujo de datos de streaming y selecciónelo. (En este ejemplo, el flujo de datos de streaming se denomina Toll).

  4. Observe que todas las tablas de salida aparecen dos veces: una para los datos de streaming (frecuentes) y otra para los datos archivados (en reposo). Puede diferenciarlas por las etiquetas agregadas después de los nombres de tabla y por los iconos.

    Screenshot of a list of output tables in the Toll dataflow.

  5. Conéctese a los datos de streaming. El caso de los datos archivados es el mismo, solo está disponible en el modo de importación. Seleccione las tablas que incluyen las etiquetas Streaming y Hot y seleccione Cargar.

    Screenshot that shows hot output tables selected for streaming dataflows in Power BI Desktop.

  6. Cuando se le pida que elija un modo de almacenamiento, seleccione DirectQuery si quiere crear objetos visuales en tiempo real.

    Screenshot that shows the storage mode selected for streaming dataflows in Power BI Desktop.

Ahora puede crear objetos visuales, medidas y más mediante las características disponibles en Power BI Desktop.

Nota

El conector de flujo de datos de Power BI normal sigue disponible y funcionará con los flujos de datos de streaming con dos advertencias:

  • Solo le permite conectarse al almacenamiento de acceso frecuente.
  • La vista previa de datos del conector no funciona con flujos de datos de streaming.

Activación de la actualización automática de páginas para objetos visuales en tiempo real

Cuando el informe esté listo y haya agregado todo el contenido que quiere compartir, el único paso que faltará por realizar será asegurarse de que los objetos visuales se actualicen en tiempo real. Puede usar una característica denominada actualización automática de páginas. Esta permite actualizar los objetos visuales desde un origen de DirectQuery con una frecuencia de un segundo.

Para más información acerca de la característica, consulte Actualización automática de páginas en Power BI. Este artículo incluye información sobre cómo usarla, cómo configurarla y cómo comunicarse con el administrador si tiene problemas. Estos son los aspectos básicos sobre cómo configurarla:

  1. Vaya a la página del informe donde quiera que los objetos visuales se actualicen en tiempo real.

  2. Borre cualquier objeto visual de la página. Si es posible, seleccione el fondo de la página.

  3. Vaya al panel de formato (1) y active Actualización de página (2).

    Screenshot that shows selections for turning on automatic page refresh.

  4. Configure la frecuencia deseada (hasta un segundo si el administrador lo ha permitido).

    Screenshot that shows frequency settings for automatic page refresh.

  5. Para compartir un informe en tiempo real, primero vuelva a publicarlo en el servicio Power BI. A continuación, puede configurar sus credenciales de flujo de datos para el modelo semántico y uso compartido.

Sugerencia

Si el informe no se actualiza tan rápido como necesita que lo haga o en tiempo real, consulte la documentación para la actualización automática de páginas. Siga las preguntas más frecuentes y las instrucciones de solución de problemas para averiguar por qué podría estar ocurriendo este problema.

Consideraciones y limitaciones

Limitaciones generales

  • Se necesita una suscripción a Power BI Premium (capacidad o PPU) para crear y ejecutar flujos de datos de streaming.
  • Solo se permite un tipo de flujo de datos por área de trabajo.
  • No es posible vincular flujos de datos normales y de streaming.
  • Las capacidades menores que A3 no permiten el uso de flujos de datos de streaming.
  • Si los flujos de datos o el motor de cálculo mejorado no están habilitados en un inquilino, no podrá crear ni ejecutar flujos de datos de streaming.
  • Las áreas de trabajo conectadas a una cuenta de almacenamiento no son compatibles.
  • Cada flujo de datos de streaming puede proporcionar hasta 1 MB por segundo de rendimiento.

Disponibilidad

La vista previa de los flujos de datos de streaming no está disponible en las regiones siguientes:

  • Centro de la India
  • Norte de Alemania
  • Este de Noruega
  • Oeste de Noruega
  • Centro de Emiratos Árabes Unidos
  • Norte de Sudáfrica
  • Oeste de Sudáfrica
  • Norte de Suiza
  • Oeste de Suiza
  • Sur de Brasil

Licencias

El número de flujos de datos de streaming permitidos por inquilino depende de la licencia que se use:

  • Para las capacidades normales, use la siguiente fórmula para calcular el número máximo de flujos de datos de streaming permitidos en una capacidad:

    Número máximo de flujos de datos de streaming por capacidad = núcleos virtuales en la capacidad x 5

    Por ejemplo, P1 tiene 8 núcleos virtuales: 8 * 5 = 40 flujos de datos de streaming.

  • En el caso de Premium por usuario, se permite un flujo de datos de streaming por usuario. Si otro usuario quiere consumir un flujo de datos de streaming en un área de trabajo PPU, también necesitará una licencia PPU.

Creación de flujos de datos

Cuando cree flujos de datos de streaming, tenga en cuenta lo siguiente:

  • El propietario de un flujo de datos de streaming solo puede realizar modificaciones y solo puede realizar modificaciones si el flujo de datos no se está ejecutando.
  • Los flujos de datos de streaming no están disponibles en Mi área de trabajo.

Conectarse desde Power BI Desktop

Solo se puede acceder al almacenamiento en reposo mediante el conector Flujos de datos disponible a partir de la actualización de Power BI Desktop de julio de 2021. El conector de flujo de datos de Power BI existente solo permite conexiones al almacenamiento de datos de streaming (de acceso frecuente). La vista previa de los datos del conector no funciona.

En este artículo se ha proporcionado una introducción al autoservicio de preparación de datos de streaming mediante flujos de datos de streaming. En los artículos siguientes se proporciona información sobre cómo probar esta funcionalidad y cómo usar otras características de datos de streaming en Power BI: