Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describe cómo aplicar FinOps en Azure Data Factory.
¿Qué es FinOps?
El Consejo Asesor Técnico de FinOps Foundation define FinOps en consecuencia:
FinOps es una disciplina de administración financiera en la nube en constante evolución y práctica cultural que permite a las organizaciones obtener el máximo valor empresarial al ayudar a los equipos de ingeniería, finanzas, tecnología y negocio a colaborar en decisiones de gasto controladas por datos.
En su núcleo, FinOps es una práctica cultural. Es la manera de que los equipos administren sus costos en la nube, donde todos toman posesión del uso de la nube compatible con un grupo de procedimientos recomendados central. Los equipos multiplataforma de ingeniería, finanzas, producto, etc. trabajan juntos para permitir una entrega de productos más rápida, al mismo tiempo que obtienen más control financiero y previsibilidad.
Aplicación de FinOps a Azure Data Factory
Azure Data Factory es el servicio ETL (extracción, transformación y carga) de Microsoft en la nube. Para lograr un presupuesto eficaz y controles de costos en la factoría de datos, primero se revisa cómo comprender el modelo de precios. A continuación, es importante analizar los gastos en los niveles de fábrica y canalización. Puede hacerlo con los informes de consumo integrados de Data Factory y en el nivel de suscripción de Azure mediante las características de análisis de costos y administración de costos de Azure. Por último, hablamos sobre cómo establecer límites de gasto en su suscripción de Azure para ayudar a proporcionar controles de costos.
Descripción de los precios de Azure Data Factory
En el gráfico siguiente se explica el flujo general del cálculo de precios de la factoría de datos. Muestra cómo usar la Calculadora de precios de Azure para calcular los precios. En general, las partes principales para comprender la facturación de data factory implican estos costos: orquestación, ejecución, tipo de entorno de ejecución de integración (IR), movimiento dedatos (copia) y flujos de datos.
- Compruebe si el origen de la factoría de datos o el entorno de ejecución de integración del receptor usan una red virtual administrada (VNET). Si es así, la orquestación y la ejecución se calculan mediante azure managed VNET IR. Si no, siga con el paso siguiente.
- Confirme si el origen o el destino usan el entorno de integración de ejecución autohospedado. Si es así, tanto la orquestación como la ejecución se calculan mediante el entorno de ejecución de integración autohospedado y el costo total es igual a la suma de los costos de la orquestación y la ejecución. Si no es así, la orquestación y la ejecución son calculadas por el Azure IR.
- En el caso de Azure IR y Azure Managed VNET IR, confirme si usa el flujo de datos. Si es así, el costo total es igual a la suma de los costos del clúster de flujo de datos, la orquestación y la ejecución. De lo contrario, el costo total es simplemente la suma de los costos de orquestación y ejecución.
Escenarios de ejemplo
Echemos un vistazo a varios ejemplos de escenarios comunes de factoría de datos y costos estimados asociados a cada carga de trabajo. A medida que trabajamos en cada ejemplo, tenga en cuenta estos estándares para los costos de factoría de datos:
- Al revisar la factura, tenga en cuenta que la factoría de datos redondea al siguiente minuto la duración de cada actividad (es decir, 1 minuto y 1 segundo = 2 minutos de facturación).
- Los ejemplos siguientes se basan en escenarios comunes y muestran los costos estimados.
- Se pueden incurrir otros costos en los almacenes de datos y los servicios externos en Azure que se usan.
- Los costos reales pueden diferir ligeramente de estos ejemplos en función de los términos del contrato de venta que tenga con Microsoft.
- En este vínculo se proporcionan más ejemplos: Descripción de los precios de Azure Data Factory a través de ejemplos.
Ejemplo: Copia de datos y transformación con Azure Databricks cada hora
En este escenario, quiere copiar datos de AWS S3 a Azure Blob Storage y transformar los datos con Azure Databricks según una programación horaria de 8 horas al día durante 30 días.
Los precios usados en este ejemplo son hipotéticos y no están diseñados para implicar precios exactos reales. Los costes de lectura y escritura y de supervisión no se muestran, ya que, normalmente, son insignificantes y apenas afectan a los costes generales. Además, las ejecuciones de actividad se redondean al millar más cercano en las estimaciones de la calculadora de precios.
Configuración
Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:
- Una actividad de copia con un conjunto de datos de entrada para los datos que se van a copiar de AWS S3 y un conjunto de datos de salida para los datos de Azure Storage.
- Una actividad de Azure Databricks para la transformación de datos.
- Un desencadenador de programación para ejecutar la canalización cada hora. Cuando quieras ejecutar una canalización, puedes iniciarla inmediatamente o programarla. Además de la canalización en sí, cada instancia de desencadenador cuenta como una sola ejecución de actividad.
Estimación de costos
Consulte la Calculadora de precios de Azure y siga el procedimiento mediante los pasos siguientes:
- Si tanto el origen como el receptor no usan la red virtual administrada de Azure, vaya al paso 2.
- Si ni el origen ni el receptor usan un entorno de ejecución de integración autohospedado, la orquestación y la ejecución se calculan mediante Azure IR.
- Aquí solo se usa la actividad de copia y una actividad externa. No usa la actividad de flujo de datos, por lo que el costo total es igual a la suma de los costos de orquestación y ejecución.
Precios estimados para un mes (8 horas al día durante 30 días):
| Tipos | Cálculo |
|---|---|
| Orquestación (los indicadores de ejecuciones de actividad se expresan en miles) | Tres ejecuciones de actividad (una para la ejecución del desencadenador y dos para ejecuciones de actividad). Recuentos de ejecuciones de actividad/mes = 3 * 8 * 30 = 720. Recuentos de ejecuciones de actividad en miles/mes = 1 |
| Ejecución | 1. Horas de unidad de integración de datos (DIU): Horas de DIU por ejecución = 10 min • Configuración predeterminada de DIU = 4 • DIU horas/mes = (10 min / 60 min) * 4 * 8 * 30 = 160 2. Horas de ejecución de la actividad de canalización externa: • Por tiempo de ejecución: 10 minutos • Ejecución de la actividad de canalización externa = (10 min/60 min) * 8 * 30 = 40 |
Ejemplo de calculadora de precios
Precio total del escenario durante 30 días: 41,01 USD
Ejemplo: uso de la depuración de flujo de datos de asignación para una jornada normal
En este ejemplo se muestran los costos de depuración del flujo de datos de asignación durante una jornada normal de un ingeniero de datos. Los precios usados en el ejemplo siguiente son hipotéticos y no están diseñados para implicar precios reales exactos. Los costes de lectura y escritura y de supervisión no se muestran, ya que, normalmente, son insignificantes y apenas afectan a los costes generales. Además, las ejecuciones de actividad se redondean al millar más cercano en las estimaciones de la calculadora de precios.
Ingeniero de Azure Data Factory
Un ingeniero de fábrica de datos es responsable de diseñar, construir y probar flujos de datos mapeados todos los días. El ingeniero inicia sesión en Azure Data Factory Studio por la mañana y habilita el modo de depuración para flujos de datos. El período de vida predeterminado (TTL) para las sesiones de depuración es de 60 minutos. El ingeniero trabaja durante todo el día durante 8 horas, por lo que la sesión de depuración nunca expira. Por lo tanto, los cargos del ingeniero por el día son:
8 horas * 8 núcleos optimizados para proceso * 0,193 USD por hora por núcleo = 12,35 USD
Gestión presupuestaria
Al planear una implementación de Azure Data Factory, es importante comprender y prever los costos para ayudar a crear un presupuesto para los proyectos de integración de datos y ETL.
Haga clic en el botón 'Informe de consumo' de la pantalla de supervisión del pipeline para obtener una instantánea de las unidades facturadas por cada ejecución.
En la página de supervisión, el informe de consumo se puede usar manualmente para cualquier ejecución de canalización desde una ejecución de depuración o desencadenada manualmente, o incluso desde una ejecución de desencadenador automatizada.
El informe de consumo de canalización de factoría de datos indica las unidades estimadas facturadas. Estas pruebas se pueden ejecutar mediante una ejecución de depuración de la canalización en conjuntos de datos más pequeños y, después, extrapolar el presupuesto de producción de estas estimaciones.
El informe de consumo proporciona valores en unidades. Para derivar una estimación monetaria de esto, multiplique el valor de las unidades de este informe por el precio de la región en función de la calculadora de precios de Azure. Esto genera una estimación para esa ejecución de canalización. Un procedimiento recomendado es ejecutar el flujo de trabajo varias veces con diferentes conjuntos de datos para obtener un rango base de costos y usar un promedio de esas ejecuciones en tu presupuesto.
Optimización de costos de Azure
En esta sección se describe la optimización de costos con la administración de costos de Microsoft, Azure Advisor y para las instancias reservadas de la factoría de datos.
Administración de costos de Microsoft
Microsoft Azure proporciona herramientas que le ayudan a realizar un seguimiento, optimización y control de los gastos de Azure. Si el gasto de la factoría de datos es una prioridad principal, la recomendación es crear un grupo de recursos independiente en Azure para cada factoría de datos. De este modo, es fácil crear presupuestos, realizar un seguimiento de los gastos y aplicar controles de costos mediante Microsoft Cost Management.
En la actualidad, las organizaciones están trabajando más duro que nunca para controlar el gasto y hacer más con menos. Puede usar la característica presupuestos de Azure para establecer límites de gasto en el uso de Azure Data Factory v2 y el grupo de recursos general de Azure que usa para la factoría de datos.
En la ventana Crear presupuesto, use filtros para elegir el servicio Azure Data Factory o un grupo de recursos.
Azure Advisor
Otra herramienta valiosa para optimizar el presupuesto de Azure es Azure Advisor. Con Azure Advisor, puede recibir recomendaciones para reducir el gasto general de Azure. Esto incluye el uso de los precios de las instancias reservadas de Azure Data Factory para reducir los costos de asignación de flujos de datos. También puede pagar los cargos de Azure Data Factory con el crédito de pago previo de Azure.
Instancias reservadas en Azure Data Factory
Las instancias reservadas están disponibles en Azure Data Factory para asignar flujos de datos, que puede usar para proporcionar ahorros sobre el precio de lista normal de los flujos de datos. Con las instancias reservadas, se compra con antelación reservas de 1 o 3 años con unos niveles de descuento que dependen de la duración de la reserva. Para ver una vista personalizada del ahorro de costos mediante instancias reservadas, vaya a Azure Portal y elija Reservas y, a continuación, seleccione Factoría de datos. A partir de ahí, elegirá el tipo de flujos de datos que normalmente usa y, a continuación, Azure Portal calculará el ahorro futuro en función del uso anterior de la factoría de datos.
La reserva de la capacidad del flujo de datos de asignación mediante instancias reservadas le permite proporcionar un descuento inmediato en el gasto general de la factoría de datos relacionado directamente con el uso del flujo de datos.
Seguimiento de los gastos de la factoría de datos
A medida que crea la infraestructura de integración de datos en Azure, es importante realizar un seguimiento de los gastos a lo largo del tiempo. Hay varias maneras de realizar un seguimiento del presupuesto de la factoría de datos. De forma predeterminada, la factoría de datos proporciona un costo global resumido para la fábrica en función de los distintos medidores de facturación que utiliza el servicio.
Uso de la vista granular de facturación de canalización
Puede pedir a la factoría de datos que proporcione la acumulación del nivel de canalización de los costos estableciendo la fábrica que va a usar la facturación de la canalización como opción en la configuración de la fábrica.
Esta vista proporciona un desglose del gasto de la factoría de datos por cada canalización. Esto puede resultar útil a la hora de atribuir costos a un nivel de elemento de línea, en lugar de un resumen de fábrica (que es el valor predeterminado).
La vista de nivel de canalización de la factura de Data Factory es útil para atribuir los costos generales de la factoría de datos a cada recurso de canalización. También resulta útil proporcionar un mecanismo fácil de usar para implementar cargos a los usuarios de la fábrica, tanto para el consumo interno de la organización como para el uso externo por parte de clientes o asociados.
Uso de etiquetas para la atribución de costos de canalización
Otro mecanismo para realizar el seguimiento de los costos de asignación del recurso de factoría de datos es usar el etiquetado en la factoría. Puede asignar la misma etiqueta a la factoría de datos y a otros recursos de Azure, colocándolos en la misma categoría para ver su facturación consolidada. Todas las IR de SSIS (SQL Server Integration Services) dentro de la factoría heredan esta etiqueta. Tenga en cuenta que si cambia la etiqueta de la factoría de datos, debe detener y reiniciar todos los entornos de ejecución de integración de SSIS de la fábrica para que hereden la nueva etiqueta. Para obtener más información, consulte la sección Reconfiguración de SSIS IR.