Поделиться через


Планирование управления затратами на Azure Data Factory

ПРИМЕНИМО К: Azure Data Factory Azure Synapse Analytics

Совет

Data Factory в Microsoft Fabric — это следующее поколение Azure Data Factory с более простой архитектурой, встроенным ИИ и новыми функциями. Если вы не знакомы с интеграцией данных, начните с Fabric Data Factory. Существующие рабочие нагрузки ADF могут обновляться до Fabric для доступа к новым возможностям в области обработки и анализа данных, аналитики в режиме реального времени и отчетов.

В этой статье описывается планирование затрат на Azure Data Factory и управление ими.

Во-первых, в начале проекта ETL вы используете сочетание ценообразования Azure и калькуляторов затрат и цен на конвейер, чтобы планировать затраты Azure Data Factory до добавления ресурсов для оценки затрат службы. Затем при добавлении Azure ресурсов просмотрите предполагаемые затраты. После начала использования Azure Data Factory ресурсов используйте функции управления затратами, чтобы задать бюджеты и отслеживать затраты. Вы также можете просмотреть прогнозируемые затраты и определить тенденции расходов, чтобы определить области, в которых может потребоваться действовать. Затраты на Azure Data Factory являются лишь частью ежемесячных расходов в счете Azure. Обратите внимание, что в этой статье описывается только планирование затрат на фабрику данных и управление ими. Вы оплачиваете все службы и ресурсы Azure, используемые в подписке Azure, включая услуги сторонних поставщиков.

Предварительные условия

Анализ затрат в службе "Управление затратами" поддерживает большинство типов учетных записей Azure, но не все. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами"). Чтобы просмотреть данные о затратах, требуется по крайней мере доступ на чтение для учетной записи Azure. Сведения о назначении доступа к данным Azure Cost Management см. в статье Assign access to data.

Оценка затрат перед использованием Azure Data Factory

Используйте калькулятор цен ADF, чтобы получить оценку затрат на выполнение рабочей нагрузки ETL в Azure Data Factory. Чтобы использовать калькулятор, необходимо ввести такие сведения, как количество выполнения действий, количество часов интеграции данных, тип вычислений, используемых для Data Flow, количество ядер, количество экземпляров, длительность выполнения и т. д.

Одним из часто задаваемых вопросов для калькулятора цен заключается в том, какие значения следует использовать в качестве входных данных. На этапе проверки концепции вы можете проводить пробные запуски, используя образцы наборов данных, чтобы понять потребление для различных счетчиков Azure Data Factory. Затем на основе потребления образца набора данных можно спроецировать потребление для полного набора данных и рабочего расписания.

Примечание.

Цены, используемые в этом примере ниже, являются гипотетическими и не предназначены для обозначения фактических цен.

Например, предположим, что необходимо переместить 1 ТБ данных ежедневно из AWS S3 в Azure Data Lake 2-го поколения. Вы можете провести эксперимент с перемещением 100 ГБ данных, чтобы измерить пропускную способность приема данных и оценить соответствующее потребление.

Ниже приведены подробности запуска примерной операции копирования (результаты могут сильно различаться в зависимости от структуры конкретного набора данных, скорости сети, ограничений исходящего трафика для учетной записи S3, ограничений входящего трафика для ADLS Gen2 и других факторов).

Запуск копирования S3

С помощью мониторинга потребления на уровне выполнения этапов конвейера можно просмотреть соответствующие объёмы потребления счетчиков перемещения данных.

Потребление конвейера S3

Таким образом, общее число DIU-часов, затрачиваемых на перемещение 1 ТБ в день за весь месяц, равно:

1,2667 (DIU-часы) * (1 ТБ/100 ГБ) * 30 (дни в месяце) = 380 DIU-часов

Теперь вы можете ввести 30 выполнений действий и 380 DIU-часов в калькулятор цен для Фабрики данных Azure, чтобы получить оценку ежемесячного счета:

Калькулятор цен на копирование для S3

Общие сведения о полной модели выставления счетов для Azure Data Factory

Azure Data Factory выполняется на инфраструктуре Azure, где возникают затраты при развертывании новых ресурсов. Важно понимать, что другие дополнительные затраты на инфраструктуру могут начисляться.

Как взимается плата за Azure Data Factory

Azure Data Factory — это бессерверная и эластичная служба интеграции данных, созданная для масштабирования облака. Нет вычислительных ресурсов фиксированного размера, которые необходимо планировать для пиковой нагрузки; вместо этого вы указываете, сколько ресурсов выделяется по требованию для каждой операции, что позволяет создавать процессы ETL гораздо более масштабируемым образом. Кроме того, Azure Data Factory оплачивается по плану, основанному на потреблении, что означает, что вы платите только за то, что используете.

При создании или использовании ресурсов Azure Data Factory может взиматься плата за использование следующих счётчиков:

  • Запуски действий оркестрации - за них взимается плата в зависимости от количества этих запусков.
  • Единица интеграции данных (DIU) — для действий копирования, выполняемых на Azure Integration Runtime, плата взимается на основе количества использованных DIU и длительности выполнения.
  • Часы виртуальных ядер — для выполнения и отладки потока данных взимается плата за использование типа вычислений, количества виртуальных ядер и длительности выполнения.

По окончании цикла выставления счетов сборы за каждый счетчик суммируются. Ваш счет-фактура отображает раздел для всех затрат Azure Data Factory. Для каждого счетчика имеется отдельная строка.

Другие затраты, которые могут начисляться с помощью Azure Data Factory

При создании ресурсов для Azure Data Factory (ADF) также создаются ресурсы для других служб Azure. К ним относятся:

  • Выполнение активности конвейера
  • Выполнение операции внешней конвейерной линии
  • Создание, редактирование, получение и мониторинг артефактов фабрики данных
  • Длительность SSIS Integration Runtime (IR) на основе типа экземпляра и длительности

Примечание.

Вы можете назначить один и тот же тег ADF и другим ресурсам Azure, помещая их в ту же категорию, чтобы просмотреть консолидированное выставление счетов. Тег ADF будет унаследован всеми средами выполнения интеграции SSIS. Если вы измените тег ADF, необходимо будет отключить и перезапустить все среды выполнения интеграции SSIS в этой службе, чтобы они унаследовали новый тег. Ознакомьтесь с разделом Перенастройка среды выполнения интеграции Azure SSIS.

Использование предоплаты Azure с Azure Data Factory

Вы можете оплатить расходы Azure Data Factory с помощью кредита на предоплату Azure. Однако вы не можете использовать Azure кредит на предоплату для оплаты за сторонние продукты и услуги, в том числе из Azure Marketplace.

Мониторинг затрат

Затраты в Azure Data Factory можно отслеживать на уровне фабрики, выполнения конвейера, выполнения конвейера и выполнения активности.

Мониторинг затрат на уровне фабрики с помощью анализа затрат

Вы несете расходы, используя ресурсы Azure с Data Factory. Azure затраты на единицу использования ресурсов зависят от интервалов времени (в секундах, минутах, часах и днях) или единиц использования (байты, мегабайты и т. д.). Как только начнется использование Data Factory, затраты начнут начисляться, и вы сможете просмотреть их в анализе cost.

При использовании анализа затрат вы можете просматривать затраты на Фабрику данных в виде графиков и таблиц для различных временных интервалов. Например, можно отслеживать данные за день, текущий и предыдущий месяц и год. Вы также можете просматривать затраты по бюджету и прогнозируемые затраты. Чтобы выявить тенденции по затратам, можно выбрать представления затрат в динамике за более длительный срок. Это позволяет определить, где возможен перерасход средств. Если вы создали бюджеты, вы легко можете увидеть, где они превышены.

Порядок просмотра затрат на Фабрику данных в разделе анализа затрат

  1. Войдите на портал Azure.
  2. Откройте область на портале Azure и выберите Cost analysis в меню. Например, перейдите к разделу Подписки, выберите подписку из списка и щелкните в меню Анализ стоимости. Выберите Область, чтобы перейти в другую область анализа затрат.
  3. По умолчанию стоимость служб отображается на первой кольцевой диаграмме. Выберите область в диаграмме, помеченной Azure Data Factory версии 2.

Фактические затраты за месяц отображаются при первом открытии анализа затрат. Ниже приведен пример, где показаны все ежемесячные затраты на использование.

Пример накопленных затрат для подписки

  • Чтобы уменьшить затраты на отдельную службу, например Фабрику данных, выберите Добавить фильтр и Имя службы. Затем выберите Azure Data Factory версии 2.

Ниже приведен пример, где показаны затраты только для Фабрики данных.

Пример накопленных затрат для ServiceName

В предыдущем примере показаны текущие затраты на службу. Также отображаются затраты по Azure регионам (расположениям) и затратам фабрики данных по группе ресурсов. Здесь можно самостоятельно изучить затраты.

Мониторинг затрат на уровне конвейера с помощью анализа затрат

В некоторых случаях может потребоваться детализированное распределение затрат на операции в нашей фабрике, например, в целях обратной оплаты. Интегрируя платформу анализа затрат на выставление счетов Azure, фабрика данных может выделить расходы на выставление счетов для каждого конвейера. Подключив подробные отчеты о выставлении счетов в Azure Data Factory, вы можете лучше понять, сколько стоит каждый конвейер в указанной фабрике.

Вам нужно включить каждую фабрику, для которой требуется подробное выставление счетов. Чтобы включить функцию подробного выставления счетов для каждого потока, выполните следующие действия.

  1. Перейдите на портал Azure Data Factory
  2. На вкладке "Управление" выберите параметр "Фабрика" в разделе "Общие "
  3. Выбор отчета о выставлении счетов по конвейеру
  4. Публикация изменения

Снимок экрана: шаги, позволяющие включить функцию выставления счетов по конвейеру.

Примечание.

Подробные параметры счетов конвейера не включены в экспортированные из фабрики шаблоны ARM. Это означает, что непрерывная интеграция и доставка (CI/CD) не перезаписывает поведение выставления счетов для фабрики. Это позволяет задать различные варианты выставления счетов для разработки, тестирования и производственных фабрик.

После включения функции каждый конвейер будет иметь отдельную запись в отчете о выставлении счетов: он показывает , сколько стоит каждый конвейер, в выбранном интервале времени. Он позволяет определить тенденции расходов и заметить превышение расходов, если это произошло.

Снимок экрана: пример детализации затрат на конвейер.

Используя средства графирования анализа затрат, вы получаете аналогичные диаграммы и линии тенденций, как показано выше, но для отдельных конвейеров. Вы также получаете представление сводки по имени фабрики, так как имя фабрики включается в отчет о выставлении счетов, что позволяет правильно фильтровать при необходимости.

Изменение влияет только на то, как счета будут выставляться в будущем, и не изменяет прошлые начисления. Потребуется некоторое время, прежде чем изменения отобразятся в отчете о выставлении счетов: как правило, они отражаются в течение 1 дня.

Предупреждение

При выборе параметра настройки выставления счетов на каждую отдельную операцию, будет одна запись для каждого конвейера на вашей фабрике. Обратите особое внимание, если у вас слишком много конвейеров в фабрике, так как это может значительно продлить и усложнить отчет о выставлении счетов.

Ограничения

Ниже приведены известные ограничения функций выставления счетов для конвейера. Эти счетчики для выставления счетов не будут распределены по конвейеру, на котором они вращаются, но вместо этого будут отнесены к резервному позиционному элементу для вашей фабрики.

  • Плата за операции фабрики данных, включая чтение и запись и мониторинг
  • Плата за узлы Azure Data Factory SQL Server Integration Services (SSIS
  • Если Time to Live (TTL) настроено для Azure Integration Runtime (Azure IR), действия Data Flow, выполняемые на этих IR, не будут учтены в отдельных конвейерах.

Мониторинг потребления на уровне запуска конвейера в Azure Data Factory

В зависимости от типов действий, которые имеются в вашем конвейере, объема данных, которые вы перемещаете и преобразуете, и сложности преобразования, выполнение конвейера будет активировать различные счетчики оплаты в Azure Data Factory.

Вы можете просмотреть объем потребления для разных счетчиков для отдельных конвейеров в Azure Data Factory пользовательском интерфейсе. Чтобы открыть интерфейс мониторинга, выберите вкладку Мониторинг и управление на панели фабрики данных в портале Azure. Если вы уже находитесь в пользовательском интерфейсе ADF, выберите значок монитора на левой боковой панели. Представление мониторинга по умолчанию представляет собой список запусков конвейеров.

При нажатии кнопки Потребление рядом с именем конвейера отображается всплывающее окно, показывающее потребление вашего запуска конвейера, агрегированное по всем действиям в конвейере.

Потребление запуска конвейера

Сведения о потреблении конвейера

В представлении потребления запуска конвейера отображается объем, использованный для каждого счетчика ADF за конкретный запуск конвейера, однако фактическая стоимость не отображается, поскольку она зависит от типа используемой вами учетной записи Azure и типа применяемой валюты. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами").

Мониторинг потребления на уровне выполнения действий в Azure Data Factory

Если вы изучили агрегированное потребление на уровне выполнения конвейера, существуют сценарии, в которых необходимо выполнить дальнейшую детализацию и определить, какое из действий в конвейере является наиболее дорогостоящим.

Чтобы просмотреть потребление на уровне выполнения действий, перейдите в раздел Создание и мониторинг пользовательского интерфейса фабрики данных. На вкладке "Монитор", где отображается список запусков конвейера, выберите ссылку на имя конвейера, чтобы получить доступ к списку действий, выполняемых в выполнении конвейера. Нажмите кнопку "Вывод" рядом с именем действия и найдите свойство billableDuration в выходных данных JSON:

Ниже приведен пример выполнения действия копирования:

Копировать вывод

Ниже приведен пример выполнения действия сопоставления Data Flow.

Выходные данные потока данных

Создание бюджетов

Вы можете создать бюджеты, чтобы управлять затратами и создавать оповещения, которые автоматически уведомляют заинтересованные лица о нетипичных и чрезмерных затратах. Оповещения основываются на расходах по сравнению с пороговыми значениями бюджета и затрат. Бюджеты и оповещения создаются для подписок Azure и групп ресурсов, поэтому они являются полезным элементом общей стратегии мониторинга затрат.

Бюджеты можно создавать с фильтрами для определенных ресурсов или служб в Azure, если требуется более детальное представление в мониторинге. Фильтры помогают предотвратить случайное создание новых ресурсов, позволяя избежать дополнительных затрат. Дополнительные сведения о параметрах фильтра при создании бюджета см. в разделе Параметры группы и фильтра.

Экспорт данных о затратах

Можно также экспортировать данные о затратах в учетную запись хранения. Это полезно, если вам или другим нужно проводить анализ данных по затратам. Например, финансовые команды могут анализировать данные с помощью Excel или Power BI. Можно экспортировать данные о затратах ежедневно, еженедельно или ежемесячно и задать настраиваемый диапазон дат. Экспорт данных по затратам — это рекомендуемый способ извлечения неагрегированных данных о затратах.