Поделиться через


Планирование затрат и управление ими для Фабрики данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается планирование затрат и управление ими для Фабрики данных Azure.

Во-первых, в начале проекта ETL вы используете сочетание калькуляторов цен на Azure и затрат на использование по каждому конвейеру, что помогает спланировать затраты на Azure Data Factory перед добавлением любых ресурсов в службу, чтобы оценить затраты. Затем, при добавлении ресурсов Azure, нужно проанализировать предполагаемые затраты. После того как вы начнете использовать ресурсы Фабрики данных Azure, используйте функции управления затратами для расчета бюджетов и отслеживания затрат. Кроме того, вы можете просматривать прогнозируемые затраты и выявлять тренды, чтобы определить области, где вы, возможно, захотите вмешаться. Затраты на Azure Data Factory составляют лишь часть ежемесячных расходов в вашем счете за Azure. Обратите внимание, что в этой статье описывается только планирование затрат на фабрику данных и управление ими. Плата взимается за все службы и ресурсы Azure, используемые в подписке Azure, включая сторонние службы.

Предварительные условия

Анализ затрат в службе управления затратами поддерживает большинство типов учетных записей Azure, но не все. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами"). Чтобы просмотреть данные о затратах, для учетной записи Azure нужен как минимум доступ на чтение. Дополнительные сведения о назначении доступа к данным службы "Управление затратами" Azure см. в этой статье.

Оценка затрат перед использованием Фабрики данных Azure

Используйте калькулятор ценообразования ADF, чтобы получить оценку стоимости выполнения ETL рабочей нагрузки в Фабрике данных Azure. Чтобы использовать калькулятор, необходимо ввести такие сведения, как количество выполнения действий, количество часов интеграции данных, тип вычислительных ресурсов, используемых для Поток данных, количество ядер, количество экземпляров, длительность выполнения и т. д.

Одним из часто задаваемых вопросов для калькулятора цен заключается в том, какие значения следует использовать в качестве входных данных. На этапе проверки концепции вы можете проводить пробные запуски, используя образцы наборов данных, чтобы понять потребление для различных счетчиков Azure Data Factory. Затем на основе потребления образца набора данных можно спроецировать потребление для полного набора данных и рабочего расписания.

Примечание.

Цены, используемые в этом примере ниже, являются гипотетическими и не предназначены для обозначения фактических цен.

Например, предположим, что вам нужно ежедневно перемещать 1 ТБ данных из AWS S3 в Azure Data Lake 2-го поколения. Вы можете провести эксперимент с перемещением 100 ГБ данных, чтобы измерить пропускную способность приема данных и оценить соответствующее потребление.

Ниже приведены подробности запуска примерной операции копирования (результаты могут сильно различаться в зависимости от структуры конкретного набора данных, скорости сети, ограничений исходящего трафика для учетной записи S3, ограничений входящего трафика для ADLS Gen2 и других факторов).

Запуск копирования S3

С помощью мониторинга потребления на уровне выполнения этапов конвейера можно просмотреть соответствующие объёмы потребления счетчиков перемещения данных.

Потребление конвейера S3

Таким образом, общее число DIU-часов, затрачиваемых на перемещение 1 ТБ в день за весь месяц, равно:

1,2667 (DIU-часы) * (1 ТБ/100 ГБ) * 30 (дни в месяце) = 380 DIU-часов

Теперь вы можете ввести 30 выполнений действий и 380 DIU-часов в калькулятор цен для Фабрики данных Azure, чтобы получить оценку ежемесячного счета:

Калькулятор цен на копирование для S3

Сведения о полной модели выставления счетов для Фабрики данных Azure

Фабрика данных Azure работает в инфраструктуре Azure, в которой затраты начисляются при развертывании нового ресурса. Важно понимать, что другие дополнительные затраты на инфраструктуру могут начисляться.

Как выставляются счета за Фабрику данных Azure

Фабрика данных Azure — это бессерверная и эластичная служба интеграции данных, предназначенная для применения в облаке. Нет вычислительных ресурсов фиксированного размера, которые необходимо планировать для пиковой нагрузки; вместо этого вы указываете, сколько ресурсов выделяется по требованию для каждой операции, что позволяет создавать процессы ETL гораздо более масштабируемым образом. Кроме того, Azure Data Factory оплачивается по плану, основанному на потреблении, что означает, что вы платите только за то, что используете.

При создании или использовании ресурсов Фабрики данных Azure вам могут начисляться расходы за следующие измерители:

  • Запуски действий оркестрации - за них взимается плата в зависимости от количества этих запусков.
  • Единицы интеграции данных (DIU) — для операций копирования, выполняемых в среде выполнения Azure Integration Runtime, плата взимается в зависимости от количества использованных DIU и продолжительности выполнения.
  • Часы виртуальных ядер — для выполнения и отладки потока данных взимается плата за использование типа вычислений, количества виртуальных ядер и длительности выполнения.

По окончании цикла выставления счетов сборы за каждый счетчик суммируются. В вашем счете или счете-фактуре отображается раздел, где указаны все затраты на Azure Data Factory. Для каждого счетчика имеется отдельная строка.

Другие расходы, которые могут возникнуть в результате использования Фабрики данных Azure

При создании ресурсов для Фабрики данных Azure (ADF) также создаются ресурсы для других служб Azure. К ним относятся:

  • Выполнение активности конвейера
  • Выполнение операции внешней конвейерной линии
  • Создание, редактирование, получение и мониторинг артефактов фабрики данных
  • Продолжительность SSIS Integration Runtime (IR) в зависимости от типа и длительности экземпляра

Примечание.

Вы можете назначить один и тот же тег для ресурсов ADF и других ресурсов Azure, поместив их в одну категорию для просмотра объединенных счетов за их использование. Тег ADF будет унаследован всеми средами выполнения интеграции SSIS. Если вы измените тег ADF, необходимо будет отключить и перезапустить все среды выполнения интеграции SSIS в этой службе, чтобы они унаследовали новый тег. Ознакомьтесь с разделом Перенастройка среды выполнения интеграции Azure SSIS.

Использование предоплаты Azure с Фабрикой данных Azure

Вы можете оплачивать расходы на использование Azure Data Factory с помощью авансового кредита Azure. Однако нельзя использовать кредит на предоплату Azure для оплаты продуктов и услуг сторонних производителей, включая услуги из Azure Marketplace.

Мониторинг затрат

Затраты в Azure Data Factory можно отслеживать на уровнях фабрики, выполнения конвейера, выполнения конвейера и выполнения активности.

Мониторинг затрат на уровне фабрики с помощью анализа затрат

При использовании ресурсов Azure с Фабрикой данных взимается плата. Затраты на единицу использования ресурсов Azure учитываются в зависимости от временных интервалов (секунды, минуты, часы и дни) или потребления на единицу измерения (байты, мегабайты и т. д.). С началом использования ресурсов в Фабрике данных начинает начисляться оплата и вы можете просмотреть затраты в разделе Анализ затрат.

При использовании анализа затрат вы можете просматривать затраты на Фабрику данных в виде графиков и таблиц для различных временных интервалов. Например, можно отслеживать данные за день, текущий и предыдущий месяц и год. Вы также можете просматривать затраты по бюджету и прогнозируемые затраты. Чтобы выявить тенденции по затратам, можно выбрать представления затрат в динамике за более длительный срок. Это позволяет определить, где возможен перерасход средств. Если вы создали бюджеты, вы легко можете увидеть, где они превышены.

Порядок просмотра затрат на Фабрику данных в разделе анализа затрат

  1. Войдите на портал Azure.
  2. Откройте необходимую область портала Azure и выберите в меню пункт Анализ затрат. Например, перейдите к разделу Подписки, выберите подписку из списка и щелкните в меню Анализ стоимости. Выберите Область, чтобы перейти в другую область анализа затрат.
  3. По умолчанию стоимость служб отображается на первой кольцевой диаграмме. Выберите область диаграммы с меткой "Фабрика данных Azure версии 2".

Фактические затраты за месяц отображаются при первом открытии анализа затрат. Ниже приведен пример, где показаны все ежемесячные затраты на использование.

Пример накопленных затрат для подписки

  • Чтобы уменьшить затраты на отдельную службу, например Фабрику данных, выберите Добавить фильтр и Имя службы. Затем выберите Фабрика данных Azure версии 2.

Ниже приведен пример, где показаны затраты только для Фабрики данных.

Пример накопленных затрат для ServiceName

В предыдущем примере показаны текущие затраты на службу. Также показаны затраты по регионам Azure (расположениям) и затраты на Фабрику данных по группам ресурсов. Здесь можно самостоятельно изучить затраты.

Мониторинг затрат на уровне конвейера с помощью анализа затрат

В некоторых случаях может потребоваться детализированное распределение затрат на операции в нашей фабрике, например, в целях обратной оплаты. Интегрировав платформу анализа затрат Azure Billing, фабрика данных может выделять расходы на выставление счетов для каждого конвейера. Включив подробные отчеты о выставлении счетов для конкретной фабрики в Azure Data Factory, вы сможете лучше понять, сколько стоит каждый конвейер в указанной фабрике.

Вам нужно включить каждую фабрику, для которой требуется подробное выставление счетов. Чтобы включить функцию подробного выставления счетов для каждого потока, выполните следующие действия.

  1. Перейдите на портал Фабрика данных Azure
  2. На вкладке "Управление" выберите параметр "Фабрика" в разделе "Общие "
  3. Выбор отчета о выставлении счетов по конвейеру
  4. Публикация изменения

Снимок экрана: шаги, позволяющие включить функцию выставления счетов по конвейеру.

Примечание.

Подробные параметры счетов конвейера не включены в экспортированные из фабрики шаблоны ARM. Это означает, что непрерывная интеграция и доставка (CI/CD) не перезаписывает поведение выставления счетов для фабрики. Это позволяет задать различные варианты выставления счетов для разработки, тестирования и производственных фабрик.

После включения функции каждый конвейер будет иметь отдельную запись в отчете о выставлении счетов: он показывает , сколько стоит каждый конвейер, в выбранном интервале времени. Он позволяет определить тенденции расходов и заметить превышение расходов, если это произошло.

Снимок экрана: пример детализации затрат на конвейер.

Используя средства графирования анализа затрат, вы получаете аналогичные диаграммы и линии тенденций, как показано выше, но для отдельных конвейеров. Вы также получаете представление сводки по имени фабрики, так как имя фабрики включается в отчет о выставлении счетов, что позволяет правильно фильтровать при необходимости.

Изменение влияет только на то, как счета будут выставляться в будущем, и не изменяет прошлые начисления. Потребуется некоторое время, прежде чем изменения отобразятся в отчете о выставлении счетов: как правило, они отражаются в течение 1 дня.

Предупреждение

При выборе параметра настройки выставления счетов на каждую отдельную операцию, будет одна запись для каждого конвейера на вашей фабрике. Обратите особое внимание, если у вас слишком много конвейеров в фабрике, так как это может значительно продлить и усложнить отчет о выставлении счетов.

Ограничения

Ниже приведены известные ограничения функций выставления счетов для конвейера. Эти счетчики для выставления счетов не будут распределены по конвейеру, на котором они вращаются, но вместо этого будут отнесены к резервному позиционному элементу для вашей фабрики.

  • Плата за операции фабрики данных, включая чтение и запись и мониторинг
  • Плата за узлы SQL Server Integration Services (SSIS) в Azure Data Factory
  • Если для среды выполнения интеграции Azure (Azure IR) настроено время жизни (TTL), действия потоков данных, выполняемые в этих средах IR, не будут учтены в отдельных конвейерах.

Мониторинг использования на уровне запуска конвейера в Azure Data Factory

В зависимости от типов действий в вашем конвейере, объёма данных, которые вы перемещаете и преобразуете, и сложности преобразования, выполнение конвейера запустит различные счетчики выставления счетов в Azure Data Factory.

Вы можете просмотреть объем потребления для разных единиц измерения для отдельных запусков конвейера в пользовательском интерфейсе Фабрики данных Azure. Чтобы открыть интерфейс мониторинга, выберите плитку Мониторинг и управление в колонке фабрики данных на портале Azure. Если вы уже находитесь в пользовательском интерфейсе ADF, выберите значок монитора на левой боковой панели. Представление мониторинга по умолчанию представляет собой список запусков конвейеров.

При нажатии кнопки Потребление рядом с именем конвейера отображается всплывающее окно, показывающее потребление вашего запуска конвейера, агрегированное по всем действиям в конвейере.

Потребление запуска конвейера

Сведения о потреблении конвейера

В представлении потребления запуска конвейера отображается объем, потребленный для каждого счетчика ADF в рамках конкретного запуска конвейера, но не показывается фактическая цена, так как выставленный вам счет зависит от типа вашей учетной записи Azure и используемой валюты. Полный список поддерживаемых типов учетных записей см. в статье Understand Cost Management data (Интерпретация данных службы "Управление затратами").

Мониторинг потребления на уровне выполнения активностей в Azure Data Factory

Если вы изучили агрегированное потребление на уровне выполнения конвейера, существуют сценарии, в которых необходимо выполнить дальнейшую детализацию и определить, какое из действий в конвейере является наиболее дорогостоящим.

Чтобы просмотреть потребление на уровне выполнения действий, перейдите в раздел Создание и мониторинг пользовательского интерфейса фабрики данных. На вкладке "Монитор", где отображается список запусков конвейера, выберите ссылку на имя конвейера, чтобы получить доступ к списку действий, выполняемых в выполнении конвейера. Нажмите кнопку "Вывод" рядом с именем действия и найдите свойство billableDuration в выходных данных JSON:

Ниже приведен пример выполнения действия копирования:

Копировать вывод

Ниже приведен пример выполнения действия сопоставления Поток данных.

Выходные данные потока данных

Создание бюджетов

Вы можете создать бюджеты, чтобы управлять затратами и создавать оповещения, которые автоматически уведомляют заинтересованные лица о нетипичных и чрезмерных затратах. Оповещения основываются на расходах по сравнению с пороговыми значениями бюджета и затрат. Бюджеты и оповещения создаются для подписок и групп ресурсов Azure, поэтому их рекомендуется использовать в рамках общей стратегии мониторинга затрат.

Бюджеты можно создавать с использованием фильтров для конкретных ресурсов или служб в Azure, если требуется дополнительная детализация результатов мониторинга. Фильтры помогают предотвратить случайное создание новых ресурсов, позволяя избежать дополнительных затрат. Дополнительные сведения о параметрах фильтра при создании бюджета см. в разделе Параметры группы и фильтра.

Экспорт данных о затратах

Можно также экспортировать данные о затратах в учетную запись хранения. Это полезно, если вам или другим нужно проводить анализ данных по затратам. Например, специалисты по финансам могут анализировать данные с помощью Excel или Power BI. Можно экспортировать данные о затратах ежедневно, еженедельно или ежемесячно и задать настраиваемый диапазон дат. Экспорт данных по затратам — это рекомендуемый способ извлечения неагрегированных данных о затратах.