Поделиться через


Сценарий ценообразования с помощью потока данных 2-го поколения для загрузки локальных данных CSV в таблицу Lakehouse

В этом сценарии поток данных 2-го поколения использовался для загрузки 2 ГБ локальных CSV-данных в таблицу Lakehouse в Microsoft Fabric.

Цены, используемые в следующем примере, являются гипотетическими и не намерены подразумевать точные фактические цены. Это просто для демонстрации того, как можно оценить, спланировать и управлять затратами на проекты Фабрики данных в Microsoft Fabric. Кроме того, так как емкости Fabric имеют уникальную цену в разных регионах, мы используем цены на оплату по мере использования для емкости Fabric на западе США 2 (типичный регион Azure) на 0,18 долл. США в час. См. здесь сведения о ценах на Microsoft Fabric. Чтобы изучить другие варианты ценообразования емкости Fabric.

Настройка

Чтобы выполнить этот сценарий, необходимо создать поток данных, выполнив следующие действия.

  1. Инициализация потока данных. Начните с отправки 2 ГБ CSV-файлов из локальной среды в поток данных.
  2. Настройка Power Query:
    1. Перейдите в Power Query.
    2. Отключите параметр для промежуточного выполнения запроса.
    3. Перейдите к сочетанию CSV-файлов.
  3. Преобразование данных:
    1. Повышение уровня заголовков для ясности.
    2. Удалите ненужные столбцы.
    3. При необходимости настройте типы данных столбцов.
  4. Определение назначения выходных данных:
    1. Настройте Lakehouse в качестве назначения выходных данных.
    2. В этом примере был создан и использован Lakehouse в Fabric.

Оценка затрат с помощью приложения метрик Fabric

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of the Dataflow Gen2 Refresh cost

Screenshot showing details of a Dataflow Gen2 High Scale Dataflow Compute consumption used in the run.

Screenshot showing details of a second Dataflow Gen2 High Scale Dataflow Compute consumption used in the run.

Операция обновления потока данных 2-го поколения потребляла 4749,42 секунды CU, а две операции с вычислительными потоками данных высокого масштаба потребляли 7,78 CU секунд + 7,85 СУ каждый.

Примечание.

Несмотря на то, что эта метрика отображается как метрика, фактическое время выполнения не имеет значения при вычислении эффективных часов CU с приложением метрик Структуры, так как метрика метрики CU, которая также сообщает уже о учетных записях в течение его длительности.

Metric Потребление вычислительных ресурсов
Секунды обновления cu для потока данных 2-го поколения 4749,42 секунды CU
Высокомасштабируемые потоки данных вычисляют cu секунды (7.78 + 7.85) 15,63 секунды CU
Счета за действующие часы CU (4749.42 + 15.63) / (60*60) = 1,32 ЧАСОВ CU

Общая стоимость выполнения в $0,18/CU час = (1,32 CU-часа ) * ($0,18/CU час) ~= $0,24