Zdieľať cez


Scenár cenotvorby pomocou služby Dataflow Gen2 na načítanie 2 GB parketových údajov do tabuľky Lakehouse

V tomto scenári sa tok údajov Gen2 použil na načítanie 2 GB parquet údajov uložených v službe Azure Data Lake Storage (ADLS) Gen2 do tabuľky Lakehouse v službe Microsoft Fabric. Používali sme NYC Taxi-zelenej vzorky údajov pre parketové dáta.

Ceny použité v nasledujúcom príklade sú hypotetické a nemajú v úmysle naznačovať presné skutočné ceny. Ide len o ukážku toho, ako môžete odhadnúť, naplánovať a spravovať náklady na projekty služby Data Factory v službe Microsoft Fabric. Keďže kapacity služby Fabric majú jedinečnú cenu v jednotlivých oblastiach, ceny pre kapacitu služby Fabric sa používajú na úrovni 2. západu USA (typická oblasť Azure) na úrovni 0,18 USD za cu za hodinu. Informácie nájdete tu v článku Microsoft Fabric – Ceny a preskúmajte ďalšie možnosti cien kapacity služby Fabric.

Configuration

Ak chcete uskutočniť tento scenár, musíte vytvoriť tok údajov pomocou nasledujúcich krokov:

  1. Inicializácia toku údajov: Získajte 2 GB údaje z konta úložiska ADLS Gen2 s veľkosťou 2 GB.
  2. Konfigurácia doplnku Power Query:
    1. Prejdite do doplnku Power Query.
    2. Skontrolujte, či je možnosť na vnášenie dotazu povolená.
    3. Pokračujte a skombinujte súbory vo formáte Parquet.
  3. Transformácia údajov:
    1. Zvýhodníte prehľadnosť hlavičiek.
    2. Odstránenie nepotrebných stĺpcov.
    3. Podľa potreby upravte typy údajov v stĺpcoch.
  4. Definovanie cieľa výstupných údajov:
    1. Konfigurovať Lakehouse ako cieľ výstupu údajov.
    2. V tomto príklade bol vytvorený a využitý lakehouse v rámci služby Fabric.

Odhad nákladov pomocou aplikácie metrík služby Fabric

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Merač výpočtových tokov údajov vo vysokej mierke zaznamenával aktivitu bez obmedzenia. Štandardný výpočtový meter pre operácie obnovenia toku údajov Gen2 využíva 112 098 540 výpočtových jednotiek (CU). Je dôležité vziať do úvahy, že iné operácie vrátane skladového dotazu, dotazu koncového bodu SQL a obnovenia množiny údajov na požiadanie predstavujú podrobné aspekty implementácie toku údajov služby Gen2, ktoré sú v súčasnosti transparentné a potrebné pre príslušné operácie. Tieto operácie sa však budú v budúcich aktualizáciách zakryť a pri odhadovaní nákladov pre službu Dataflow Gen2 by sa mali nezohľadniť.

Poznámka

Hoci sa zobrazuje ako metrika, skutočné trvanie spustenia nie je pri výpočte efektívnych hodín cu s aplikáciou metrík služby Fabric od metriky CU dôležité, od metriky CU, ktorú tiež predstavuje počas jej trvania.

Metric Štandardný výpočet Výpočet vo vysokej mierke
Celkový počet sekúnd CU 112 098,54 sekundy CU 0 CU sekúnd
Účtuje sa efektívna cu-hours 112,098.54 / (60*60) = 31,14 CU hodín 0 / (60*60) = 0 CU hodín

Celkové náklady na spustenie pri 0,18 USD/hodina CU = (31,14 CU-hours) * (0,18 USD/hodina CU) ~= 5,60 USD