Bagikan melalui


Skenario harga menggunakan Dataflow Gen2 untuk memuat 2 GB data Parquet ke tabel Lakehouse

Dalam skenario ini, Dataflow Gen2 digunakan untuk memuat 2 GB data Parquet yang disimpan di Azure Data Lake Storage (ADLS) Gen2 ke tabel Lakehouse di Microsoft Fabric. Kami menggunakan data sampel hijau Taksi NYC untuk data Parquet.

Harga yang digunakan dalam contoh berikut bersifat hipotetis dan tidak berniat untuk menyiratkan harga aktual yang tepat. Ini hanya untuk menunjukkan bagaimana Anda dapat memperkirakan, merencanakan, dan mengelola biaya untuk proyek Data Factory di Microsoft Fabric. Selain itu, karena kapasitas Fabric dihargai secara unik di seluruh wilayah, kami menggunakan harga bayar sesuai pemakaian untuk kapasitas Fabric di US Barat 2 (wilayah Azure biasa), sebesar $ 0,18 per CU per jam. Lihat di sini ke Microsoft Fabric - Harga untuk menjelajahi opsi harga kapasitas Fabric lainnya.

Konfigurasi

Untuk mencapai skenario ini, Anda perlu membuat aliran data dengan langkah-langkah berikut:

  1. Inisialisasi Aliran Data: Dapatkan data file Parquet 2 GB dari akun penyimpanan ADLS Gen2.
  2. Mengonfigurasi Power Query:
    1. Navigasi ke Power Query.
    2. Pastikan opsi untuk penahapan kueri diaktifkan.
    3. Lanjutkan untuk menggabungkan file Parquet.
  3. Transformasi Data:
    1. Promosikan header untuk kejelasan.
    2. Hapus kolom yang tidak perlu.
    3. Sesuaikan jenis data kolom sesuai kebutuhan.
  4. Tentukan Tujuan Data Output:
    1. Konfigurasikan Lakehouse sebagai tujuan output data.
    2. Dalam contoh ini, Lakehouse dalam Fabric dibuat dan digunakan.

Estimasi biaya menggunakan Aplikasi Metrik Fabric

Screenshot showing the duration and CU consumption of the job in the Fabric Metrics App.

Screenshot showing details of Dataflow Gen2 Refresh duration and CU consumption.

Screenshot showing details of SQL Endpoint Query duration and CU consumption used in the run.

Screenshot showing details of Warehouse Query and OneLake Compute duration and CU consumption used in the run.

Screenshot showing details of Query and Dataset On-Demand Refresh duration and CU consumption and SQL Endpoint Query used in the run.

Screenshot showing details of a second Query and Dataset On-Demand Refresh duration and CU consumption used in the run.

Screenshot showing details of OneLake Compute and 2 High Scale Dataflow Compute duration and CU consumption used in the run.

Pengukuran Komputasi Aliran Data Skala Tinggi merekam aktivitas yang dapat diabaikan. Pengukur Komputasi Standar untuk operasi refresh Dataflow Gen2 mengonsumsi 112.098.540 Unit Komputasi (CUs). Penting untuk dipertimbangkan bahwa operasi lain, termasuk Kueri Gudang, Kueri Titik Akhir SQL, dan Refresh Sesuai Permintaan Himpunan Data, merupakan aspek terperinci dari implementasi Dataflow Gen2 yang saat ini transparan dan diperlukan untuk operasi masing-masing. Namun, operasi ini akan disembubungkan dalam pembaruan di masa mendatang dan harus diabaikan saat memperkirakan biaya untuk Dataflow Gen2.

Catatan

Meskipun dilaporkan sebagai metrik, durasi aktual eksekusi tidak relevan saat menghitung jam CU yang efektif dengan Aplikasi Metrik Fabric sejak metrik detik CU, itu juga melaporkan durasinya.

Metric Komputasi Standar Komputasi Skala Tinggi
Total detik CU 112,098,54 CU detik 0 DETIK CU
Jam CU efektif ditagih 112.098,54 / (60*60) = 31,14 jam CU 0 / (60*60) = 0 jam CU

Total biaya eksekusi pada $0,18/JAM CU = (31,14 JAM CU) * ($0,18/jam CU) ~= $5,60