Tutorial Lakehouse: Menyerap data ke lakehouse

Dalam tutorial ini, Anda menyerap lebih banyak tabel dimensi dan fakta dari Wide World Importers (WWI) ke lakehouse.

Prasyarat

Menyerap data

Di bagian ini, Anda menggunakan aktivitas Salin data alur Data Factory untuk menyerap data sampel dari akun penyimpanan Azure ke bagian File dari lakehouse yang Anda buat sebelumnya.

  1. Pilih Ruang Kerja di panel navigasi kiri, lalu pilih ruang kerja baru Anda dari menu Ruang Kerja. Tampilan item ruang kerja Anda muncul.

  2. Dari item menu +Baru di pita ruang kerja, pilih Alur data.

    Cuplikan layar memperlihatkan cara membuat alur data baru.

  3. Dalam kotak dialog Alur baru, tentukan nama sebagai IngestDataFromSourceToLakehouse dan pilih Buat. Alur pabrik data baru dibuat dan dibuka.

  4. Pada alur pabrik data yang baru dibuat, pilih Aktivitas alur untuk menambahkan aktivitas ke alur dan pilih Salin data. Tindakan ini menambahkan aktivitas salin data ke kanvas alur.

    Cuplikan layar memperlihatkan tempat untuk memilih Aktivitas alur dan Menyalin data.

  5. Pilih aktivitas salin data yang baru ditambahkan dari kanvas. Properti aktivitas muncul di panel di bawah kanvas (Anda mungkin perlu memperluas panel ke atas dengan menyeret tepi atas). Pada tab Umum di panel properti, ketik Salin Data ke Lakehouse di bidang Nama .

    Cuplikan layar memperlihatkan tempat untuk menambahkan nama aktivitas salin pada tab Umum.

  6. Pada tab Sumber dari aktivitas salin data yang dipilih, pilih Eksternal sebagai Jenis penyimpanan data lalu pilih + Baru untuk membuat koneksi baru ke sumber data.

    Cuplikan layar memperlihatkan tempat untuk memilih Eksternal dan + Baru pada tab Sumber.

  7. Untuk tutorial ini, semua data sampel tersedia dalam kontainer publik penyimpanan blob Azure. Anda tersambung ke kontainer ini untuk menyalin data dari kontainer tersebut. Pada layar Koneksi baru pertama, pilih Azure Blob Storage lalu pilih Lanjutkan.

    Cuplikan layar Wizard koneksi baru, memperlihatkan tempat untuk memilih Azure Blob Storage.

  8. Pada layar pengaturan Koneksi ion, masukkan detail berikut dan pilih Buat untuk membuat koneksi ke sumber data.

    Properti Nilai
    Nama akun atau URL https://azuresynapsestorage.blob.core.windows.net/sampledata
    Connection Buat koneksi baru
    Nama koneksi wwisampledata
    Jenis autentikasi Anonim

    Cuplikan layar pengaturan Koneksi ion, memperlihatkan tempat memasukkan detail dan pilih Buat.

  9. Setelah koneksi baru dibuat, kembali ke tab Sumber dari aktivitas salin data, dan koneksi yang baru dibuat dipilih secara default. Tentukan properti berikut sebelum pindah ke pengaturan tujuan.

    Properti Nilai
    Jenis penyimpanan data Eksternal
    Connection wwisampledata
    Jenis jalur file Jalur file
    Jalur file Nama kontainer (kotak teks pertama): sampledata
    Nama direktori (kotak teks kedua): WideWorldImportersDW/parquet
    Secara rekursif Dicentang
    Format file Biner

    Cuplikan layar tab sumber memperlihatkan tempat memasukkan detail tertentu.

  10. Pada tab Tujuan dari aktivitas salin data yang dipilih, tentukan properti berikut ini:

    Properti Nilai
    Jenis penyimpanan data Ruang kerja
    Jenis penyimpanan data ruang kerja Lakehouse
    Lakehouse wwilakehouse
    Folder akar File
    Jalur file Nama direktori (kotak teks pertama): wwi-raw-data
    Format file Biner

    Cuplikan layar tab Tujuan, memperlihatkan tempat memasukkan detail tertentu.

  11. Anda telah mengonfigurasi aktivitas salin data. Pilih ikon simpan pada pita atas (di bawah Beranda) untuk menyimpan perubahan Anda, dan pilih Jalankan untuk menjalankan alur Anda dan aktivitasnya. Anda juga dapat menjadwalkan alur untuk me-refresh data pada interval yang ditentukan untuk memenuhi persyaratan bisnis Anda. Untuk tutorial ini, kita menjalankan alur hanya sekali dengan memilih Jalankan.

    Tindakan ini memicu salinan data dari sumber data yang mendasar ke lakehouse yang ditentukan dan mungkin memerlukan waktu hingga satu menit untuk diselesaikan. Anda dapat memantau eksekusi alur dan aktivitasnya di bawah tab Output , yang muncul saat Anda mengklik di mana saja di kanvas. Secara opsional, Anda dapat memilih ikon kacamata, yang muncul saat Mengarahkan kursor ke nama, untuk melihat detail transfer data.

    Cuplikan layar memperlihatkan tempat untuk memilih Simpan dan Jalankan, dan tempat menemukan ikon detail eksekusi dan kacamata pada tab Output.

  12. Setelah data disalin, buka tampilan item ruang kerja dan pilih lakehouse baru Anda (wwilakehouse) untuk meluncurkan tampilan Explorer .

    Cuplikan layar memperlihatkan tempat memilih lakehouse untuk meluncurkan tampilan Explorer.

  13. Validasi bahwa folder baru wwi-raw-data muncul di tampilan Explorer , dan data untuk semua tabel disalin di sana.

    Cuplikan layar memperlihatkan data sumber disalin ke penjelajah Lakehouse.

Untuk memuat data bertahap ke lakehouse, lihat Memuat data secara bertahap dari gudang data ke lakehouse.

Langkah selanjutnya