Tutorial Lakehouse: Menyerap data ke lakehouse
Dalam tutorial ini, Anda menyerap lebih banyak tabel dimensi dan fakta dari Wide World Importers (WWI) ke lakehouse.
Prasyarat
- Jika Anda tidak memiliki lakehouse, Anda harus membuat lakehouse.
Menyerap data
Di bagian ini, Anda menggunakan aktivitas Salin data alur Data Factory untuk menyerap data sampel dari akun penyimpanan Azure ke bagian File dari lakehouse yang Anda buat sebelumnya.
Pilih Ruang Kerja di panel navigasi kiri, lalu pilih ruang kerja baru Anda dari menu Ruang Kerja. Tampilan item ruang kerja Anda muncul.
Dari item menu +Baru di pita ruang kerja, pilih Alur data.
Dalam kotak dialog Alur baru, tentukan nama sebagai IngestDataFromSourceToLakehouse dan pilih Buat. Alur pabrik data baru dibuat dan dibuka.
Pada alur pabrik data yang baru dibuat, pilih Aktivitas alur untuk menambahkan aktivitas ke alur dan pilih Salin data. Tindakan ini menambahkan aktivitas salin data ke kanvas alur.
Pilih aktivitas salin data yang baru ditambahkan dari kanvas. Properti aktivitas muncul di panel di bawah kanvas (Anda mungkin perlu memperluas panel ke atas dengan menyeret tepi atas). Pada tab Umum di panel properti, ketik Salin Data ke Lakehouse di bidang Nama .
Pada tab Sumber dari aktivitas salin data yang dipilih, pilih Eksternal sebagai Jenis penyimpanan data lalu pilih + Baru untuk membuat koneksi baru ke sumber data.
Untuk tutorial ini, semua data sampel tersedia dalam kontainer publik penyimpanan blob Azure. Anda tersambung ke kontainer ini untuk menyalin data dari kontainer tersebut. Pada layar Koneksi baru pertama, pilih Azure Blob Storage lalu pilih Lanjutkan.
Pada layar Pengaturan koneksi, masukkan detail berikut dan pilih Buat untuk membuat koneksi ke sumber data.
Properti Nilai Nama akun atau URL https://azuresynapsestorage.blob.core.windows.net/sampledata
Connection Buat koneksi baru Nama koneksi wwisampledata Jenis autentikasi Anonim Setelah koneksi baru dibuat, kembali ke tab Sumber dari aktivitas salin data, dan koneksi yang baru dibuat dipilih secara default. Tentukan properti berikut sebelum pindah ke pengaturan tujuan.
Properti Nilai Jenis penyimpanan data Eksternal Connection wwisampledata Jenis jalur file Jalur file Jalur file Nama kontainer (kotak teks pertama): sampledata
Nama direktori (kotak teks kedua): WideWorldImportersDW/parquetSecara rekursif Dicentang Format file Biner Pada tab Tujuan dari aktivitas salin data yang dipilih, tentukan properti berikut ini:
Properti Nilai Jenis penyimpanan data Ruang kerja Jenis penyimpanan data ruang kerja Lakehouse Lakehouse wwilakehouse Folder akar File Jalur file Nama direktori (kotak teks pertama): wwi-raw-data Format file Biner Anda telah mengonfigurasi aktivitas salin data. Pilih ikon simpan pada pita atas (di bawah Beranda) untuk menyimpan perubahan Anda, dan pilih Jalankan untuk menjalankan alur Anda dan aktivitasnya. Anda juga dapat menjadwalkan alur untuk me-refresh data pada interval yang ditentukan untuk memenuhi persyaratan bisnis Anda. Untuk tutorial ini, kita menjalankan alur hanya sekali dengan memilih Jalankan.
Tindakan ini memicu salinan data dari sumber data yang mendasar ke lakehouse yang ditentukan dan mungkin memerlukan waktu hingga satu menit untuk diselesaikan. Anda dapat memantau eksekusi alur dan aktivitasnya di bawah tab Output , yang muncul saat Anda mengklik di mana saja di kanvas. Secara opsional, Anda dapat memilih ikon kacamata, yang muncul saat Mengarahkan kursor ke nama, untuk melihat detail transfer data.
Setelah data disalin, buka tampilan item ruang kerja dan pilih lakehouse baru Anda (wwilakehouse) untuk meluncurkan tampilan Explorer .
Validasi bahwa folder baru wwi-raw-data muncul di tampilan Explorer , dan data untuk semua tabel disalin di sana.
Untuk memuat data bertahap ke lakehouse, lihat Memuat data secara bertahap dari gudang data ke lakehouse.