Bagikan melalui


Muat data ke dalam Azure Data Lake Storage Gen1 dengan menggunakan Azure Data Factory

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Azure Data Lake Storage Gen1 (sebelumnya dikenal sebagai Azure Data Lake Store) adalah repositori hyper-scale di seluruh perusahaan untuk beban kerja analitik big data. Data Lake Storage Gen1 memungkinkan Anda mengambil data dengan ukuran, jenis, dan kecepatan penyerapan apa pun. Data ditangkap di satu tempat untuk analitik operasional dan eksploratif.

Azure Data Factory adalah layanan integrasi data berbasis cloud yang dikelola sepenuhnya. Anda dapat menggunakan layanan ini untuk mengisi lake dengan data dari sistem yang ada dan menghemat waktu saat membangun solusi analitik Anda.

Azure Data Factory menawarkan keuntungan berikut untuk memuat data ke dalam Data Lake Storage Gen1:

  • Mudah diatur: Wizard intuitif 5 langkah tanpa memerlukan pembuatan skrip.
  • Dukungan penyimpanan data yang kaya: Dukungan bawaan untuk set penyimpanan data lokal dan berbasis cloud yang kaya. Untuk daftar detailnya, lihat tabel Penyimpanan data yang didukung.
  • Aman dan patuh: Data ditransfer melalui HTTPS atau ExpressRoute. Kehadiran layanan global memastikan bahwa data Anda tidak pernah meninggalkan batas geografis.
  • Performa tinggi: Kecepatan pemuatan data hingga 1 GB/detik ke Data Lake Storage Gen1. Untuk detailnya, lihat Kinerja aktivitas salin.

Artikel ini menampilkan cara menggunakan alat Salin Data Azure Data Factory untuk memuat data dari Amazon S3 ke dalam Data Lake Storage Gen1. Anda dapat mengikuti langkah serupa untuk menyalin data dari jenis penyimpanan data lainnya.

Prasyarat

  • Langganan Azure: Jika Anda belum memiliki langganan Azure, buat akun gratis sebelum memulai.
  • Akun Data Lake Storage Gen1: Jika Anda tidak memiliki akun Data Lake Storage Gen1, lihat instruksinya di Buat akun Data Lake Storage Gen1.
  • Amazon S3: Artikel ini menampilkan cara menyalin data dari Amazon S3. Anda dapat menggunakan penyimpanan data lain dengan mengikuti langkah serupa.

Membuat pabrik data

  1. Apabila Anda belum membuat pabrik data, ikuti langkah-langkah di Mulai Cepat: Membuat pabrik data menggunakan portal Azure dan Studio Azure Data Factory untuk membuatnya. Setelah membuat pabrik data, telusuri ke pabrik data di portal Azure.

    Halaman beranda untuk Azure Data Factory, dengan petak peta Open Azure Data Factory Studio.

  2. Pilih Buka pada petak peta Buka Azure Data Factory Studio untuk meluncurkan Aplikasi Integrasi Data di tab terpisah.

Muat data ke dalam Azure Data Lake Storage Gen1

  1. Di halaman beranda Azure Data Factory, pilih petak peta Penyerapan untuk meluncurkan alat Copy Data:

    Tangkapan layar yang menunjukkan beranda Azure Data Factory.

  2. Pada halaman Properti, tentukan CopyFromAmazonS3ToADLS untuk bidang Nama tugas, dan pilih Berikutnya:

    halaman Properti

  3. Pada halaman Penyimpanan data sumber, pilih + Buat koneksi baru:

    Halaman penyimpanan data sumber

    Pilih Amazon S3, dan pilih Lanjutkan

    Halaman s3 penyimpanan data sumber

  4. Di halaman Tentukan koneksi Amazon S3, lakukan langkah-langkah berikut:

    1. Tentukan nilai ID Kunci Akses.

    2. Tentukan nilai Kunci Akses Rahasia.

    3. Pilih Selesai.

      Cuplikan layar menampilkan panel Layanan Tertaut Baru tempat Anda dapat memasukkan nilai.

    4. Anda akan melihat koneksi baru. Pilih Selanjutnya.

    Cuplikan layar menampilkan koneksi baru Anda.

  5. Di halaman Pilih file atau folder input, telusuri ke folder dan file yang ingin Anda salin. Pilih folder/file, pilih Pilih, lalu pilih Berikutnya:

    Pilih file atau folder input

  6. Pilih perilaku salin dengan memilih opsi Salin file secara rekursif dan Salinan biner (salin file apa adanya). Pilih Selanjutnya:

    Cuplikan layar menampilkan Pilih folder atau file input tempat Anda dapat memilih Salin file secara rekursif dan Salinan Biner.

  7. Di halaman Penyimpanan data tujuan, pilih + Buat koneksi baru, kemudian pilih Azure Data Lake Storage Gen1, dan pilih Lanjutkan:

    Halaman penyimpanan data tujuan

  8. Di halaman Layanan Tertaut Baru (Azure Data Lake Storage Gen1), lakukan langkah-langkah berikut ini:

    1. Pilih akun Data Lake Storage Gen1 Anda untuk nama akun Data Lake Store.
    2. Tentukan Penyewa, dan pilih Selesai.
    3. Pilih Selanjutnya.

    Penting

    Dalam panduan ini, Anda menggunakan identitas terkelola untuk sumber daya Azure untuk mengautentikasi akun Data Lake Storage Gen1 Anda. Pastikan untuk memberi MSI izin yang tepat di Data Lake Storage Gen1 dengan mengikuti instruksi ini.

    Tentukan akun Data Lake Storage Gen1

  9. Di halaman Pilih file atau folder output, masukkan copyfroms3 sebagai nama folder output, dan pilih Berikutnya:

    Cuplikan layar menunjukkan jalur folder yang Anda masukkan.

  10. Pada halaman Pengaturan, pilih Berikutnya:

    Halaman pengaturan

  11. Pada halaman Ringkasan, tinjau semua pengaturan, dan pilih Berikutnya:

    Halaman ringkasan

  12. Pada Halaman penyebaran, pilih Pemantauan untuk memantau alur (tugas):

    Halaman penyebaran

  13. Perhatikan bahwa tab Pemantauan di sebelah kiri dipilih secara otomatis. Kolom Tindakan menyertakan tautan untuk melihat detail eksekusi aktivitas dan untuk menjalankan ulang alur:

    Memantau eksekusi alur

  14. Untuk melihat aktivitas berjalan yang terkait dengan eksekusi alur, pilih tautan Tampilkan Aktivitas Berjalan di kolom Tindakan. Hanya ada satu aktivitas (aktivitas salin) dalam alur, jadi Anda hanya akan melihat satu entri. Untuk beralih kembali ke tampilan eksekusi alur, klik tautan Alur di bagian atas. Pilih Refresh untuk menyegarkan daftar.

    Memantau eksekusi aktivitas

  15. Untuk memantau detail eksekusi untuk setiap aktivitas salin, pilih tautan Detail di bawah Tindakan dalam tampilan pemantauan aktivitas. Anda dapat memantau detail seperti volume data yang disalin dari sumber ke sink, throughput data, langkah-langkah eksekusi dengan durasi terkait, dan konfigurasi yang digunakan:

    Memantau detail eksekusi aktivitas

  16. Memverifikasi bahwa data disalin ke akun Data Lake Storage Gen1 Anda:

    Memverifikasi output Data Lake Storage Gen1

Lanjutkan ke artikel berikut untuk mempelajari tentang dukungan Data Lake Storage Gen1: