Bagikan melalui


Apa itu Data Factory di Microsoft Fabric?

Data Factory di Microsoft Fabric membantu Anda memecahkan salah satu tantangan terberat bisnis: mengubah data yang tersebar menjadi wawasan yang berguna.

Data organisasi Anda berada di berbagai tempat: database, file, layanan cloud, dan sistem warisan. Ini membuatnya sulit untuk mendapatkan gambaran lengkap tentang bisnis Anda. Data Factory terhubung ke lebih dari 170 sumber data, termasuk lingkungan multicloud dan penyiapan hibrid dengan gateway lokal. Ini membantu Anda memindahkan dan mengubah data dalam skala besar, mengubahnya menjadi format yang berfungsi dengan baik untuk analitik dan pengambilan keputusan.

Diagram tumpukan integrasi data di Microsoft Fabric.

Sebuah diagram Data Factory di Microsoft Fabric yang menunjukkan berbagai pilihan konektor yang ditautkan ke analitik dan alat pengembangan data di Fabric melalui pergerakan data, orkestrasi, dan transformasi. Ini semua terletak di atas Fabric OneLake, dan seluruh tumpukan ditenun dengan kecerdasan bertenaga AI.

Baik Anda adalah pengguna bisnis yang membangun strategi analitik data pertama Anda, atau pengembang yang membuat alur kerja yang kompleks, Anda akan menemukan alat yang tepat untuk:

  • Satukan data Anda
  • Bersihkan
  • Siapkan untuk analisis di Lakehouse atau Gudang Data Anda
  • Mengotomatiskan alur kerja data Anda

Apa itu integrasi data?

Integrasi data adalah proses menyatukan data strategis Anda sehingga Anda dapat mengakses dan menganalisisnya. Ini adalah bagian penting dari bisnis apa pun yang ingin membuat keputusan berbasis data.

Ada banyak cara untuk mengintegrasikan data Anda, tetapi salah satu strategi yang paling umum adalah ETL. ETL adalah singkatan Ekstrak, Transformasi, Muat. Dibutuhkan informasi dari berbagai sumber, mengubahnya menjadi format yang dapat Anda analisis, dan memuatnya ke dalam sistem tujuan umum untuk analisis atau pelaporan. Saat Anda menerapkan proses ETL di platform data bisnis Anda, proses ini meningkatkan konsistensi, kualitas, dan aksesibilitas data.

Berikut adalah apa yang dilakukan setiap fase:

  • Ekstrak: Membaca data dari sumber Anda kemudian memindahkannya ke lokasi penyimpanan terpusat. Sumber dapat berupa database, file, API, situs web, dan banyak lagi.
  • Transformasi: Membersihkan, memperkaya, dan mengubah data Anda menjadi format yang mudah dianalisis. Misalnya, Anda mungkin ingin membandingkan data penjualan dari database SQL dengan dokumen penjualan historis yang dipindai. Setelah mengekstrak data, Anda perlu mengubah data dari setiap sumber sehingga dalam format yang sama, memeriksa kerusakan atau duplikat, dan menggabungkan data menjadi satu himpunan data.
  • Muat: Menulis data yang diubah ke sistem tujuan, seperti gudang data atau data lake. Sistem tujuan adalah tempat Anda dapat menjalankan kueri dan laporan pada data Anda.

ETL atau ELT?

Saat Anda bekerja dengan data, cara Anda memindahkan dan mengubahnya penting, dan setiap organisasi akan memiliki kebutuhan yang berbeda. Misalnya: ETL (Ekstrak, Transformasi, Muat) dan ELT (Ekstrak, Muat, Transformasi). Masing-masing memiliki kekuatan, tergantung pada kebutuhan Anda akan performa, skalabilitas, dan biaya.

ETL: Ubah data Anda sebelum memuatnya ke tujuannya. Ini berfungsi dengan baik ketika Anda perlu membersihkan, menstandarkan, atau memperkaya data saat bergerak. Misalnya, gunakan Dataflow Gen 2 Data Factory untuk menerapkan transformasi dalam skala besar sebelum memuat data ke gudang atau Lakehouse.

ELT: Muat data mentah terlebih dahulu, lalu ubah tempat data disimpan. Pendekatan ini menggunakan kekuatan mesin analitik seperti OneLake Fabric, Notebook Spark, atau alat berbasis SQL. ELT berfungsi dengan baik untuk menangani himpunan data besar dengan komputasi skala cloud modern.

Fabric Data Factory mendukung keduanya. Kamu bisa:

  • Membangun alur ETL klasik untuk kualitas dan kesiapan data langsung
  • Gunakan alur kerja ELT untuk memanfaatkan komputasi dan penyimpanan terintegrasi untuk transformasi skala besar
  • Menggabungkan kedua pendekatan dalam solusi yang sama untuk fleksibilitas

Data Factory adalah solusi integrasi data yang kuat

Data Factory tersambung ke data Anda, memindahkannya, mengubahnya, dan mengatur tugas pergerakan dan transformasi data Anda dari satu tempat. Anda memutuskan strategi apa yang paling sesuai untuk bisnis Anda, dan Data Factory menyediakan alat untuk menyelesaikannya.

Menyambungkan ke data Anda: Baik lokal, di cloud, atau di seluruh lingkungan multicloud, Data Factory tersambung ke sumber data dan tujuan Anda. Ini mendukung berbagai sumber data, termasuk database, data lake, sistem file, API, dan banyak lagi. Lihat konektor yang tersedia untuk daftar lengkap sumber data dan tujuan yang didukung.

Memindahkan data: Data Factory menyediakan beberapa metode untuk memindahkan data dari sumber ke tujuan, atau menyediakan akses mudah ke data yang ada, tergantung pada kebutuhan Anda.

  • Pekerjaan penyalinan - Solusi pilihan untuk pergerakan data yang disederhanakan dengan dukungan asli untuk beberapa gaya pengiriman, termasuk salinan massal, salinan bertahap, dan replikasi Change Data Capture (CDC). Ini juga menawarkan fleksibilitas untuk menangani berbagai skenario dari banyak sumber ke banyak tujuan - semuanya melalui pengalaman yang intuitif dan mudah digunakan.
  • Aktivitas salin - Memindahkan data dari satu tempat ke tempat lain dalam skala apa pun, dengan penyesuaian yang luas, dukungan untuk berbagai sumber dan tujuan, dan kontrol manual penyalinan paralel untuk meningkatkan performa.
  • Pencerminan - Buat replika database operasional Anda yang hampir real-time dalam OneLake di Microsoft Fabric untuk mempermudah analitik dan pelaporan Anda.

Lihat panduan keputusan pergerakan data kami untuk membantu Anda memilih metode pergerakan data yang tepat untuk skenario Anda.

Transformasi: Data Factory menyediakan aktivitas untuk menghubungkan Anda ke skrip transformasi kustom atau perancang aliran data yang kuat.

  • Aktivitas alur - Notebook Fabric, aktivitas HDInsight, definisi kerja Spark, prosedur tersimpan, skrip SQL, dan banyak lagi. Aktivitas ini memungkinkan Anda menjalankan kode atau skrip kustom untuk mengubah data Anda.
  • Aliran Data Gen 2 - Ubah data Anda menggunakan antarmuka kode rendah dengan lebih dari 300 transformasi. Anda dapat melakukan gabungan, agregasi, pembersihan data, transformasi kustom, dan banyak lagi.

Orkestrasi: Data Factory memungkinkan Anda membuat alur yang dapat menjalankan beberapa pergerakan data, transformasi, dan aktivitas lainnya dalam satu alur kerja.

Integrasi data yang didukung AI

AI muncul di seluruh Data Factory untuk membantu Anda meraih lebih banyak hasil dengan lebih sedikit usaha. Copilot untuk Data Factory memungkinkan Anda merancang, mengedit, dan mengelola alur dan aliran data menggunakan bahasa alami. Anda dapat mengetik perintah bahasa Inggris biasa, dan Copilot mengubahnya menjadi langkah-langkah ETL yang berfungsi.

Copilot juga meringkas kueri dan alur data yang ada, sehingga Anda dapat dengan cepat memahami apa yang mereka lakukan. Jika Anda mengalami kesalahan, Copilot menjelaskan apa yang salah dan menyarankan cara untuk memperbaikinya.

Untuk detailnya, lihat Copilot di Fabric dalam beban kerja Data Factory.

Apa yang Anda butuhkan untuk memulai?

Bagaimana jika kita sudah menggunakan Azure Data Factory?

Data Factory di Microsoft Fabric adalah azure Data Factory generasi berikutnya, yang dibangun untuk menangani tantangan integrasi data Anda yang paling kompleks dengan pendekatan yang lebih sederhana.

Lihat panduan perbandingan kami untuk perbedaan utama antara kedua layanan ini, sehingga Anda dapat membuat pilihan yang tepat untuk perusahaan Anda.

Saat Anda siap untuk bermigrasi, ikuti panduan migrasi kami.

Untuk informasi selengkapnya, dan untuk mulai menggunakan Microsoft Fabric, ikuti panduan berikut: