Memahami Azure Data Factory

Selesai

Perlunya memicu pergerakan data secara massal, atau menyiapkan jadwal reguler adalah persyaratan untuk sebagian besar solusi analitik. Azure Data Factory (ADF) adalah layanan yang dapat digunakan untuk memenuhi persyaratan tersebut. ADF dilengkapi dengan layanan integrasi data berbasis cloud yang mengatur pemindahan dan transformasi data antara berbagai penyimpanan data dan sumber daya komputasi.

Azure Data Factory adalah layanan integrasi data dan ETL berbasis cloud yang memungkinkan Anda membuat alur kerja berbasis data untuk mengatur pemindahan data dan mentransformasi data dalam skala besar. Dengan Azure Data Factory, Anda dapat membuat dan menjadwalkan alur kerja berbasis data (disebut alur) yang dapat menyerap data dari penyimpanan data yang berbeda. Anda dapat membuat proses ETL kompleks yang mentransformasi data secara visual dengan aliran data atau dengan menggunakan layanan komputasi seperti Azure HDInsight Hadoop, Azure Databricks, dan Azure Synapse Analytics.

Sebagian besar fungsi Azure Data Factory dapat ditemukan di Azure Synapse Analytics sebagai fitur yang disebut sebagai Pipelines, yang memungkinkan Anda mengintegrasikan alur data antara SQL Pools, Spark Pools, dan SQL Serverless, yang menyediakan toko satu-pintu untuk semua kebutuhan analitik Anda.

Apa yang dimaksud dengan orkestrasi

Untuk menggunakan analogi, pikirkan tentang orkestra simfoni. Anggota pusat orkestra adalah konduktor. Konduktor tidak memainkan instrumen, mereka hanya memimpin anggota simfoni melalui seluruh bagian musik yang mereka mainkan. Para musisi menggunakan keterampilan mereka sendiri untuk menghasilkan suara tertentu di berbagai tahap simfoni, sehingga mereka hanya dapat mempelajari bagian-bagian tertentu dari musik. Konduktor mengatur seluruh bagian musik, dan karena itu mengetahui seluruh skor yang sedang dilakukan. Mereka juga akan menggunakan gerakan lengan tertentu yang memberikan instruksi kepada para musisi tentang cara memainkan setiap musik.

ADF dapat menggunakan pendekatan serupa, karena memiliki fungsi native untuk menyerap dan mentransformasi data, kadang-kadang akan menginstruksikan layanan lain untuk melakukan pekerjaan aktual yang diperlukan atas namanya, seperti Databricks untuk menjalankan kueri transformasi. Jadi, dalam hal ini, Databricks yang akan melakukan pekerjaan, bukan ADF. ADF hanya mengatur eksekusi kueri, lalu menyediakan alur untuk memindahkan data ke langkah atau tujuan berikutnya.

Ini juga menyediakan visualisasi yang kaya untuk menampilkan silsilah data dan dependensi antara alur data Anda, dan memantau semua alur data Anda dari satu tampilan terpadu untuk dengan mudah menyematkan masalah dan mengatur pemberitahuan pemantauan.

Data Factory platform