Bagikan melalui


Mengubah data Azure Data Factory dan Azure Synapse Analytics

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Penting

Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Gambaran Umum

Artikel ini menjelaskan aktivitas transformasi data di alur Azure Data Factory dan Synapse yang dapat Anda gunakan untuk mentransformasi dan memproses data mentah Anda menjadi prediksi dan insight dalam skala besar. Aktivitas transformasi berjalan di lingkungan komputasi seperti Azure Databricks atau Azure HDInsight. Aktivitas Ini menyediakan artikel ke artikel dengan informasi terperinci tentang setiap aktivitas transformasi.

Layanan tersebut mendukung aktivitas transformasi data berikut yang dapat ditambahkan ke alur baik secara individu atau dikaitkan dengan aktivitas lain.

Melakukan transformasi secara native di Azure Data Factory dan Azure Synapse Analytics dengan aliran data

Aliran data pemetaan

Pemetaan aliran data adalah transformasi data yang dirancang secara visual di Azure Data Factory dan Azure Synapse. Aliran data memungkinkan mesin data untuk mengembangkan logika transformasi data grafis tanpa menulis kode. Aliran data yang dihasilkan dijalankan sebagai aktivitas dalam alur yang menggunakan kluster Spark yang diskalakan. Aktivitas aliran data dapat dioperasionalkan melalui kemampuan penjadwalan, kontrol, aliran, dan kemampuan pemantauan dalam layanan. Untuk informasi selengkapnya, lihat alur pemetaan data.

Manipulasi data

Power Query di Azure Data Factory memungkinkan manipulasi data di skala cloud, yang kemudian memungkinkan Anda melakukan persiapan data bebas kode pada skala cloud secara berulang. Manipulasi data terintegrasi dengan Power Query Online dan membuat fungsi Power Query M tersedia untuk manipulasi data pada skala cloud melalui eksekusi spark. Untuk mengetahui informasi selengkapnya, lihat penumpukan data di Azure Data Factory.

Catatan

Power Query saat ini hanya didukung di Azure Data Factory dan tidak didukung di Azure Synapse. Untuk daftar fitur tertentu yang didukung di setiap layanan, lihat Fitur yang tersedia di alur Azure Data Factory & Azure Synapse Analytics.

Transformasi eksternal

Secara opsional, Anda juga dapat melakukan pengodean transformasi secara manual dan mengelola lingkungan komputasi eksternal sendiri.

Aktivitas HDInsight Hive

Aktivitas HDInsight Hive di alur menjalankan kueri Apache Hive di kluster HDInsight berbasis Windows/Linux milik Anda sendiri atau sesuai permintaan. Lihat artikel Aktivitas Apache Hive untuk detail tentang aktivitas ini.

Aktivitas HDInsight Pig

Aktivitas HDInsight Pig di alur menjalankan kueri Pig di kluster HDInsight berbasis Windows/Linux milik Anda sendiri atau sesuai permintaan. Lihat artikel Aktivitas Pig untuk detail tentang aktivitas ini.

Aktivitas MapReduce HDInsight

Aktivitas HDInsight MapReduce dalam alur menjalankan program MapReduce di kluster HDInsight berbasis Windows/Linux milik Anda sendiri atau sesuai permintaan. Lihat artikel Aktivitas MapReduce untuk detail tentang aktivitas ini.

Aktivitas Streaming HDInsight

Aktivitas Streaming HDInsight dalam alur menjalankan program Streaming Hadoop di kluster HDInsight berbasis Windows/Linux milik Anda sendiri atau sesuai permintaan. Lihat Aktivitas Streaming HDInsight untuk detail tentang aktivitas ini.

Aktivitas Spark HDInsight

Aktivitas Spark HDInsight dalam alur menjalankan program Spark pada kluster HDInsight Anda sendiri. Untuk detailnya, lihat Memanggil program Spark dengan Azure Data Factory atau Azure Synapse Analytics.

Aktivitas ML Studio (klasik)

Penting

Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Layanan ini memungkinkan Anda membuat alur dengan mudah yang menggunakan layanan web ML Studio (klasik) yang diterbitkan untuk analisis prediktif. Menggunakan Aktivitas Eksekusi Batch dalam alur, Anda dapat memanggil layanan web Studio (klasik) untuk membuat prediksi pada data dalam batch.

Seiring berjalannya waktu, model prediktif dalam eksperimen penilaian Studio (klasik) perlu dilatih kembali menggunakan himpunan data input baru. Setelah Anda selesai dengan pelatihan ulang, perbarui layanan web penilaian dengan model pembelajaran mesin yang telah dilatih ulang. Anda dapat menggunakan aktivitas Perbarui Sumber Daya untuk memperbarui layanan web dengan model yang baru dilatih.

Lihat Menggunakan aktivitas ML Studio (klasik) untuk detail tentang aktivitas Studio (klasik) ini.

Aktivitas prosedur tersimpan

Anda dapat menggunakan aktivitas Prosedur Tersimpan SQL Server dalam alur Pabrik Data untuk memanggil prosedur yang disimpan di salah satu penyimpanan data berikut: Azure SQL Database, Azure Synapse Analytics, SQL Server Database di perusahaan atau komputer virtual Azure Anda. Lihat artikel Aktivitas Prosedur Tersimpan untuk detailnya.

Aktivitas Data Lake Analytics U-SQL

Aktivitas Data Lake Analytics U-SQL menjalankan skrip U-SQL pada kluster Azure Data Lake Analytics. Lihat artikel Aktivitas Data Analytics U-SQL untuk detailnya.

Aktivitas Azure Synapse Notebook

Azure Synapse Notebook Activity dalam pipeline Synapse menjalankan buku catatan Synapse di ruang kerja Azure Synapse Anda. Lihat Mentransformasikan data dengan menjalankan buku catatan Azure Synapse.

Aktivitas Notebook Databricks

Aktivitas Notebook Azure Databricks dalam alur menjalankan notebook Databricks di ruang kerja Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Mentransformasikan data dengan menjalankan buku catatan Databricks.

Aktivitas Jar Databricks

Aktivitas Azure Databricks Jar dalam alur menjalankan Spark Jar di kluster Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Mentransformasikan data dengan menjalankan aktivitas Jar di Azure Databricks.

Aktivitas Python Databricks

Aktivitas Azure Databricks Python dalam alur menjalankan file Python di kluster Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Mentransformasikan data dengan menjalankan aktivitas Python di Azure Databricks.

Aktivitas Kustom

Jika perlu mengubah data dengan cara yang tidak didukung oleh Data Factory, Anda dapat membuat aktivitas kustom dengan logika pemrosesan data Anda sendiri dan menggunakan aktivitas di alur. Anda dapat mengonfigurasi aktivitas .NET kustom untuk dijalankan menggunakan layanan Azure Batch atau kluster Azure HDInsight. Lihat artikel Menggunakan aktivitas kustom untuk detailnya.

Anda dapat membuat aktivitas kustom untuk menjalankan skrip R pada kluster HDInsight dengan R terinstal. Lihat Menjalankan R Script menggunakan Azure Data Factory dan alur Synapse.

Lingkungan komputasi

Anda membuat layanan tertaut untuk lingkungan komputasi, lalu menggunakan layanan tertaut tersebut ketika menentukan aktivitas transformasi. Ada dua jenis lingkungan komputasi yang didukung.

  • Sesuai Permintaan: Dalam kasus ini, lingkungan komputasi dikelola penuh oleh layanan. Layanan ini dibuat secara otomatis oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat mengkonfigurasi dan mengontrol pengaturan granular dari lingkungan komputasi sesuai permintaan untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrap.
  • Bawa Milik Sendiri: Dalam hal ini, Anda dapat mendaftarkan lingkungan komputasi Anda sendiri (misalnya kluster HDInsight) sebagai layanan tertaut. Lingkungan komputasi ini dikelola oleh Anda dan layanan menggunakannya untuk menjalankan aktivitas.

Lihat artikel Layanan Komputasi Tertaut untuk mempelajari tentang layanan komputasi yang didukung oleh Data Factory.

Lihat tutorial berikut sebagai contoh dalam menggunakan aktivitas transformasi: Tutorial: mengubah data menggunakan Spark