Bagikan melalui


Mengubah data dalam Azure Data Factory dan Azure Synapse Analytics

Azure Data Factory Azure Synapse Analytics

Petunjuk

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Penting

Dukungan untuk Azure Studio Pembelajaran Mesin (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Studio Pembelajaran Mesin (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Studio Pembelajaran Mesin (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Studio Pembelajaran Mesin (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Gambaran Umum

Artikel ini menjelaskan aktivitas transformasi data dalam alur Azure Data Factory dan Synapse yang dapat Anda gunakan untuk mengubah dan memproses data mentah Anda menjadi prediksi dan wawasan dalam skala besar. Aktivitas transformasi dijalankan di lingkungan komputasi seperti Azure Databricks atau Azure HDInsight. Ini menyediakan tautan ke artikel dengan informasi terperinci tentang setiap aktivitas transformasi.

Layanan tersebut mendukung aktivitas transformasi data berikut yang dapat ditambahkan ke alur baik secara individu atau dikaitkan dengan aktivitas lain.

Mengubah secara asli dalam Azure Data Factory dan Azure Synapse Analytics dengan aliran data

Pemetaan aliran data

Aliran data pemetaan adalah transformasi data yang dirancang secara visual dalam Azure Data Factory dan Azure Synapse. Aliran data memungkinkan mesin data untuk mengembangkan logika transformasi data grafis tanpa menulis kode. Aliran data yang dihasilkan dijalankan sebagai aktivitas dalam alur yang menggunakan kluster Spark yang diskalakan. Aktivitas aliran data dapat dioperasionalkan melalui kemampuan penjadwalan, kontrol, aliran, dan kemampuan pemantauan dalam layanan. Untuk informasi selengkapnya, lihat alur pemetaan data.

Manipulasi data

Power Query di Azure Data Factory memungkinkan pengolahan data skala cloud, yang memungkinkan Anda melakukan persiapan data bebas kode pada skala cloud secara iteratif. Pengolahan data terintegrasi dengan Power Query Online dan membuat fungsi Power Query M tersedia untuk pengolahan data pada skala cloud melalui eksekusi Spark. Untuk informasi selengkapnya, lihat manipulasi data di Azure Data Factory.

Catatan

Power Query saat ini hanya didukung di Azure Data Factory, dan tidak dalam Azure Synapse. Untuk daftar fitur tertentu yang didukung di setiap layanan, lihat Fitur yang tersedia di alur Azure Data Factory & Azure Synapse Analytics.

Transformasi eksternal

Secara opsional, Anda juga dapat melakukan pengodean transformasi secara manual dan mengelola lingkungan komputasi eksternal sendiri.

Aktivitas HDInsight Hive

Aktivitas HDInsight Hive dalam alur menjalankan kueri Hive pada kluster HDInsight berbasis Windows/Linux milik Anda sendiri atau sesuai permintaan. Lihat artikel Aktivitas Hive untuk detail tentang aktivitas ini.

Aktivitas HDInsight Pig

Aktivitas HDInsight Pig dalam sebuah pipeline menjalankan kueri Pig baik pada kluster HDInsight berbasis Windows/Linux milik Anda sendiri maupun secara on-demand. Lihat artikel Aktivitas Pig untuk informasi lebih lanjut mengenai aktivitas tersebut.

Aktivitas HDInsight MapReduce

Aktivitas HDInsight MapReduce dalam pipeline mengeksekusi program MapReduce pada kluster HDInsight berbasis Windows/Linux milik Anda atau sesuai permintaan. Lihat artikel Aktivitas MapReduce untuk detail tentang aktivitas ini.

Aktivitas Streaming HDInsight

Aktivitas HDInsight Streaming dalam suatu pipeline menjalankan program Hadoop Streaming pada kluster HDInsight berbasis Windows/Linux milik Anda atau sesuai permintaan. Lihat Aktivitas Streaming HDInsight untuk detail tentang aktivitas ini.

HDInsight Spark Aktivitas

Aktivitas Spark HDInsight dalam alur kerja mengoperasikan program Spark pada kluster HDInsight Anda sendiri. Untuk detailnya, lihat program Invoke Spark dengan Azure Data Factory atau Azure Synapse Analytics.

Aktivitas Machine Learning Studio (klasik)

Penting

Dukungan untuk Azure Studio Pembelajaran Mesin (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Studio Pembelajaran Mesin (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Studio Pembelajaran Mesin (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Studio Pembelajaran Mesin (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Layanan ini memungkinkan Anda membuat alur dengan mudah yang menggunakan layanan web ML Studio (klasik) yang diterbitkan untuk analisis prediktif. Menggunakan Aktivitas Eksekusi Batch dalam pipeline, Anda dapat memanggil layanan web Studio (klasik) untuk membuat prediksi pada sekumpulan data dalam batch.

Seiring berjalannya waktu, model prediktif dalam eksperimen penilaian Studio (klasik) perlu dilatih kembali menggunakan himpunan data input baru. Setelah Anda selesai dengan pelatihan ulang, perbarui layanan web penilaian dengan model pembelajaran mesin yang telah dilatih ulang. Anda dapat menggunakan aktivitas Perbarui Sumber Daya untuk memperbarui layanan web dengan model yang baru dilatih.

Lihat Gunakan aktivitas ML Studio (klasik) untuk detail tentang aktivitas Studio (klasik) ini.

Aktivitas prosedur yang disimpan

Anda dapat menggunakan aktivitas Prosedur Tersimpan SQL Server dalam alur Data Factory untuk memanggil prosedur tersimpan di salah satu penyimpanan data berikut: Azure SQL Database, Azure Synapse Analytics, SQL Server Database di perusahaan Anda atau VM Azure. Lihat artikel Aktivitas Prosedur Tersimpan untuk detailnya.

Aktivitas U-SQL di Data Lake Analytics

Data Lake Analytics aktivitas U-SQL menjalankan skrip U-SQL pada kluster Azure Data Lake Analytics. Lihat artikel Aktivitas Data Analytics U-SQL untuk detailnya.

aktivitas buku catatan Azure Synapse

Azure Synapse Aktivitas Notebook dalam alur Synapse menjalankan buku catatan Synapse di ruang kerja Azure Synapse Anda. Lihat bagaimana mentransformasi data dengan menjalankan notebook Azure Synapse.

Aktivitas Databricks Notebook

Aktivitas Notebook Azure Databricks dalam pipeline menjalankan buku catatan di ruang kerja Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Mentransformasikan data dengan menjalankan buku catatan Databricks.

Aktivitas Jar Databricks

Aktivitas Jar Azure Databricks dalam alur menjalankan Spark Jar di kluster Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Transformasi data dengan menjalankan aktivitas Jar di Azure Databricks.

Aktivitas Python Databricks

Aktivitas Azure Databricks Python dalam alur menjalankan file Python di kluster Azure Databricks Anda. Azure Databricks adalah platform terkelola untuk menjalankan Apache Spark. Lihat Transformasi data dengan menjalankan aktivitas skrip Python di Azure Databricks.

Aktivitas Khusus

Jika perlu mengubah data dengan cara yang tidak didukung oleh Data Factory, Anda dapat membuat aktivitas kustom dengan logika pemrosesan data Anda sendiri dan menggunakan aktivitas di alur. Anda dapat mengonfigurasi aktivitas .NET kustom untuk dijalankan menggunakan layanan Azure Batch atau kluster Azure HDInsight. Lihat artikel Menggunakan aktivitas kustom untuk detailnya.

Anda dapat membuat aktivitas kustom untuk menjalankan skrip R pada kluster HDInsight dengan R terinstal. Lihat Menjalankan Skrip R menggunakan alur Azure Data Factory dan Synapse.

Lingkungan komputasi

Anda membuat layanan tertaut untuk lingkungan komputasi, lalu menggunakan layanan tertaut tersebut ketika menentukan aktivitas transformasi. Ada dua jenis lingkungan komputasi yang didukung.

  • Sesuai Permintaan: Dalam kasus ini, lingkungan komputasi dikelola penuh oleh layanan. Layanan ini dibuat secara otomatis oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat mengkonfigurasi dan mengontrol pengaturan granular dari lingkungan komputasi sesuai permintaan untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrap.
  • Bawa Milik Sendiri: Dalam hal ini, Anda dapat mendaftarkan lingkungan komputasi Anda sendiri (misalnya kluster HDInsight) sebagai layanan tertaut. Lingkungan komputasi ini dikelola oleh Anda dan layanan menggunakannya untuk menjalankan aktivitas.

Lihat artikel Layanan Tertaut Komputasi untuk mempelajari tentang layanan pemrosesan yang didukung.

Lihat tutorial berikut sebagai contoh dalam menggunakan aktivitas transformasi: Tutorial: mengubah data menggunakan Spark