Bagikan melalui


Transformasi sumber dalam pemetaan aliran data

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Aliran data tersedia di Alur Azure Data Factory dan Azure Synapse. Artikel ini berlaku untuk memetakan aliran data. Jika Anda baru mengenal transformasi, silakan lihat artikel pengantar Transformasi data menggunakan aliran data pemetaan.

Transformasi sumber mengonfigurasi sumber data Anda untuk aliran data. Saat Anda mendesain aliran data, langkah pertamanya selalu mengonfigurasi transformasi sumber. Untuk menambahkan sumber, pilih kotak Tambahkan Sumber di kanvas aliran data.

Setiap aliran data memerlukan setidaknya satu transformasi sumber, tetapi Anda dapat menambahkan sumber sebanyak yang diperlukan untuk menyelesaikan transformasi data Anda. Anda dapat menggabungkan sumber-sumber tersebut dengan transformasi gabungan, pencarian, atau persatuan.

Setiap transformasi sumber dikaitkan dengan satu himpunan data atau layanan tertaut. Himpunan data menentukan bentuk dan lokasi data yang ingin Anda tulis atau baca. Jika Anda menggunakan himpunan data berbasis file, Anda dapat menggunakan daftar kartubebas dan file di sumber Anda untuk bekerja dengan lebih dari satu file sekaligus.

Himpunan data sebaris

Keputusan pertama saat membuat transformasi sumber adalah apakah informasi sumber Anda ditentukan dalam objek himpunan data atau dalam transformasi sumber. Sebagian besar format hanya tersedia dalam satu atau lainnya. Untuk mempelajari cara menggunakan konektor tertentu, lihat dokumen konektor yang sesuai.

Saat format didukung untuk sebaris dan dalam objek himpunan data, ada keuntungan untuk keduanya. Objek himpunan data adalah entitas yang dapat digunakan kembali dalam aliran data dan aktivitas lain seperti Salin. Entitas yang dapat digunakan kembali ini sangat berguna ketika Anda menggunakan skema yang diperkuat. Himpunan data tidak berbasis di Spark. Terkadang, Anda mungkin perlu mengambil alih pengaturan atau proyeksi skema tertentu dalam transformasi sumber.

Himpunan data sebaris disarankan saat Anda menggunakan skema fleksibel, instans sumber satu kali, atau sumber parameter. Jika sumber Anda sangat terparameter, himpunan data sebaris memungkinkan Anda untuk tidak membuat objek "percobaan". Himpunan data sebaris berbasis di Spark sedangkan propertinya berasal dari aliran data.

Untuk menggunakan himpunan data sebaris, pilih format yang Anda inginkan di pemilih Jenis sumber. Alih-alih memilih himpunan data sumber, pilihlah layanan tertaut yang ingin Anda sambungkan.

Opsi skema

Karena himpunan data sebaris ditentukan di dalam aliran data, tidak ada skema yang ditentukan yang terkait dengan himpunan data sebaris. Pada tab Proyeksi, Anda dapat mengimpor skema data sumber dan menyimpan skema tersebut sebagai proyeksi sumber Anda. Pada tab ini, Anda menemukan tombol "Opsi skema" yang memungkinkan Anda menentukan perilaku layanan penemuan skema ADF.

  • Gunakan skema yang diproyeksikan: Opsi ini berguna saat Anda memiliki sejumlah besar file sumber yang dipindai ADF sebagai sumber Anda. Perilaku default ADF adalah menemukan skema setiap file sumber. Tetapi jika Anda memiliki proyeksi yang telah ditentukan sebelumnya yang sudah disimpan dalam transformasi sumber Anda, Anda dapat mengaturnya ke true dan ADF melewati penemuan otomatis setiap skema. Dengan opsi ini diaktifkan, transformasi sumber dapat membaca semua file dengan cara yang jauh lebih cepat, menerapkan skema yang telah ditentukan sebelumnya ke setiap file.
  • Izinkan penyimpangan skema: Aktifkan penyimpangan skema sehingga aliran data Anda memungkinkan kolom baru yang belum ditentukan dalam skema sumber.
  • Validasi skema: Mengatur opsi ini menyebabkan aliran data gagal jika ada kolom dan jenis yang ditentukan dalam proyeksi tidak cocok dengan skema data sumber yang ditemukan.
  • Menyimpulkan jenis kolom yang di-drifted: Saat kolom drifted baru diidentifikasi oleh ADF, kolom baru tersebut ditransmisikan ke jenis data yang sesuai menggunakan inferensi jenis otomatis ADF.

Cuplikan layar yang memperlihatkan Sebaris yang dipilih.

DB Workspace (hanya ruang kerja Synapse)

Di ruang kerja Azure Synapse, opsi tambahan hadir dalam transformasi sumber aliran data yang disebut Workspace DB. Ini memungkinkan Anda untuk langsung memilih database ruang kerja dari jenis apa pun yang tersedia sebagai data sumber Anda tanpa memerlukan layanan atau himpunan data tertaut tambahan. Database yang dibuat melalui templat database Azure Synapse juga dapat diakses saat Anda memilih Workspace DB.

Cuplikan layar yang memperlihatkan workspacedb dipilih.

Jenis sumber yang didukung

Pemetaan aliran data mengikuti pendekatan ekstrak, muat, dan transformasi (ELT) dan bekerja dengan himpunan data penahapan yang semuanya ada di Azure. Saat ini, himpunan data berikut dapat digunakan dalam transformasi sumber.

Konektor Format Himpunan data/sebaris
Amazon S3 Avro
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Appfigures (Pratinjau) -/✓
Asana (Pratinjau) -/✓
Penyimpanan Blob Azure Avro
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB for NoSQL ✓/-
Azure Data Lake Storage Gen1 Avro
Teks dibatasi
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Model
Teks dibatasi
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database untuk MySQL ✓/✓
Azure Database untuk PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
Azure SQL Database ✓/✓
Instans Terkelola Azure SQL ✓/✓
Azure Synapse Analytics ✓/✓
data.world (Pratinjau) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Google Spreadsheet (Pratinjau) -/✓
Hive -/✓
Quickbase (Pratinjau) -/✓
SFTP Avro
Teks dibatasi
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (Pratinjau) -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (Pratinjau) -/✓
Twilio (Pratinjau) -/✓
Zendesk (Pratinjau) -/✓

Pengaturan khusus untuk konektor ini terletak pada tab Opsi sumber. Contoh skrip informasi dan aliran data pada pengaturan ini terletak di dokumentasi konektor.

Azure Data Factory dan alur Synapse memiliki akses ke lebih dari 90 konektor asli. Untuk menyertakan data dari sumber lain di aliran data Anda, gunakan Aktivitas Salin untuk memuat data tersebut ke salah satu area sementara yang didukung.

Pengaturan sumber

Setelah menambahkan sumber, konfigurasikan melalui tab Pengaturan sumber. Di sini Anda dapat memilih atau membuat himpunan data di mana titik sumber Anda berada. Anda juga dapat memilih opsi skema dan pengambilan sampel untuk data Anda.

Nilai pengembangan untuk parameter himpunan data dapat dikonfigurasi dalam pengaturan debug. (Mode debug harus dinyalakan.)

Cuplikan layar yang memperlihatkan tab pengaturan Sumber.

Nama aliran output: Nama transformasi sumber.

Jenis sumber: Pilih apakah Anda ingin menggunakan himpunan data sebaris atau objek himpunan data yang sudah ada.

Koneksi pengujian: Uji apakah layanan Spark aliran data berhasil terhubung ke layanan tertaut yang digunakan dalam himpunan data sumber Anda atau tidak. Mode debug harus menyala agar fitur ini diaktifkan.

Drift skema: Drift skema adalah kemampuan layanan untuk menangani skema fleksibel secara native dalam aliran data Anda tanpa perlu secara eksplisit menentukan perubahan kolom.

  • Pilih kotak centang Izinkan penyimpangan skema jika kolom sumber sering berubah. Setelan ini memungkinkan semua bidang sumber masuk mengalir melalui transformasi ke sink.

  • Memilih Simpulkan jenis kolom yang di-drift menginstruksikan layanan untuk mendeteksi dan menentukan tipe data untuk setiap kolom baru yang ditemukan. Dengan fitur ini dimatikan, semua kolom yang di-drifted berjenis string.

Validasi skema: Jika skema Validasi dipilih, aliran data gagal dijalankan jika data sumber masuk tidak cocok dengan skema himpunan data yang ditentukan.

Lompati jumlah baris: Bidang Lompati Jumlah baris menentukan jumlah baris yang diabaikan di awal himpunan data.

Pengambilan Sampel: Aktifkan Pengambilan Sampel untuk membatasi jumlah baris dari sumber Anda. Gunakan pengaturan ini saat Anda menguji atau mengambil sampel data dari sumber Anda untuk tujuan penelusuran kesalahan. Hal ini sangat berguna ketika mengeksekusi aliran data dalam mode debug dari alur.

Untuk memvalidasi bahwa sumber Anda dikonfigurasi dengan benar, aktifkan mode debug dan ambil pratinjau data. Untuk informasi selengkapnya, lihat Mode debug.

Catatan

Saat mode debug diaktifkan, konfigurasi batas baris di pengaturan debug menimpa pengaturan pengambilan sampel di sumber selama pratinjau data.

Opsi sumber

Tab Opsi sumber berisi pengaturan khusus untuk konektor dan format yang dipilih. Untuk informasi dan contoh selengkapnya, lihat dokumentasi konektor yang relevan. Ini termasuk detail seperti tingkat isolasi untuk sumber data yang mendukungnya (seperti SQL Server lokal, Azure SQL Database, dan instans Terkelola Azure SQL), dan pengaturan spesifik sumber data lainnya juga.

Proyeksi

Seperti skema dalam himpunan data, proyeksi dalam sumber menentukan kolom data, jenis, dan format dari data sumber. Untuk sebagian besar jenis himpunan data, seperti SQL dan Parquet, proyeksi dalam sumber diperbaiki untuk mencerminkan skema yang ditentukan dalam himpunan data. Saat file sumber Anda tidak diketik dengan kuat (misalnya, file .csv datar, bukan file Parquet), Anda dapat menentukan jenis data untuk setiap bidang dalam transformasi sumber.

Cuplikan layar yang memperlihatkan pengaturan di tab Proyeksi.

Jika file teks Anda tidak memiliki skema yang ditentukan, pilih Deteksi jenis data sehingga layanan mengambil sampel dan menyimpulkan jenis data. Pilih Tetapkan format default untuk mendeteksi secara otomatis format data default.

Atur ulang skema menyetel ulang proyeksi ke apa yang telah ditentukan dalam himpunan data yang direferensikan.

Timpa skema memungkinkan Anda mengubah jenis data yang diproyeksikan di sini sumbernya, menimpa jenis data yang ditentukan skema. Sebagai alternatif, Anda dapat memodifikasi tipe data kolom dalam transformasi kolom turunan hilir. Gunakan transformasi pilihan untuk mengubah nama kolom.

Mengimpor skema

Pilih tombol Impor skema pada tab Proyeksi untuk menggunakan kluster debug aktif untuk membuat proyeksi skema. Tombol impor skema tersedia di setiap jenis sumber. Mengimpor skema di sini mengambil alih proyeksi yang ditentukan dalam himpunan data. Objek himpunan data tidak akan diubah.

Mengimpor skema berguna dalam himpunan data seperti Avro dan Azure Cosmos DB yang mendukung struktur data kompleks yang tidak memerlukan definisi skema untuk ada di himpunan data. Untuk himpunan data sebaris, mengimpor skema adalah satu-satunya cara untuk mereferensikan metadata kolom tanpa drift skema.

Mengoptimalkan transformasi sumber

Tab Optimalkan memungkinkan pengeditan informasi partisi di setiap langkah transformasi. Dalam kebanyakan kasus, Gunakan partisi saat ini mengoptimalkan struktur partisi yang ideal untuk sumber.

Jika Anda membaca dari sumber Azure SQL Database, pemartisian Sumber kustom kemungkinan membaca data tercepat. Layanan membaca kueri besar dengan membuat koneksi ke database Anda secara paralel. Partisi sumber ini dapat dilakukan pada kolom atau dengan menggunakan kueri.

Cuplikan layar yang memperlihatkan pengaturan partisi Sumber.

Untuk informasi selengkapnya tentang pengoptimalan dalam alur data pemetaan, lihat tab Optimalkan.

Mulai membangun aliran data Anda dengan transformasi kolom turunan dan transformasi pilihan.