Penyiapan Tugas Pembuatan Profil Data

Berlaku untuk: Integration Runtime SSIS SQL Server di Azure Data Factory

Sebelum Anda dapat meninjau profil data sumber, langkah pertama adalah menyiapkan dan menjalankan tugas Pembuatan Profil Data. Anda membuat tugas ini di dalam paket Layanan Integrasi. Untuk mengonfigurasi tugas Pembuatan Profil Data, Anda menggunakan Editor Tugas Pembuatan Profil Data. Editor ini memungkinkan Anda memilih tempat untuk menghasilkan profil, dan profil mana yang akan dihitung. Setelah menyiapkan tugas, Anda menjalankan paket untuk menghitung profil data.

Persyaratan dan Batasan

Tugas Pembuatan Profil Data hanya berfungsi dengan data yang disimpan di SQL Server. Ini tidak berfungsi dengan sumber data pihak ketiga atau berbasis file.

Selain itu, untuk menjalankan paket yang berisi tugas Pembuatan Profil Data, Anda harus menggunakan akun yang memiliki izin baca/tulis, termasuk izin CREATE TABLE, pada database tempdb.

Tugas Pembuatan Profil Data dalam Paket

Tugas Pembuatan Profil Data hanya mengonfigurasi profil dan membuat file output yang berisi profil komputasi. Untuk meninjau file output ini, Anda harus menggunakan Penampil Profil Data, program penampil yang berdiri sendiri. Karena Anda harus melihat output secara terpisah, Anda mungkin menggunakan tugas Pembuatan Profil Data dalam paket yang tidak berisi tugas lain.

Namun, Anda tidak perlu menggunakan tugas Pembuatan Profil Data sebagai satu-satunya tugas dalam paket. Jika Anda ingin melakukan pembuatan profil data dalam alur kerja atau aliran data dari paket yang lebih kompleks, Anda memiliki opsi berikut:

  • Untuk menerapkan logika kondisional yang didasarkan pada file output tugas, dalam alur kontrol paket, letakkan tugas Skrip setelah tugas Pembuatan Profil Data. Anda kemudian dapat menggunakan tugas Skrip ini untuk mengkueri file output.

  • Untuk memprofilkan data dalam aliran data setelah data dimuat dan diubah, Anda harus menyimpan data yang diubah untuk sementara ke tabel SQL Server. Kemudian, Anda dapat membuat profil data yang disimpan.

Untuk informasi selengkapnya, lihat Menggabungkan Tugas Pembuatan Profil Data dalam Alur Kerja Paket.

Penyetelan Output Tugas

Setelah tugas Pembuatan Profil Data berada dalam paket, Anda harus menyiapkan output untuk profil yang akan dihitung tugas. Untuk menyiapkan output untuk profil, Anda menggunakan halaman Umum Editor Tugas Pembuatan Profil Data. Selain menentukan tujuan untuk output, halaman Umum juga menawarkan anda kemampuan untuk melakukan profil cepat data. Saat Anda memilih Profil Cepat, tugas Pembuatan Profil Data memprofilkan tabel atau tampilan dengan menggunakan beberapa atau semua profil default dengan pengaturan defaultnya.

Untuk informasi selengkapnya, lihat Editor Tugas Pembuatan Profil Data (Halaman Umum) dan Formulir Profil Cepat Tabel Tunggal (Tugas Pembuatan Profil Data).

Penting

File output mungkin berisi data sensitif tentang database Anda dan data yang dikandung database. Untuk saran tentang cara membuat file ini lebih aman, lihat Akses ke File yang Digunakan oleh Paket.

Pilihan dan Konfigurasi Profil yang akan Dihitung

Setelah menyiapkan file output, Anda harus memilih profil data mana yang akan dihitung. Tugas Pembuatan Profil Data dapat menghitung delapan profil data yang berbeda. Lima profil ini menganalisis kolom individual, dan tiga kolom atau hubungan yang tersisa menganalisis beberapa kolom atau hubungan antara kolom dan tabel. Dalam satu tugas Pembuatan Profil Data, Anda dapat menghitung beberapa profil untuk beberapa kolom atau kombinasi kolom dalam beberapa tabel atau tampilan.

Tabel berikut ini menjelaskan laporan bahwa masing-masing profil ini menghitung dan jenis data yang profilnya valid.

Untuk menghitung Yang membantu mengidentifikasi Gunakan profil ini
Semua panjang nilai string yang berbeda di kolom yang dipilih dan persentase baris dalam tabel yang diwakili setiap panjang. Nilai string yang tidak valid-Misalnya, Anda membuat profil kolom yang seharusnya menggunakan dua karakter untuk kode status dalam Amerika Serikat, tetapi menemukan nilai yang lebih panjang dari dua karakter. Distribusi Panjang Kolom- Valid untuk kolom dengan salah satu jenis data karakter berikut:

char

nchar

varchar

nvarchar
Sekumpulan ekspresi reguler yang mencakup persentase nilai yang ditentukan dalam kolom string.

Selain itu, untuk menemukan ekspresi reguler yang dapat digunakan di masa mendatang untuk memvalidasi nilai baru
Nilai string yang tidak valid atau tidak dalam format yang benar- Misalnya, profil pola kolom Kode Pos/Kode Pos mungkin menghasilkan ekspresi reguler: \d{5}-\d{4}, \d{5}, dan \d{9}. Jika output berisi ekspresi reguler lainnya, data berisi nilai yang tidak valid atau dalam format yang salah. Profil Pola Kolom- Valid untuk kolom dengan salah satu jenis data karakter berikut:

char

nchar

varchar

nvarchar
Persentase nilai null di kolom yang dipilih. Rasio nilai null yang tidak terduga tinggi dalam kolom- Misalnya, Anda membuat profil kolom yang seharusnya berisi Amerika Serikat Kode Pos, tetapi menemukan persentase kode pos yang hilang yang tidak dapat diterima. Rasio Kolom Null- Valid untuk kolom dengan salah satu jenis data berikut:

gambar

teks

xml

jenis yang ditentukan pengguna

jenis varian
Statistik seperti minimum, maksimum, rata-rata, dan simpangalan standar untuk kolom numerik, serta minimum dan maksimum untuk kolom tanggalwaktu . Nilai dan tanggal numerik yang tidak valid-Misalnya, Anda membuat profil kolom tanggal historis, tetapi menemukan tanggal maksimum yang ada di masa mendatang. Profil Statistik Kolom- Valid untuk kolom dengan salah satu jenis data ini.

Jenis data numerik:

jenis bilangan bulat (kecuali bit

money

smallmoney

desimal

Float

nyata

numerik

Jenis data tanggal dan waktu:

datetime

smalldatetime

timestamp

date

waktu

datetime2

datetimeoffset

Catatan: Untuk kolom yang memiliki jenis data tanggal dan waktu, profil hanya menghitung minimum dan maksimum.
Semua nilai berbeda dalam kolom yang dipilih dan persentase baris dalam tabel yang diwakili setiap nilai. Atau, nilai yang mewakili lebih dari persentase tertentu dalam tabel. Jumlah nilai berbeda yang salah dalam kolom-Misalnya, Anda membuat profil kolom yang berisi status dalam Amerika Serikat, tetapi menemukan lebih dari 50 nilai berbeda. Distribusi Nilai Kolom- Valid untuk kolom dengan salah satu jenis data berikut.

Jenis data numerik:

jenis bilangan bulat (kecuali bit

money

smallmoney

desimal

Float

nyata

numerik

Jenis data karakter:

char

nchar

varchar

nvarchar

Jenis data tanggal dan waktu:

datetime

smalldatetime

timestamp

date

waktu

datetime2

datetimeoffset
Apakah kolom atau kumpulan kolom adalah kunci, atau perkiraan kunci, untuk tabel yang dipilih. Nilai duplikat dalam kolom kunci potensial- Misalnya, Anda membuat profil kolom Nama dan Alamat dalam tabel Pelanggan, dan menemukan nilai duplikat di mana kombinasi nama dan alamat harus unik. Kunci Kandidat- Profil beberapa kolom yang melaporkan apakah kolom atau sekumpulan kolom sesuai untuk berfungsi sebagai kunci untuk tabel yang dipilih. Valid untuk kolom dengan salah satu jenis data ini.

Jenis data bilangan bulat:

bit

tinyint

smallint

int

bigint

Jenis data karakter:

char

nchar

varchar

nvarchar

Jenis data tanggal dan waktu:

datetime

smalldatetime

timestamp

date

waktu

datetime2

datetimeoffset
Sejauh mana nilai dalam satu kolom (kolom dependen) bergantung pada nilai di kolom atau kumpulan kolom lain (kolom penenang). Nilai yang tidak valid dalam kolom dependen- Misalnya, Anda memprofilkan dependensi antara kolom yang berisi Amerika Serikat Kode Pos dan kolom yang berisi status dalam Amerika Serikat. Kode Pos yang sama harus selalu memiliki status yang sama. Namun, profil menemukan pelanggaran dependensi. Dependensi Fungsi Valid untuk kolom dengan salah satu jenis data ini.

Jenis data bilangan bulat:

bit

tinyint

smallint

int

bigint

Jenis data karakter:

char

nchar

varchar

nvarchar

Jenis data tanggal dan waktu:

datetime

smalldatetime

timestamp

date

waktu

datetime2

datetimeoffset
Apakah kolom atau kumpulan kolom sesuai untuk berfungsi sebagai kunci asing di antara tabel yang dipilih.

Artinya, profil ini melaporkan tumpang tindih dalam nilai antara dua kolom atau set kolom.
Nilai yang tidak valid- Misalnya, Anda memprofilkan kolom ProductID dari tabel Penjualan. Profil menemukan bahwa kolom berisi nilai yang tidak ditemukan di kolom ProductID tabel Produk. Penyertaan Nilai- Valid untuk kolom dengan salah satu jenis data ini:

Jenis data bilangan bulat:

bit

tinyint

smallint

int

bigint

Jenis data karakter:

char

nchar

varchar

nvarchar

Jenis data tanggal dan waktu:

datetime

smalldatetime

timestamp

date

waktu

datetime2

datetimeoffset

Untuk memilih profil mana yang akan dihitung, Anda menggunakan halaman Permintaan Profil dari Editor Tugas Pembuatan Profil Data. Untuk informasi selengkapnya, lihat Editor Tugas Pembuatan Profil Data (Halaman Permintaan Profil).

Pada halaman Permintaan Profil , Anda juga menentukan sumber data dan mengonfigurasi profil data. Saat Anda mengonfigurasi tugas, pikirkan tentang informasi berikut:

  • Untuk menyederhanakan konfigurasi dan mempermudah untuk menemukan karakteristik data yang tidak dikenal, Anda dapat menggunakan kartubebas, (*), sebagai pengganti nama kolom individual. Jika Anda menggunakan kartubebas ini, tugas akan memprofilkan setiap kolom yang memiliki jenis data yang sesuai, yang pada gilirannya dapat memperlambat pemrosesan.

  • Saat tabel atau tampilan yang dipilih kosong, tugas Pembuatan Profil Data tidak menghitung profil apa pun.

  • Saat semua nilai di kolom yang dipilih null, tugas Pembuatan Profil Data hanya menghitung Profil Rasio Null Kolom. Ini tidak menghitung Profil Distribusi Panjang Kolom, Profil Pola Kolom, Profil Statistik Kolom, atau Profil Distribusi Nilai Kolom untuk kolom kosong.

Masing-masing profil data yang tersedia memiliki opsi konfigurasinya sendiri. Untuk informasi selengkapnya tentang opsi tersebut, lihat topik berikut ini:

Eksekusi Paket yang Berisi Tugas Pembuatan Profil Data

Setelah menyiapkan tugas Pembuatan Profil Data, Anda bisa menjalankan tugas. Tugas kemudian menghitung profil data dan menghasilkan informasi ini dalam format XML ke file atau variabel paket. Struktur XML ini mengikuti skema DataProfile.xsd. Anda dapat membuka skema di Microsoft Visual Studio atau editor skema lain, di editor XML, atau di editor teks seperti Notepad. Skema untuk informasi kualitas data ini dapat berguna untuk tujuan berikut:

  • Untuk bertukar informasi kualitas data di dalam dan di seluruh organisasi.

  • Untuk membangun alat kustom yang berfungsi dengan informasi kualitas data.

Namespace target diidentifikasi dalam skema sebagai https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.

Langkah Selanjutnya

Penampil Profil Data.