Bagikan melalui


Transformasi Pencarian Istilah

Berlaku untuk: SQL Server SSIS Integration Runtime di Azure Data Factory

Transformasi Pencarian Istilah cocok dengan istilah yang diekstrak dari teks dalam kolom input transformasi dengan istilah dalam tabel referensi. Kemudian menghitung berapa kali istilah dalam tabel pencarian terjadi dalam himpunan data input, dan menulis hitungan bersama dengan istilah dari tabel referensi ke kolom dalam output transformasi. Transformasi ini berguna untuk membuat daftar kata kustom berdasarkan teks input, lengkap dengan statistik frekuensi kata.

Sebelum transformasi Pencarian Istilah melakukan pencarian, transformasi ini mengekstrak kata-kata dari teks dalam kolom input menggunakan metode yang sama dengan transformasi Ekstraksi Istilah:

  • Teks dipecah menjadi kalimat.

  • Kalimat dipecah menjadi kata-kata.

  • Kata-kata dinormalisasi.

Untuk menyesuaikan lebih lanjut istilah mana yang cocok, transformasi Pencarian Istilah dapat dikonfigurasi untuk melakukan kecocokan peka huruf besar/kecil.

Cocok

Pencarian Istilah melakukan pencarian dan mengembalikan nilai menggunakan aturan berikut:

  • Jika transformasi dikonfigurasi untuk melakukan kecocokan peka huruf besar/kecil, kecocokan yang gagal dengan perbandingan peka huruf besar/kecil akan dibuang. Misalnya, siswa dan SISWA diperlakukan sebagai kata terpisah.

    Catatan

    Kata yang tidak di-kapitalisasi dapat dicocokkan dengan kata yang dikapitalisasi di awal kalimat. Misalnya, kecocokan antara siswa dan Siswa berhasil ketika Siswa adalah kata pertama dalam kalimat.

  • Jika bentuk jamak dari frasa kata benda atau kata benda ada dalam tabel referensi, pencarian hanya cocok dengan bentuk jamak dari frasa kata benda atau kata benda. Misalnya, semua instans siswa akan dihitung secara terpisah dari instans siswa.

  • Jika hanya bentuk tunggal kata yang ditemukan dalam tabel referensi, bentuk tunggal dan jamak kata atau frasa dicocokkan dengan bentuk tunggal. Misalnya, jika tabel pencarian berisi siswa, dan transformasi menemukan kata siswa dan siswa, kedua kata tersebut akan dihitung sebagai kecocokan untuk istilah pencarian siswa.

  • Jika teks dalam kolom input adalah frasa kata benda lemmatisasi, hanya kata terakhir dalam frasa kata benda yang dipengaruhi oleh normalisasi. Misalnya, janji temu dokter versi lemmatisasi adalah janji dokter.

Saat item pencarian berisi istilah yang tumpang tindih dalam set referensi yaitu, sub-istilah ditemukan dalam lebih dari satu rekaman referensi-transformasi Pencarian Istilah hanya mengembalikan satu hasil pencarian. Contoh berikut menunjukkan hasil saat item pencarian berisi sub-istilah yang tumpang tindih. Sub-istilah yang tumpang tindih dalam hal ini adalah Windows, yang ditemukan dalam dua istilah referensi. Namun, transformasi tidak mengembalikan dua hasil, tetapi hanya mengembalikan satu istilah referensi, Windows. Istilah referensi kedua, Windows 7 Professional, tidak dikembalikan.

Item Nilai
Istilah input Windows 7 Professional
Istilah referensi Windows, Windows 7 Professional
Output Windows

Transformasi Pencarian Istilah dapat mencocokkan kata benda dan frasa kata benda yang berisi karakter khusus, dan data dalam tabel referensi mungkin menyertakan karakter ini. Karakter khusus adalah sebagai berikut: %, @, &, $, #, *, :, ;, ., , , , ?, <, , >+, =, ^, ~, |, \, /, (, ), [, ], {, }, ", dan '.

Jenis Data

Transformasi Pencarian Istilah hanya dapat menggunakan kolom yang memiliki DT_WSTR atau jenis data DT_NTEXT. Jika kolom berisi teks, tetapi tidak memiliki salah satu jenis data ini, transformasi Konversi Data dapat menambahkan kolom dengan tipe data DT_WSTR atau DT_NTEXT ke aliran data dan menyalin nilai kolom ke kolom baru. Output dari transformasi Konversi Data kemudian dapat digunakan sebagai input ke transformasi Pencarian Istilah. Untuk informasi selengkapnya, lihat Transformasi Konversi Data.

Konfigurasikan Transformasi Pencarian Istilah

Kolom input transformasi Pencarian Istilah menyertakan properti InputColumnType, yang menunjukkan penggunaan kolom. InputColumnType dapat berisi nilai berikut:

  • Nilai 0 menunjukkan kolom diteruskan ke output saja dan tidak digunakan dalam pencarian.

  • Nilai 1 menunjukkan kolom hanya digunakan dalam pencarian.

  • Nilai 2 menunjukkan kolom diteruskan ke output, dan juga digunakan dalam pencarian.

Kolom output transformasi yang properti InputColumnType-nya diatur ke 0 atau 2 menyertakan properti CustomLineageID untuk kolom, yang berisi pengidentifikasi silsilah yang ditetapkan ke kolom oleh komponen aliran data upstram.

Transformasi Pencarian Istilah menambahkan dua kolom ke output transformasi, yang dinamai secara default Istilah dan Frekuensi. Istilah berisi istilah dari tabel pencarian dan Frekuensi berisi berapa kali istilah dalam tabel referensi terjadi dalam himpunan data input. Kolom ini tidak menyertakan properti CustomLineageID.

Tabel pencarian harus berupa tabel di SQL Server atau database Access. Jika output transformasi Ekstraksi Istilah disimpan ke tabel, tabel ini dapat digunakan sebagai tabel referensi, tetapi tabel lain juga dapat digunakan. Teks dalam file datar, buku kerja Excel, atau sumber lain harus diimpor ke database SQL Server atau database Access sebelum Anda bisa menggunakan transformasi Pencarian Istilah.

Transformasi Pencarian Istilah menggunakan koneksi OLE DB terpisah untuk menyambungkan ke tabel referensi. Untuk informasi selengkapnya, lihat Pengelola Sambungan OLE DB.

Transformasi Pencarian Istilah berfungsi dalam mode yang sepenuhnya di-precach. Pada waktu proses, transformasi Pencarian Istilah membaca istilah dari tabel referensi dan menyimpannya dalam memori privatnya sebelum memproses baris input transformasi apa pun.

Karena istilah dalam baris kolom input dapat diulang, output transformasi Pencarian Istilah biasanya memiliki lebih banyak baris daripada input transformasi.

Transformasi memiliki satu input dan satu output. Ini tidak mendukung output kesalahan.

Anda dapat mengatur properti melalui SSIS Designer atau secara terprogram.

Untuk informasi selengkapnya tentang properti yang bisa Anda atur dalam kotak dialog Editor Lanjutan atau secara terprogram, klik salah satu topik berikut ini:

Untuk informasi selengkapnya tentang cara mengatur properti, lihat Mengatur Properti Komponen Aliran Data.

Editor Transformasi Pencarian Istilah (Tab Pencarian Istilah)

Gunakan tab Pencarian Istilah dari kotak dialog Editor Transformasi Pencarian Istilah untuk memetakan kolom input ke kolom pencarian dalam tabel referensi dan untuk menyediakan alias untuk setiap kolom output.

Opsi

Kolom Input yang Tersedia
Menggunakan kotak centang, pilih kolom input untuk diteruskan ke output yang tidak berubah. Seret kolom input ke daftar Kolom Referensi yang Tersedia untuk memetakannya ke kolom pencarian dalam tabel referensi. Kolom input dan pencarian harus memiliki jenis data yang cocok dan didukung, baik DT_NTEXT atau DT_WSTR. Pilih garis pemetaan dan klik kanan untuk mengedit pemetaan dalam kotak dialog Buat Hubungan .

Kolom Referensi yang Tersedia
Tampilkan kolom yang tersedia dalam tabel referensi. Pilih kolom yang berisi daftar istilah yang cocok.

Kolom Pass-Through
Pilih dari daftar kolom input yang tersedia. Pilihan Anda tercermin dalam pilihan kotak centang dalam tabel Kolom Input yang Tersedia.

Alias Kolom Output
Ketik alias untuk setiap kolom output. Defaultnya adalah nama kolom; namun, Anda dapat memilih nama deskriptif yang unik.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan opsi penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Editor Transformasi Pencarian Istilah (Tab Tabel Referensi)

Gunakan tab Tabel Referensi dari kotak dialog Editor Transformasi Pencarian Istilah untuk menentukan koneksi ke tabel referensi (pencarian).

Opsi

Manajer koneksi OLE DB
Pilih manajer koneksi yang sudah ada dari daftar, atau buat koneksi baru dengan mengklik Baru.

Baru
Buat koneksi baru dengan menggunakan kotak dialog Konfigurasikan Pengelola Sambungan OLE DB.

Nama tabel referensi
Pilih tabel pencarian atau tampilan dari database dengan memilih item dari daftar. Tabel atau tampilan harus berisi kolom dengan daftar istilah yang sudah ada yang bisa dibandingkan dengan teks di kolom sumber.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan opsi penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Editor Transformasi Pencarian Istilah (Tab Tingkat Lanjut)

Gunakan tab Tingkat Lanjut dari kotak dialog Editor Transformasi Pencarian Istilah untuk menentukan apakah pencarian harus peka huruf besar/kecil.

Opsi

Menggunakan pencarian istilah peka huruf besar/kecil
Menunjukkan apakah pencarian peka huruf besar/kecil. Defaultnya adalah False.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan opsi penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Lihat Juga

Kesalahan Layanan Integrasi dan Referensi Pesan
Transformasi Ekstraksi Istilah