Bagikan melalui


Transformasi Ekstraksi Istilah

Berlaku untuk: SQL Server SSIS Integration Runtime di Azure Data Factory

Transformasi Ekstraksi Istilah mengekstrak istilah dari teks dalam kolom input transformasi, lalu menulis istilah ke kolom output transformasi. Transformasi ini hanya berfungsi dengan teks bahasa Inggris dan menggunakan kamus bahasa Inggris sendiri dan informasi linguistik tentang bahasa Inggris.

Anda dapat menggunakan transformasi Ekstraksi Istilah untuk menemukan konten himpunan data. Misalnya, teks yang berisi pesan email dapat memberikan umpan balik yang berguna tentang produk, sehingga Anda dapat menggunakan transformasi Ekstraksi Istilah untuk mengekstrak topik diskusi dalam pesan, sebagai cara menganalisis umpan balik.

Istilah dan Jenis Data yang Diekstrak

Transformasi Ekstraksi Istilah hanya dapat mengekstrak kata benda, frasa kata benda saja, atau fase kata benda dan kata benda. Kata benda adalah kata benda tunggal; frasa kata benda setidaknya dua kata benda, di mana salah satunya adalah kata benda dan yang lainnya adalah kata benda atau kata sifat. Misalnya, jika transformasi menggunakan opsi khusus kata benda, transformasi mengekstrak istilah seperti sepeda dan lanskap; jika transformasi menggunakan opsi frasa kata benda, transformasi mengekstrak istilah seperti sepeda biru baru, helm sepeda, dan sepeda kotak.

Artikel dan kata ganti tidak diekstrak. Misalnya, transformasi Ekstraksi Istilah mengekstrak istilah sepeda dari teks sepeda, sepeda saya, dan sepeda itu.

Transformasi Ekstraksi Istilah menghasilkan skor untuk setiap istilah yang diekstraknya. Skor dapat berupa nilai TFIDF atau frekuensi mentah, yang berarti berapa kali istilah yang dinormalisasi muncul dalam input. Dalam kedua kasus, skor diwakili oleh angka riil yang lebih besar dari 0. Misalnya, skor TFIDF mungkin memiliki nilai 0,5, dan frekuensinya akan menjadi nilai seperti 1,0 atau 2,0.

Output transformasi Ekstraksi Istilah hanya mencakup dua kolom. Satu kolom berisi istilah yang diekstrak dan kolom lainnya berisi skor. Nama default kolom adalah Istilah dan Skor. Karena kolom teks dalam input mungkin berisi beberapa istilah, output transformasi Ekstraksi Istilah biasanya memiliki lebih banyak baris daripada input.

Jika istilah yang diekstrak ditulis ke tabel, istilah tersebut dapat digunakan oleh transformasi pencarian lainnya seperti transformasi Pencarian Istilah, Pencarian Fuzzy, dan Pencarian.

Transformasi Ekstraksi Istilah hanya dapat bekerja dengan teks dalam kolom yang memiliki DT_WSTR atau jenis data DT_NTEXT. Jika kolom berisi teks tetapi tidak memiliki salah satu jenis data ini, transformasi Konversi Data dapat digunakan untuk menambahkan kolom dengan tipe data DT_WSTR atau DT_NTEXT ke aliran data dan menyalin nilai kolom ke kolom baru. Output dari transformasi Konversi Data kemudian dapat digunakan sebagai input ke transformasi Ekstraksi Istilah. Untuk informasi selengkapnya, lihat Transformasi Konversi Data.

Ketentuan Pengecualian

Secara opsional, transformasi Ekstraksi Istilah dapat mereferensikan kolom dalam tabel yang berisi istilah pengecualian, yang berarti istilah yang harus dilewati transformasi saat mengekstrak istilah dari himpunan data. Ini berguna ketika sekumpulan istilah telah diidentifikasi sebagai tidak penting dalam bisnis dan industri tertentu, biasanya karena istilah tersebut terjadi dengan frekuensi tinggi sehingga menjadi kata kebisingan. Misalnya, saat mengekstrak istilah dari himpunan data yang berisi informasi dukungan pelanggan tentang merek mobil tertentu, nama merek itu sendiri mungkin dikecualikan karena disebutkan terlalu sering memiliki signifikansi. Oleh karena itu, nilai dalam daftar pengecualian harus disesuaikan dengan himpunan data yang sedang Anda kerjakan.

Saat Anda menambahkan istilah ke daftar pengecualian, semua istilah-kata atau frasa kata benda-yang berisi istilah juga dikecualikan. Misalnya, jika daftar pengecualian menyertakan data kata tunggal, maka semua istilah yang berisi kata ini, seperti data, penggalian data, integritas data, dan validasi data juga akan dikecualikan. Jika Anda hanya ingin mengecualikan senyawa yang berisi data kata, Anda harus secara eksplisit menambahkan istilah gabungan tersebut ke daftar pengecualian. Misalnya, jika Anda ingin mengekstrak insiden data, tetapi mengecualikan validasi data, Anda akan menambahkan validasi data ke daftar pengecualian, dan memastikan bahwa data dihapus dari daftar pengecualian.

Tabel referensi harus berupa tabel di SQL Server atau database Access. Transformasi Ekstraksi Istilah menggunakan koneksi OLE DB terpisah untuk menyambungkan ke tabel referensi. Untuk informasi selengkapnya, lihat Pengelola Sambungan OLE DB.

Transformasi Ekstraksi Istilah berfungsi dalam mode yang sepenuhnya di-precach. Pada waktu proses, transformasi Ekstraksi Istilah membaca istilah pengecualian dari tabel referensi dan menyimpannya dalam memori privatnya sebelum memproses baris input transformasi apa pun.

Ekstraksi Istilah dari Teks

Untuk mengekstrak istilah dari teks, transformasi Ekstraksi Istilah melakukan tugas berikut.

Identifikasi Kata

Pertama, transformasi Ekstraksi Istilah mengidentifikasi kata-kata dengan melakukan tugas berikut:

  • Memisahkan teks menjadi kata dengan menggunakan spasi, pemisah baris, dan terminator kata lainnya dalam bahasa Inggris. Misalnya, tanda baca seperti ? dan : adalah karakter pemecah kata.

  • Mempertahankan kata-kata yang disambungkan oleh tanda hubung atau garis bawah. Misalnya, kata yang dilindungi salin dan baca-saja tetap satu kata.

  • Menjaga akronim utuh yang mencakup titik. Misalnya, Perusahaan A.B.C akan ditokenisasi sebagai ABC dan Perusahaan.

  • Memisahkan kata pada karakter khusus. Misalnya, kata tanggal/waktu diekstrak sebagai tanggal dan waktu, (sepeda) sebagai sepeda, dan C# diperlakukan sebagai C. Karakter khusus dibuang dan tidak dapat dileksikalisasi.

  • Mengenali kapan karakter khusus seperti apostrof tidak boleh membagi kata. Misalnya, kata sepeda tidak dibagi menjadi dua kata, dan menghasilkan satu istilah sepeda (kata benda).

  • Memisahkan ekspresi waktu, ekspresi moneter, alamat email, dan alamat pos. Misalnya, tanggal 31 Januari 2004 dipisahkan menjadi tiga token Januari, 31, dan 2004.

Kata-Kata Bertag

Kedua, transformasi Ekstraksi Istilah menandai kata-kata sebagai salah satu bagian ucapan berikut:

  • Kata benda dalam bentuk tunggal. Misalnya, sepeda dan kentang.

  • Kata benda dalam bentuk jamak. Misalnya, sepeda dan kentang. Semua kata benda jamak yang tidak dilemmatisasi tunduk pada stemming.

  • Kata benda yang tepat dalam bentuk tunggal. Misalnya, April dan Peter.

  • Kata benda yang tepat dalam bentuk jamak. Misalnya April dan Peters. Agar kata benda yang tepat tunduk pada stemming, itu harus menjadi bagian dari leksikon internal, yang terbatas pada kata-kata bahasa Inggris standar.

  • Kata sifat. Misalnya, biru.

  • Kata sifat komparatif yang membandingkan dua hal. Misalnya, lebih tinggi dan lebih tinggi.

  • Kata sifat superlatif yang mengidentifikasi hal yang memiliki kualitas di atas atau di bawah tingkat setidaknya dua lainnya. Misalnya, tertinggi dan tertinggi.

  • Sebuah angka. Misalnya, 62 dan 2004.

Kata-kata yang bukan merupakan salah satu bagian ucapan ini dibuang. Misalnya, kata kerja dan kata ganti dibuang.

Catatan

Penandaan bagian ucapan didasarkan pada model statistik dan pemberian tag mungkin tidak sepenuhnya akurat.

Jika transformasi Ekstraksi Istilah dikonfigurasi untuk mengekstrak hanya kata benda, hanya kata benda yang ditandai sebagai bentuk kata benda tunggal atau jamak dan kata benda yang tepat yang diekstrak.

Jika transformasi Ekstraksi Istilah dikonfigurasi untuk mengekstrak hanya frasa kata benda, kata benda yang ditandai sebagai kata benda, kata benda, kata sifat, dan angka dapat digabungkan untuk membuat frasa kata benda, tetapi frasa harus menyertakan setidaknya satu kata benda yang ditandai sebagai bentuk tunggal atau jamak dari kata benda atau kata benda yang tepat. Misalnya, kata benda dengan frasa tertinggi gunung menggabungkan kata yang ditandai sebagai kata sifat superlatif (tertinggi) dan kata yang ditandai sebagai kata benda (gunung).

Jika Ekstraksi Istilah dikonfigurasi untuk mengekstrak kata benda dan frasa kata benda, aturan untuk kata benda dan aturan untuk frasa kata benda berlaku. Misalnya, transformasi mengekstrak sepeda dan sepeda biru yang indah dari teks banyak sepeda biru yang indah.

Catatan

Istilah yang diekstrak tetap tunduk pada panjang jangka maksimum dan ambang frekuensi yang digunakan transformasi.

Kata Bertangkai

Transformasi Ekstraksi Istilah juga membendung kata benda untuk mengekstrak hanya bentuk tunggal dari kata benda. Misalnya, transformasi mengekstrak manusia dari pria, tikus dari tikus, dan sepeda dari sepeda. Transformasi menggunakan kamusnya untuk membendung kata benda. Gerund diperlakukan sebagai kata benda jika mereka berada di kamus.

Transformasi Ekstraksi Istilah membendung kata-kata ke bentuk kamusnya seperti yang ditunjukkan dalam contoh ini dengan menggunakan kamus internal ke transformasi Ekstraksi Istilah.

  • Menghapus dari kata benda. Misalnya, sepeda menjadi sepeda.

  • Menghapus es dari kata benda. Misalnya, cerita menjadi cerita.

  • Mengambil bentuk tunggal untuk kata benda tidak teratur dari kamus. Misalnya, angsa menjadi angsa.

Kata yang Dinormalisasi

Transformasi Ekstraksi Istilah menormalkan istilah yang dimodifikasi hanya karena posisinya dalam kalimat, dan menggunakan formulir yang tidak dikapitalisasi sebagai gantinya. Misalnya, dalam frasa Anjing mengejar kucing dan jalur Gunung curam, Anjing dan Gunung akan dinormalisasi menjadi anjing dan gunung.

Transformasi Ekstraksi Istilah menormalkan kata-kata sehingga versi kata yang dikapitalisasi dan tidak dikapitalisasi tidak diperlakukan sebagai istilah yang berbeda. Misalnya, dalam teks Anda melihat banyak sepeda di Seattle dan Sepeda berwarna biru, sepeda dan Sepeda diakui sebagai istilah yang sama dan transformasi hanya menyimpan sepeda. Kata benda dan kata-kata yang tepat yang tidak tercantum dalam kamus internal tidak dinormalisasi.

Normalisasi Peka Huruf Besar/Kecil

Transformasi Ekstraksi Istilah dapat dikonfigurasi untuk mempertimbangkan kata huruf kecil dan huruf besar sebagai istilah yang berbeda, atau sebagai varian yang berbeda dari istilah yang sama.

  • Jika transformasi dikonfigurasi untuk mengenali perbedaan dalam kasus, istilah seperti Metode dan metode diekstraksi sebagai dua istilah yang berbeda. Kata bermodal yang bukan kata pertama dalam kalimat tidak pernah dinormalisasi, dan ditandai sebagai kata benda yang tepat.

  • Jika transformasi dikonfigurasi agar tidak peka huruf besar/kecil, istilah seperti Metode dan metode diakui sebagai varian dari satu istilah. Daftar istilah yang diekstrak mungkin mencakup Metode atau metode, tergantung pada kata mana yang terjadi terlebih dahulu dalam himpunan data input. Jika Metode diukur hanya karena merupakan kata pertama dalam kalimat, metode diekstrak dalam bentuk normal.

Batas Kalimat dan Kata

Transformasi Ekstraksi Istilah memisahkan teks menjadi kalimat menggunakan karakter berikut sebagai batas kalimat:

  • Karakter pemisah baris ASCII 0x0d (pengembalian pengangkutan) dan 0x0a (umpan baris). Untuk menggunakan karakter ini sebagai batas kalimat, harus ada dua atau beberapa karakter pemisah baris berturut-turut.

  • Tanda hubung (-). Untuk menggunakan karakter ini sebagai batas kalimat, baik karakter di sebelah kiri maupun di sebelah kanan tanda hubung dapat berupa huruf.

  • Garis bawah (_). Untuk menggunakan karakter ini sebagai batas kalimat, baik karakter di sebelah kiri maupun di sebelah kanan tanda hubung dapat berupa huruf.

  • Semua karakter Unicode yang kurang dari atau sama dengan 0x19, atau lebih besar dari atau sama dengan 0x7b.

  • Kombinasi angka, tanda baca, dan karakter alfabet. Misalnya, A23B#99 mengembalikan istilah A23B.

  • Karakter, %, @, &, $, #, *, :, ;, ., , , , ?, <, , >+, =, ^, ~, |, \, /, (, ), [, ], {, }, ", dan '.

    Catatan

    Akronim yang mencakup satu atau beberapa titik (.) tidak dipisahkan menjadi beberapa kalimat.

Transformasi Ekstraksi Istilah kemudian memisahkan kalimat menjadi kata-kata menggunakan batas kata berikut:

  • Spasi

  • Tab

  • 0X0D ASCII (pengembalian gerbong)

  • 0x0a ASCII (umpan baris)

    Catatan

    Jika apostrof berada dalam kata yang merupakan kontraksi, seperti kita atau itu, kata itu rusak pada apostrof; jika tidak, huruf setelah apostrof dipangkas. Misalnya, kita dibagi menjadi kita dan 're, dan sepeda dipangkas menjadi sepeda.

Konfigurasi Transformasi Ekstraksi Istilah

Transformasi Ekstraksi Teks menggunakan algoritma internal dan model statistik untuk menghasilkan hasilnya. Anda mungkin harus menjalankan transformasi Ekstraksi Istilah beberapa kali dan memeriksa hasilnya untuk mengonfigurasi transformasi untuk menghasilkan jenis hasil yang berfungsi untuk solusi penambangan teks Anda.

Transformasi Ekstraksi Istilah memiliki satu input reguler, satu output, dan satu output kesalahan.

Anda dapat mengatur properti melalui SSIS Designer atau secara terprogram.

Untuk informasi selengkapnya tentang properti yang bisa Anda atur dalam kotak dialog Editor Lanjutan atau secara terprogram, klik salah satu topik berikut ini:

Untuk informasi selengkapnya tentang cara mengatur properti, lihat Mengatur Properti Komponen Aliran Data.

Editor Transformasi Ekstraksi Istilah (Tab Ekstraksi Istilah)

Gunakan tab Ekstraksi Istilah dari kotak dialog Editor Transformasi Ekstraksi Istilah untuk menentukan kolom teks yang berisi teks yang akan diekstrak.

Opsi

Kolom Input yang Tersedia
Menggunakan kotak centang, pilih kolom teks tunggal yang akan digunakan untuk ekstraksi istilah.

Term
Berikan nama untuk kolom output yang akan berisi istilah yang diekstrak.

Skor
Berikan nama untuk kolom output yang akan berisi skor untuk setiap istilah yang diekstrak.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Editor Transformasi Ekstraksi Istilah (Tab Pengecualian)

Gunakan tab Pengecualian dari kotak dialog Editor Transformasi Ekstraksi Istilah untuk menyiapkan koneksi ke tabel pengecualian dan tentukan kolom yang berisi istilah pengecualian.

Opsi

Gunakan istilah pengecualian
Tunjukkan apakah akan mengecualikan istilah tertentu selama ekstraksi istilah dengan menentukan kolom yang berisi istilah pengecualian. Anda harus menentukan properti sumber berikut jika Anda memilih untuk mengecualikan istilah.

Manajer koneksi OLE DB
Pilih pengelola koneksi OLE DB yang sudah ada, atau buat koneksi baru dengan mengklik Baru.

Baru
Buat koneksi baru ke database dengan menggunakan kotak dialog Konfigurasikan Pengelola Sambungan OLE DB.

Tabel atau tampilan
Pilih tabel atau tampilan yang berisi istilah pengecualian.

Kolom
Pilih kolom dalam tabel atau tampilan yang berisi istilah pengecualian.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Editor Transformasi Ekstraksi Istilah (Tab Tingkat Lanjut)

Gunakan tab Tingkat Lanjut dari kotak dialog Editor Transformasi Ekstraksi Istilah untuk menentukan properti untuk ekstraksi seperti frekuensi, panjang, dan apakah akan mengekstrak kata atau frasa.

Opsi

Kata benda
Tentukan bahwa transformasi hanya mengekstrak kata benda individual.

Frasa kata benda
Tentukan bahwa transformasi hanya mengekstrak frasa kata benda.

Kata benda dan kata benda frasa
Tentukan bahwa transformasi mengekstrak kata benda dan frasa kata benda.

Frekuensi
Tentukan bahwa skor adalah frekuensi istilah.

TFIDF
Tentukan bahwa skor adalah nilai TFIDF dari istilah. Skor TFIDF adalah produk dari Frekuensi Istilah dan Frekuensi Dokumen Terbalik, didefinisikan sebagai: TFIDF dari Istilah T = (frekuensi T) * log( (#rows dalam Input) / (#rows memiliki T) )

Ambang frekuensi
Tentukan berapa kali kata atau frasa harus terjadi sebelum mengekstraknya. Nilai defaultnya adalah 2.

Panjang maksimum istilah
Tentukan panjang maksimum frasa dengan kata-kata. Opsi ini hanya memengaruhi frasa kata benda. Nilai default{i>-

Menggunakan ekstraksi istilah peka huruf besar/kecil
Tentukan apakah akan membuat ekstraksi peka huruf besar/kecil. Defaultnya adalah False.

Mengonfigurasi Output Kesalahan
Gunakan kotak dialog Konfigurasi Output Kesalahan untuk menentukan penanganan kesalahan untuk baris yang menyebabkan kesalahan.

Lihat Juga

Kesalahan Layanan Integrasi dan Referensi Pesan
Transformasi Pencarian Istilah