Bagikan melalui


Memahami Komponen Sumber Daya Bahasa

Sumber daya bahasa terdiri dari pemecah kata dan stemmer yang memperluas kemampuan pembuatan dan kueri indeks ke bahasa dan lokal baru. Word breaker digunakan selama pembuatan dan kueri indeks. Stemmer hanya digunakan untuk kueri. Windows Search menggunakan DLL sumber daya bahasa untuk mengikat implementasi IWordBreaker dan IStemmer untuk lokal bahasa tertentu.

Topik ini diatur sebagai berikut:

Tentang Sumber Daya Bahasa

Windows Search menggunakan filter (implementasi antarmuka IFilter ) dan ILoadFilter untuk mengakses dokumen dalam format aslinya. Komponen IFilter mengekstrak konten teks, properti, dan pemformatan dari dokumen. IFilter mengidentifikasi lokal dokumen yang sedang difilter. Komponen pengindeksan memanggil pemecah kata yang sesuai untuk lokal tersebut. Jika tidak ada yang tersedia, komponen pengindeksan memanggil pemecah kata netral. Pemecah kata menerima, dari IFilter, aliran input karakter Unicode yang diurai pemecah kata untuk menghasilkan kata dan frasa individu. Pemecah kata juga menormalkan format tanggal dan waktu. Pengindeks menormalkan kata yang dihasilkan oleh pemecah kata dengan mengonversi kata menjadi semua huruf besar. Pengindeks menyimpan kata-kata huruf besar ke indeks teks lengkap, dengan pengecualian kata kebisingan yang diidentifikasi untuk lokal tersebut.

Tabel berikut mencantumkan tindakan dan hasil terkait untuk kalimat "Gambar 1 mengilustrasikan peran sumber daya bahasa untuk Windows Search selama proses pembuatan indeks."

Tindakan Teks yang dihasilkan
Teks asli Gambar 1 menggambarkan peran sumber daya bahasa untuk Windows Search selama proses pembuatan indeks.
Pemfilteran Gambar 1 menggambarkan peran sumber daya bahasa untuk Windows Search selama proses pembuatan indeks.
Pemecah kata Gambar, 1, menggambarkan,, peran, dari, bahasa, sumber daya, untuk, Windows, Pencarian, selama,, indeks, pembuatan, proses, EOS
Normalisasi kasus GAMBAR, 1, MENGGAMBARKAN,, PERAN, DARI, BAHASA, SUMBER DAYA, WINDOWS, PENCARIAN, SELAMA,, INDEKS, PEMBUATAN, PROSES
Penghapusan kata kebisingan GAMBAR, MENGGAMBARKAN, PERAN, BAHASA, SUMBER DAYA, WINDOWS, PENCARIAN, SELAMA, INDEKS, PEMBUATAN, PROSES
Simpan ke indeks teks-penuh GAMBAR, MENGGAMBARKAN, PERAN, BAHASA, SUMBER DAYA, WINDOWS, PENCARIAN, SELAMA, INDEKS, PEMBUATAN, PROSES

 

Word breaker dan stemmer digunakan untuk memperluas kueri FREETEXT pada waktu kueri. Lokal kueri adalah lokal default kecuali pengidentifikasi kode bahasa (LCID) diteruskan sebagai parameter kueri. Komponen kueri memanggil pemecah kata yang sesuai pada istilah kueri yang tercantum dalam klausa WHERE kueri. Misalnya, jika klausa WHERE kueri berisi "FREETEXT (apel, jeruk, dan pir)," pemecah kata menerima teks, "apel, jeruk, dan pir." Jika klausa WHERE kueri menggunakan predikat CONTAINS teks lengkap, output teks dari pemisah kata dinormalisasi. Jika tidak, komponen kueri meneruskan setiap kata yang diidentifikasi oleh pemecah kata ke stemmer yang sesuai untuk bahasa dan lokal tersebut. Stemmer menghasilkan daftar bentuk alternatif, atau inflected, untuk kata itu. Komponen kueri menormalkan daftar istilah kueri yang diperluas dan menghapus kata-kata kebisingan.

Tabel berikut mencantumkan tindakan dan hasil terkait untuk kueri "apel, jeruk, dan pir."

Tindakan Teks yang dihasilkan
Teks asli apel, jeruk, dan pir
Pemecah kata apel, jeruk, dan, pir, EOS
Ekstraksi kata dasar apel, apel, jeruk, jeruk, jeruk, dan, pir, pir
Normalisasi kasus APEL, APEL, JERUK, ORANYE, JERUK, DAN, PIR, PIR
Penghapusan kata kebisingan APEL, APEL, JERUK, ORANYE, JERUK, PIR, PIR
Daftar istilah kueri yang diperluas APEL, APEL, JERUK, ORANYE, JERUK, PIR, PIR

 

Istilah kueri yang diperluas meningkatkan kemungkinan kueri akan menemukan dokumen yang cocok dengan niat kueri asli. Teks yang dihasilkan pemecah kata atau stemmer pada waktu kueri tidak disimpan di disk.

pemecahan Word

Word pemisahan adalah pemisahan teks menjadi token teks individual, atau kata-kata. Banyak bahasa, terutama yang memiliki alfabet Romawi, memiliki array pemisah kata (seperti spasi putih) dan tanda baca yang digunakan untuk membedakan kata, frasa, dan kalimat. Word pemutus harus mengandalkan heuristik bahasa yang akurat untuk memberikan hasil yang andal dan akurat. Word melanggar lebih kompleks untuk sistem penulisan berbasis karakter atau alfabet berbasis skrip, di mana arti karakter individu ditentukan dari konteks. Untuk informasi selengkapnya tentang pertimbangan linguistik yang dapat memengaruhi implementasi pemecah kata Anda, lihat Pertimbangan Linguistik dan Unicode.

Ekstraksi kata dasar

Windows Search menerapkan stemmer secara eksklusif pada waktu kueri untuk menghasilkan formulir kata tambahan untuk istilah dalam FREETEXT dan kueri properti. Stemmer melakukan analisis morfologis dan menerapkan aturan tata bahasa untuk menghasilkan daftar bentuk alternatif, atau inflektase untuk kata-kata. Bentuk alternatif sering memiliki bentuk batang atau dasar yang sama. Dengan menghasilkan formulir yang tidak difungsikan untuk sebuah kata, Layanan Pengindeksan mengembalikan hasil kueri yang secara statistik lebih relevan dengan kueri. Misalnya, kueri teks lengkap untuk "pertemuan berenang" cocok dengan dokumen yang berisi "berenang, berenang, berenang, berenang, berenang, menukar" atau "bertemu, bertemu, bertemu, bertemu, bertemu, bertemu', bertemu, bertemu, bertemu" dan kombinasi istilah-istilah ini.

Beberapa bahasa mengharuskan istilah yang tidak terikat dihasilkan pada waktu indeks dan waktu kueri untuk infleksi standar dan varian. Dalam hal ini, stemming terjadi pada komponen pemecah kata, dengan pekerjaan stemming minimal di stemmer aktual. Misalnya, pemecah kata Bahasa Jepang melakukan stemming selama pembuatan indeks dan kueri untuk mengaktifkan kueri untuk menemukan berbagai bentuk istilah pencarian yang tidak tegak.

Normalisasi kasus

Dokumen semua bahasa disimpan dalam satu indeks. Meskipun kata-kata dan aturan linguistik berbeda secara dramatis, ada beberapa pertimbangan, seperti angka, tanggal, dan waktu, yang ditangani secara konsisten di semua pemecah kata. Untuk informasi selengkapnya tentang pertimbangan normalisasi yang dapat memengaruhi implementasi pemecah kata Anda, lihat Normalisasi Formulir Permukaan.

Kata-kata Kebisingan

Kata-kata bising, juga dikenal sebagai kata berhenti, adalah kata-kata yang bukan indikator signifikan untuk konten. Layanan Pengindeksan menghapus kata-kata kebisingan dari istilah kueri dan dari konten yang disertakan dalam indeks teks lengkap. Offset adalah kemunculan kata dalam dokumen atau dalam daftar istilah kueri. Offset kata-kata kebisingan dalam dokumen atau kueri direkam sebagai kosong. Menghapus kata-kata kebisingan meningkatkan performa kueri dengan menghindari pertumbuhan indeks yang tidak perlu. Ini juga meningkatkan relevansi hasil kueri. Anda dapat mengonfigurasi Windows Search untuk menggunakan daftar kata bising untuk bahasa tertentu. Daftar ini digunakan ketika pemecah kata dipanggil untuk bahasa tersebut. Misalnya, "the" dalam bahasa Inggris sering terjadi sehingga memiliki sedikit nilai sebagai kunci unik. "The" ada dalam daftar kata kebisingan, tidak ditulis ke indeks konten, dan, jika dikueri, tidak mengembalikan hasil.

Kata-kata kebisingan bertindak sebagai tempat penampung dalam kueri frasa. Dokumen yang berisi teks "wag the dog" disimpan dalam indeks dengan "wag" pada saat kejadian 1 dan "anjing" pada saat kejadian 3. Kueri frasa "anjing wag" tidak cocok, tetapi kueri frasa "wag a dog" tidak cocok, karena informasi kemunculannya cocok. Frasa "wag purple dog" tidak cocok karena "ungu" tidak ditemukan dalam indeks pada saat kejadian 2. Namun, kueri untuk "wag the dog" mengembalikan dokumen yang berisi "wag purple dog" karena tidak ada cara untuk secara efisien menentukan apakah dokumen memiliki kata non-kebisingan antara "wag" dan "dog."

Memperluas Sumber Daya Bahasa

Menerapkan Word Breaker dan Stemmer

Pertimbangan Linguistik dan Unicode

Pemecahan Masalah Sumber Daya Bahasa dan Praktik Terbaik