Mengonfigurasi dan Mengelola Word Breakers dan Stemmers untuk Pencarian

Artikel
06/13/2017

Word pemecah dan stemmer melakukan analisis linguistik pada semua data terindeks teks lengkap. Analisis linguistik melibatkan menemukan batas kata (pemecahan kata) dan kata kerja konjugasi (stemming). Word pemecah dan stemmer bersifat spesifik bahasa, dan aturan untuk analisis linguistik berbeda untuk bahasa yang berbeda. Untuk bahasa tertentu, pemecah kata mengidentifikasi kata individu dengan menentukan di mana batas kata ada berdasarkan aturan leksikal bahasa. Setiap kata (juga dikenal sebagai token) dimasukkan ke dalam indeks teks lengkap menggunakan representasi terkompresi untuk mengurangi ukurannya. Stemmer menghasilkan bentuk infleksi dari kata tertentu berdasarkan aturan bahasa tersebut (misalnya, "running", "ran", dan "runner" adalah berbagai bentuk kata "run").

Menggunakan pemisah kata khusus bahasa memungkinkan istilah yang dihasilkan menjadi lebih akurat untuk bahasa tersebut. Di mana ada pemecah kata untuk keluarga bahasa, tetapi tidak untuk sub-bahasa tertentu, bahasa utama digunakan. Misalnya, pemecah kata Prancis digunakan untuk menangani teks yang merupakan Kanada Prancis. Jika tidak ada pemecah kata yang tersedia untuk bahasa tertentu, pemecah kata netral digunakan. Dengan pemecah kata netral, kata-kata dipecah pada karakter netral seperti spasi dan tanda baca.

Mendaftarkan Word Breakers

Agar pemecah kata dari bahasa yang akan digunakan, mereka harus didaftarkan. Untuk pemecah kata terdaftar, stemmer sumber daya linguistik terkait, kata kebisingan (kata stopword), dan file tesaurus-juga tersedia untuk pengindeksan teks lengkap dan operasi kueri. Untuk melihat daftar bahasa yang pemecah katanya saat ini terdaftar di SQL Server, gunakan pernyataan Transact-SQL berikut:

SELECT * FROM sys.fulltext_languages

Jika Anda menambahkan, menghapus, atau mengubah pemecah kata, Anda perlu menyegarkan daftar pengidentifikasi lokal Microsoft Windows (LCID) yang didukung untuk pengindeksan dan kueri teks lengkap. Untuk informasi selengkapnya, lihat Menampilkan atau Mengubah Filter Terdaftar dan pemutus Word.

Mengatur Opsi Bahasa Full-Text Default

Untuk versi SQL Server yang dilokalkan, penyiapan SQL Server mengatur default full-text language opsi ke bahasa server jika ada kecocokan yang sesuai. Untuk versi SQL Server yang tidak dilokalkandefault full-text language, opsinya adalah bahasa Inggris.

Saat membuat atau mengubah indeks teks lengkap, Anda dapat menentukan bahasa yang berbeda untuk setiap kolom terindeks teks lengkap. Jika tidak ada bahasa yang ditentukan untuk kolom, defaultnya adalah nilai opsi default full-text languagekonfigurasi .

Catatan

Semua kolom yang tercantum dalam klausa fungsi kueri teks lengkap tunggal harus menggunakan bahasa yang sama, kecuali opsi BAHASA ditentukan dalam kueri. Bahasa yang digunakan untuk kolom terindeks teks lengkap yang sedang dikueri menentukan analisis linguistik yang dilakukan pada argumen predikat kueri teks lengkap (CONTAINS dan FREETEXT) dan fungsi (CONTAINSTABLE dan FREETEXTTABLE).

Memilih Bahasa untuk Kolom Terindeks

Saat membuat indeks teks lengkap, kami sarankan Anda menentukan bahasa untuk setiap kolom terindeks. Jika bahasa tidak ditentukan untuk kolom, bahasa default sistem akan digunakan. Bahasa kolom menentukan pemecah kata dan stemmer mana yang digunakan untuk mengindeks kolom tersebut. Selain itu, file thesaurus dari bahasa tersebut akan digunakan oleh kueri teks lengkap pada kolom.

Ada beberapa hal yang perlu dipertimbangkan saat memilih bahasa kolom untuk membuat indeks teks lengkap. Pertimbangan ini berkaitan dengan bagaimana teks Anda diberi token dan kemudian diindeks oleh Full-Text Engine. Untuk informasi selengkapnya, lihat Memilih Bahasa Saat Membuat Indeks Full-Text.

Untuk menampilkan bahasa pemecah kata kolom

Mengelola Indeks Full-Text

sys.fulltext_index_columns (Transact-SQL)

SELECT 'language_id' AS "LCID" FROM sys.fulltext_index_columns;

Mendapatkan Informasi tentang pemutus Word

Menampilkan hasil tokenisasi pemecah kata, thesaurus, dan kombinasi daftar henti

sys.dm_fts_parser (Transact-SQL).

Untuk mengembalikan informasi tentang pemecah kata terdaftar

sp_help_fulltext_system_components (Transact-SQL)

Pemecahan masalah Word-Breaking Kesalahan Waktu Habis

Kesalahan waktu habis pemecahan kata mungkin terjadi dalam berbagai situasi. Untuk informasi tentang situasi ini dan cara merespons dalam setiap situasi, lihat MSSQLSERVER_30053.

Memahami Dampak Pemutus Word Baru

Setiap versi SQL Server biasanya mencakup pemecah kata baru yang memiliki aturan linguistik yang lebih baik dan lebih akurat daripada pemecah kata sebelumnya. Berpotensi, pemecah kata baru mungkin bertingkah sedikit berbeda dari pemecah kata dalam indeks teks lengkap yang diimpor dari versi SQL Server sebelumnya. Ini signifikan jika katalog teks lengkap diimpor ketika database ditingkatkan ke versi SQL Server saat ini. Satu atau beberapa bahasa yang digunakan oleh indeks teks lengkap dalam katalog teks lengkap sekarang mungkin dikaitkan dengan pemecah kata baru. Untuk informasi selengkapnya, lihat Meningkatkan Full-Text Search.

Untuk daftar lengkap semua pemecah kata, lihat sys.fulltext_languages (Transact-SQL).

Lihat juga

ALTER FULLTEXT INDEX (Transact-SQL)
CREATE FULLTEXT INDEX (Transact-SQL)
sp_fulltext_service (Transact-SQL)
sys.fulltext_languages (Transact-SQL)
Mengonfigurasi dan Mengelola Stopword dan Stoplist untuk pencarian Full-Text
Mutakhirkan Pencarian Full-Text

Bagikan melalui