Normalisasi Formulir Permukaan
Meskipun kata-kata dan aturan linguistik berbeda secara dramatis, ada beberapa pertimbangan, seperti angka, tanggal, dan waktu, yang ditangani secara konsisten di semua pemecah kata. Topik ini mendokuensikan pertimbangan normalisasi yang dapat memengaruhi implementasi pemecah kata Anda.
Topik ini diatur sebagai berikut:
Tanda Hubung
Tanda hubung (-) digunakan di antara bagian kata atau nama gabungan. Kata-kata tersebut juga digunakan di antara suku kata ketika kata dibagi di akhir baris teks. Dalam bahasa Inggris, kata-kata digabungkan dengan tanda hubung untuk menunjukkan hubungan khusus dalam konteks, tetapi kata-kata tersebut biasanya tidak dihubungkan dalam konteks lain; misalnya, "langkah demi langkah." Selama pembuatan indeks, pemisah kata harus memperlakukan tanda hubung sebagai pemisah kata. Misalnya, "data-base" akan disimpan sebagai "data" ditambah "base." Pada waktu kueri, frasa yang dipengaruhi harus diganti dengan dua alternatif: varian dua kata dan senyawa sebenarnya. Misalnya, "data-base" akan digantikan oleh "data" ditambah "base" dan "database." Perbedaan antara indeks dan waktu kueri ini meningkatkan kombinasi representasi untuk kata-kata yang dipengaruhi dan membuat kata-kata lebih mudah dicocokkan dalam kueri.
Tabel berikut ini memperlihatkan bagaimana memperlakukan tanda hubung sebagai pemisah kata dalam bahasa Inggris meningkatkan jumlah istilah kueri yang cocok untuk setiap istilah yang disertakan dalam indeks.
Istilah yang disertakan dalam indeks | Kecocokan waktu kueri |
---|---|
Basis data | basis data, basis data |
Basis data | basis data, basis data |
Database | basis data, database |
Posesif
Posesif adalah variasi dalam kata benda yang menunjukkan kepemilikan. Posesif bahasa Inggris diwakili dengan menambahkan apostrof (') atau apostrof dan kata ke kata. Misalnya, untuk menunjukkan kepemilikan, kata "Maria" direpresentasikan sebagai "Maria." Pemecah kata menghasilkan apostrof dan formulir apostrof pada waktu kueri. Kueri untuk "Maria" harus cocok dengan "Mary" dan "Mary's."
Diakritik
Diakritik adalah tanda yang ditambahkan ke huruf atau fonem untuk menunjukkan nilai fonetik khusus untuk pengucapan. Diakritik dapat membedakan kata-kata yang jika tidak identik secara grafis; misalnya, "resume" dan "resumé" dalam bahasa Inggris. Namun, menyimpan diakritik ke indeks meningkatkan jumlah kunci kata unik dalam indeks, yang memperlambat performa kueri. Jika diakritik hanya digunakan secara minimal dalam bahasa, pemecah kata untuk bahasa tersebut harus menghapusnya selama pembuatan indeks dan kueri. Misalnya, pemecah kata bahasa Inggris menghasilkan "resume" saat memproses "resumé," yang hanya menyebabkan dampak minimal pada relevansi hasil kueri.
Klitik
Klitik adalah kata yang tidak tertekan yang tidak mampu berdiri sendiri dan menempel pada kata yang ditekankan untuk membentuk satu unit. Klitoris tidak dapat dengan mudah diklasifikasikan sebagai fonologis, sintaksis, atau morfologis. Klitik hadir dalam dua jenis: proklitik dan enklitik. Proklitik melampirkan diri mereka ke awal kata. Enklitik melampirkan diri mereka ke akhir kata.
Klitik lebih sulit diurai dalam bahasa seperti Spanyol. Kata kerja Spanyol dapat menghasilkan banyak bentuk permukaan, tergantung pada tegangannya. Pertimbangan harus dibuat antara menghapus klitik selama pembuatan indeks dan menghasilkan bentuk permukaan melalui stemming pada waktu kueri. Menghapus iklim dalam kasus di mana morfologi komposisi iklim ambigu dapat menyebabkan hasil yang tidak dapat diprediksi. Menghasilkan sejumlah besar bentuk permukaan untuk kata meningkatkan ukuran indeks teks lengkap dan dapat memperlambat performa kueri. Disarankan agar stemmer hanya menghasilkan sejumlah kecil bentuk permukaan.