Belirteç oluşturma
Uyarı
Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!
Bir metin gövdesini ( corpus olarak adlandırılır) çözümlemenin ilk adımı, bunu belirteçlere ayırmaktır. Kolaylık sağlamak için, metindeki her ayrı sözcüğü bir belirteç olarak düşünebilirsiniz. Gerçekte, kısmi sözcükler veya sözcük ve noktalama işaretleri bileşimleri için belirteçler oluşturulabilir.
Örneğin, ünlü bir ABD başkanlık konuşmasından şu ifadeyi düşünün: "We choose to go to the moon". Tümcecik, sayısal tanımlayıcılarla aşağıdaki belirteçlere ayrılabilir:
Wechoosetogotothemoon
"to" (belirteç numarası 3) corpus içinde iki kez kullanıldığına dikkat edin. tümcecik "We choose to go to the moon" belirteçlerle temsil edilebilir.
Her belirtece ayrı bir değer atandığında, sıklıklarını metinde kolayca sayabilir ve en yaygın kullanılan terimleri belirlemek için bunu kullanabiliriz; bu, metnin ana konusunu tanımlamaya yardımcı olabilir.
Metindeki her ayrı sözcük için belirteçlerin tanımlandığı basit bir örnek kullandık. Ancak, çözmeye çalıştığınız belirli metin analizi sorununa bağlı olarak belirteç oluşturma için geçerli olabilecek aşağıdaki ön işleme tekniklerini göz önünde bulundurun:
| Teknik | Açıklama |
|---|---|
| Metin normalleştirme | Belirteçleri oluşturmadan önce, noktalama işaretlerini kaldırarak ve tüm sözcükleri küçük harfle değiştirerek metni normalleştirmeyi seçebilirsiniz. Yalnızca sözcük sıklığına dayalı analiz için bu yaklaşım genel performansı artırır. Ancak bazı anlamsal anlamlar kaybolabilir. Örneğin, cümlesini "Mr Banks has worked in many banks."göz önünde bulundurun. Analizinizin kişiyi ve çalıştığı "banks" birbirinden ayırt etmesini isteyebilirsiniz. Ayrıca, bir noktanın eklenmesi sözcüğün cümle sonunda geldiği bilgisini sağladığından, "banks."'yi "banks"'den ayrı bir belirteç olarak da düşünebilirsiniz. |
| Sözcüğü kaldırmayı durdur | Durdurma sözcükleri, çözümlemenin dışında tutulması gereken sözcüklerdir. Örneğin, "the", "a"veya "it" kişilerin metin okumasını kolaylaştırır, ancak çok az anlam ekler. Bu sözcükleri dışlayarak, bir metin analizi çözümü önemli sözcükleri daha iyi tanımlayabilir. |
| N-gram çıkarma |
"artificial intelligence" veya "natural language processing" gibi çok terimli ifadeleri bulma. Tek sözcüklü tümcecik bir ünigramdır, iki sözcüklü tümcecik bir bigramdır, üç sözcüklü tümcecik bir trigramdır, vb. Çoğu durumda, sık sık sözcük dizilerinin grup olarak göründüğünü göz önünde bulundurarak, metin analizi algoritması metin hakkında daha iyi bir anlam ifade edebilir. |
| Kök çözümleme | Sözcükleri saymadan önce "s", "ing", "ed" gibi sonları kaldırarak birleştirmek için kullanılan bir teknik; böylece, , "powering"ve "powered"gibi "powerful"aynı etymolojik köke sahip sözcükler aynı belirteç ("power") olarak yorumlanır. |
| Lemmatizasyon | Sözcükleri taban veya sözlük formlarına ( lemma olarak adlandırılır) küçültmeye yönelik başka bir yaklaşım. Sözcük sonlarını basitçe kesen kök bulma işleminin aksine, lemmatizasyon, ortaya çıkan formun geçerli bir kelime olduğundan emin olmak için dilbilgisi kuralları ve kelime dağarcığı kullanır (örneğin: "running": → "run", "global" → "globe"). |
| Konuşma parçaları (POS) etiketlemesi | Her belirteci isim, fiil, sıfat veya zarf gibi dil bilgisi kategorisiyle etiketleme. Bu teknik, hem belirtecin kendisini hem de tümce içindeki bağlamını temel alarak doğru etiketi belirlemek için dil kuralları ve genellikle istatistiksel modeller kullanır. |