Azure Yapay Zeka Arama dizinindeki dize alanlarına dil çözümleyicileri ekleme

Dil çözümleyicisi, hedef dilin dil kurallarını kullanarak sözcük analizi gerçekleştiren belirli bir metin çözümleyici türüdür. Aranabilir her dize alanının bir çözümleyici özelliği vardır. İçeriğiniz İngilizce ve Çince metinler için ayrı alanlar gibi çevrilmiş dizelerden oluşuyorsa, bu çözümleyicilerin zengin dil özelliklerine erişmek için her alanda dil çözümleyicileri belirtebilirsiniz.

Dil çözümleyicisi ne zaman kullanılır?

Klasik arama iş akışlarında büyük dil modelleri ve dil kuralları ve çok dilli içerik farkındalığı içermeyen bir dil çözümleyicisi düşünmelisiniz.

Sınıf aramasında, sözcük veya cümle yapısı farkındalığı metin ayrıştırmaya değer kattığında bir dil çözümleyicisi ekleyebilirsiniz. Yaygın bir örnek, düzensiz fiil biçimlerinin ("getir" ve "getirdi") veya çoğul isimlerin ("fare" ve "fareler") ilişkisidir. Dil farkındalığı olmadan, bu dizeler yalnızca fiziksel özelliklere göre ayrıştırılır ve bu da bağlantıyı yakalayamaz. Büyük metin öbeklerinin bu içeriğe sahip olma olasılığı daha yüksek olduğundan, açıklamalardan, incelemelerden veya özetlerden oluşan alanlar dil çözümleyicisi için iyi adaylardır.

İçerik Batı dili dışındaki dizelerden oluştuğunda dil çözümleyicilerini de göz önünde bulundurabilirsiniz. Varsayılan çözümleyici (Standart Lucene) dilden bağımsız olsa da, dizeleri ayırmak için boşluk ve özel karakter (kısa çizgi ve eğik çizgi) kullanma kavramı Batılı olmayan dillere göre Batı dilleri için daha geçerlidir.

Örneğin, Çince, Japonca, Korece (CJK) ve diğer Asya dillerinde boşluk mutlaka sözcük sınırlayıcısı değildir. Aşağıdaki Japonca dizeyi göz önünde bulundurun. Boşluk olmadığından, dil belirsiz bir çözümleyici büyük olasılıkla dizenin tamamını tek bir belirteç olarak analiz eder, aslında dize aslında bir tümceciktir.

これは私たちの銀河系の中ではもっとも重く明るいクラスの球状星団です。
(This is the heaviest and brightest group of spherical stars in our galaxy.)

Yukarıdaki örnekte, başarılı bir sorgunun tam belirteci veya bir ek joker karakter kullanan kısmi bir belirteci içermesi gerekecektir; bu, doğal ve sınırsız bir arama deneyimini kısıtlar.

Tek tek sözcükleri aramak daha iyi bir deneyimdir: 明るい (Parlak), 私たちの (Bizim), 銀河系 (Galaxy). Bu çözümleyiciler metin öbeklerini hedef dilde anlamlı sözcüklere bölmede daha iyi donanıma sahip olduğundan, Azure Yapay Zeka Arama'te kullanılabilen Japonca çözümleyicilerden birinin kullanılması bu davranışın kilidini açma olasılığı daha yüksektir.

Lucene ve Microsoft Analyzers karşılaştırması

Azure Yapay Zeka Arama, Lucene tarafından desteklenen 35 dil çözümleyicisini ve Office ve Bing'de kullanılan özel Microsoft doğal dil işleme teknolojisi tarafından desteklenen 50 dil çözümleyicisini destekler.

Bazı geliştiriciler Lucene'in açık kaynak çözümünü tercih edebilir. Lucene dil çözümleyicileri daha hızlıdır, ancak Microsoft çözümleyicileri lemmatizasyon, sözcük ayrıştırma (Almanca, Danca, Felemenkçe, İsveççe, Norveççe, Estonca, Fince, Macarca, Slovakça gibi dillerde) ve varlık tanıma (URL'ler, e-postalar, tarihler, sayılar) gibi gelişmiş özelliklere sahiptir. Mümkünse, hangisinin daha uygun olduğuna karar vermek için hem Microsoft hem de Lucene çözümleyicilerinin karşılaştırmalarını çalıştırmanız gerekir. Belirli bir çözümleyiciyi kullanarak belirli bir metinden oluşturulan belirteçleri görmek için Çözümle API'sini kullanabilirsiniz.

Microsoft çözümleyicileriyle dizin oluşturma, dile bağlı olarak Lucene eşdeğerlerinden ortalama iki-üç kat daha yavaştır. Ortalama boyut sorguları için arama performansı önemli ölçüde etkilenmemelidir.

İngilizce çözümleyiciler

Varsayılan çözümleyici, İngilizce için iyi çalışan, ancak Lucene'in İngilizce çözümleyicisi veya Microsoft'un İngilizce çözümleyicisi gibi iyi olmayan Standard Lucene'dir.

  • Lucene'in İngilizce çözümleyicisi Standart çözümleyiciyi genişletir. Sözcüklerden aitlik belirten ('s) ekini kaldırır, Porter Stemming algoritmasına göre kök oluşturma uygular ve İngilizce stop sözcüklerini kaldırır.

  • Microsoft'un İngilizce çözümleyicisi kök oluşturma yerine lemmatizasyon gerçekleştirir. Bu, daha ilgili arama sonuçlarına neden olacak şekilde, sıkıştırılmış ve düzensiz sözcük formlarını çok daha iyi işleyebileceği anlamına gelir.

Dil çözümleyicisi belirtme

Dizin oluşturma sırasında verilerle yüklenmeden önce çözümleyiciyi ayarlayın.

  1. Alan tanımında, alanın "aranabilir" olarak özniteliklendiğinden ve Edm.String türünde olduğundan emin olun.

  2. "Çözümleyici" özelliğini desteklenen çözümleyiciler listesindeki dil çözümleyicilerinden birine ayarlayın.

    "Çözümleyici" özelliği, dil çözümleyicisini kabul edecek tek özelliktir ve hem dizin oluşturma hem de sorgular için kullanılır. Çözümleyiciyle ilgili diğer özellikler ("searchAnalyzer" ve "indexAnalyzer") dil çözümleyicisini kabul etmez.

Dil çözümleyicileri özelleştirilemiyor. Bir çözümleyici gereksinimlerinizi karşılamıyorsa, microsoft_language_tokenizer veya microsoft_language_stemming_tokenizer ile özel bir çözümleyici oluşturun ve ardından ön ve son belirteç işleme için filtreler ekleyin.

Aşağıdaki örnekte dizin içindeki dil çözümleyicisi belirtimi gösterilmektedir.

{
  "name": "hotels-sample",
  "fields": [
    {
      "name": "Description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "analyzer": "en.microsoft",
      "indexAnalyzer": null,
      "searchAnalyzer": null
    },
    {
      "name": "Description_fr",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "analyzer": "fr.microsoft",
      "indexAnalyzer": null,
      "searchAnalyzer": null
    },

Dizin oluşturma ve alan özelliklerini ayarlama hakkında daha fazla bilgi için bkz . Dizin Oluşturma (REST). Metin analizi hakkında daha fazla bilgi için bkz Azure Yapay Zeka Arama'teki Çözümleyiciler.

Desteklenen dil çözümleyicileri

Aşağıda Lucene ve Microsoft çözümleyici adlarını içeren desteklenen dillerin listesi yer almaktadır.

Dil Microsoft Analyzer Adı Lucene Analyzer Adı
Arapça ar.microsoft ar.lucene
Ermenice hy.lucene
Bengalce bn.microsoft
Baskça eu.lucene
Bulgarca bg.microsoft bg.lucene
Katalanca ca.microsoft ca.lucene
Basitleştirilmiş Çince zh-Hans.microsoft zh-Hans.lucene
Geleneksel Çince zh-Hant.microsoft zh-Hant.lucene
Hırvatça hr.microsoft
Çekçe cs.microsoft cs.lucene
Danca da.microsoft da.lucene
Felemenkçe nl.microsoft nl.lucene
İngilizce en.microsoft en.lucene
Estonya Dili et.microsoft
Fince fi.microsoft fi.lucene
Fransızca fr.microsoft fr.lucene
Galiçya Dili gl.lucene
Almanca de.microsoft de.lucene
Yunanca el.microsoft el.lucene
Gujarati gu.microsoft
İbranice he.microsoft
Hintçe hi.microsoft Merhaba, lucene
Macarca hu.microsoft hu.lucene
İzlandaca is.microsoft
Endonezce (Bahasa) id.microsoft id.lucene
İrlandaca ga.lucene
İtalyanca it.microsoft it.lucene
Japonca ja.microsoft ja.lucene
Kannada dili kn.microsoft
Korece ko.microsoft ko.lucene
Letonca lv.microsoft lv.lucene
Litvanca lt.microsoft
Malayalam dili ml.microsoft
Malay dili (Latin) ms.microsoft
Marathi mr.microsoft
Norveççe nb.microsoft no.lucene
Farsça fa.lucene
Lehçe pl.microsoft pl.lucene
Portekizce (Brezilya) .microsoft pt-Br pt-Br.lucene
Portekizce (Portekiz) pt-Pt.microsoft pt-Pt.lucene
Pencap Dili pa.microsoft
Rumence ro.microsoft ro.lucene
Rusça ru.microsoft ru.lucene
Sırpça (Kiril) sr-cyrillic.microsoft
Sırpça (Latin) sr-latin.microsoft
Slovakça sk.microsoft
Slovence sl.microsoft
İspanyolca es.microsoft es.lucene
İsveççe sv.microsoft sv.lucene
Tamil dili ta.microsoft
Telugu dili te.microsoft
Tayca th.microsoft th.lucene
Türkçe tr.microsoft tr.lucene
Ukraynaca uk.microsoft
Urduca ur.microsoft
Vietnamca vi.microsoft

Lucene ile ek açıklamalı adlara sahip tüm çözümleyiciler Apache Lucene'in dil çözümleyicileri tarafından desteklenir.

Ayrıca bkz.