Aracılığıyla paylaş


Azure AI Search'te anlamsal derecelendirme

Azure AI Search'te anlam dereceleyicisi, arama sonuçlarını yeniden ayarlamak için Microsoft'un dil anlama modellerini kullanarak aramanın ilgi düzeyini ölçülebilir şekilde geliştiren bir özelliktir. Semantik dereceleyici de aracısal almada yerleşiktir. Bu makale, semantik dereceleyicinin davranışlarını ve avantajlarını anlamanıza yardımcı olacak üst düzey bir giriş niteliğindedir.

Anlam dereceleyicisi, kullanım tarafından faturalandırılan premium bir özelliktir, ancak ücretsiz katmanın hizmet sınırlarına tabi olarak ücretsiz olarak kullanabilirsiniz. Arka plan için bu makaleyi öneririz, ancak kullanmaya başlamayı tercih ederseniz bu adımları izleyin.

Anlamsal derecelendirme nedir?

Semantik derecelendirici, metin tabanlı sorgular, vektör sorgularının metin bölümü ve karma sorgular için ilk BM25 dereceli veya RRF dereceli arama sonucunun kalitesini geliştiren sorgu tarafı özellikleri koleksiyonudur. Anlam derecelendirmesi, sorgu yürütme işlem hattını üç şekilde genişletir:

  • İlk olarak, BM25 veya Reciprocal Rank Fusion (RRF) kullanılarak puanlanan ilk sonuç kümesine her zaman ikincil derecelendirme ekler. Bu ikincil derecelendirmede, en ilgili sonuçları teşvik etmek için Microsoft Bing'den uyarlanmış çok dilli, derin öğrenme modelleri kullanılır.

  • İkincisi, altyazıları döndürür ve isteğe bağlı olarak yanıttaki cevapları çıkarır, bunları kullanıcının arama deneyimini geliştirmek için bir arama sayfasında işleyebilirsiniz.

  • Üçüncüsü, sorgu yeniden yazmayı etkinleştirirseniz, ilk sorgu dizesini birden çok benzer sorgu dizesine genişletir.

İkincil derecelendirme ve "yanıtlar" sorgu yanıtına uygulanır. Sorgu yeniden yazma, sorgu isteğinin bir parçasıdır.

Semantik reranker'ın yetenekleri şunlardır.

Capability Description
L2 derecelendirmesi Sorgunun bağlamını veya anlamsal içeriğini kullanarak önceden sıralanmış sonuçlar üzerinde yeni bir alaka düzeyi puanı hesaplar.
Anlamsal açıklamalı alt yazılar ve vurgular İçeriği en iyi özetleyen alanlardan ayrıntılı tümceleri ve tümcecikleri ayıklar ve kolay tarama için önemli bölümleri vurgular. Bir sonucu özetleyen başlıklar, tek tek içerik alanları arama sonuçları sayfası için aşırı yoğun olduğunda yararlıdır. Vurgulanan metin, kullanıcıların bir eşleşmenin neden ilgili olarak değerlendirildiğini hızla belirleyebilmesi için en ilgili terimleri ve tümcecikleri yükseltir.
Anlamsal yanıtlar Semantik sorgudan döndürülen isteğe bağlı ve ek bir alt yapı. Soru gibi görünen bir sorguya doğrudan yanıt sağlar. Belgenin yanıt özelliklerine sahip bir metin olmasını gerektirir.
Sorgu yeniden yazma Anlam dereceleyicisi, metin sorgularını veya vektör sorgusunun metin bölümünü kullanarak yazım veya imla hatalarını düzelten ya da oluşturulan eş anlamlıları kullanarak sorguyu yeniden ifade eden en fazla 10 farklı sorgu varyantı oluşturur. Yeniden yazılan sorgu, arama altyapısında çalışır. Sonuçlar BM25 veya RRF puanlaması kullanılarak puanlanır ve ardından anlam dereceleyicisi tarafından yeniden puanlanır.

Semantik dereceleyici nasıl çalışır?

Anlam dereceleyici bir sorguyu ve sonuçları alır, ardından bunları Microsoft tarafından barındırılan dil anlama modellerine gönderir. Daha uygun eşleşmeleri tarar.

Aşağıdaki çizimde kavram açıklanmaktadır. "Sermaye" terimini göz önünde bulundurun. Bağlamın finans, hukuk, coğrafya veya dil bilgisi olmasına bağlı olarak farklı anlamlara sahiptir. Dil anlama aracılığıyla, anlam dereceleyici bağlamı algılar ve sorgu amacına uygun sonuçları yükselter.

Bağlam için vektör gösteriminin çizimi.

Anlam derecelendirmesi çok fazla kaynak ve zaman kullanır. Bir sorgu işleminin beklenen gecikme süresi içinde işlemeyi tamamlamak için sistem, girişleri konsolide eder ve semantik sıralayıcıya indirger. Bu yaklaşım, yeniden boyutlandırma adımını mümkün olan en kısa sürede tamamlamaya yardımcı olur.

Anlam derecelendirmesi üç adımdan oluşur:

  1. Girişleri toplama ve özetleme
  2. Anlam derecesini kullanarak sonuçları puanlama
  3. Yeniden puanlanan sonuçlar, altyazılar ve yanıtların çıkışları

Sistem girişleri nasıl toplar ve özetler?

Anlamsal derecelendirmede, sorgu alt sistemi arama sonuçlarını özetleme ve derecelendirme modellerine giriş olarak geçirir. Derecelendirme modellerinin giriş boyutu kısıtlamaları olduğundan ve yoğun işlemeye sahip olduğundan, verimli işleme için arama sonuçlarının boyutlandırılması ve yapılandırılması (özetlenmiş) olması gerekir.

  1. Anlam dereceleyicisi, bir metin sorgusundan BM25 dereceli bir sonuçla veya vektör veya karma sorgudan RRF dereceli bir sonuçla başlar. Yeniden sıralama alıştırması sadece metin kullanır. Sonuçlar 50'den fazla sonuç içerse bile, yalnızca ilk 50 sonuç anlam sıralamasına ilerler. Anlamsal derecelendirme genellikle bilgilendirici ve açıklayıcı alanları kullanır.

  2. Arama sonucundaki her belge için özetleme modeli en fazla 2.000 belirteç kabul eder ve burada bir belirteç yaklaşık 10 karakterdir. Model, anlamsal yapılandırmada listelenen "title", "keyword" ve "content" alanlarından girişleri bir araya getirir.

  3. Sistem, toplam uzunluğun özetleme adımının giriş gereksinimlerini karşıladığından emin olmak için aşırı uzun dizeleri kırpıyor. Bu kırpma alıştırması, semantik yapılandırmanıza öncelik sırasına göre alan eklemenin önemli olmasının nedenidir. Yoğun metin içeren çok büyük belgeleriniz varsa, sistem üst sınırdan sonra herhangi bir şeyi yoksayar.

    Anlamsal alan Jeton sınırı
    "title" 128 belirteç
    "keywords 128 belirteç
    "content" kalan belirteçler
  4. Özetleme çıktısı, her bir belge için, her alandan en ilgili bilgilerden oluşan bir özet dizesidir. Sistem, puanlama için sıralayıcıya ve altyazılar ile yanıtlar için makine okuma anlama modellerine özet dizeler gönderir.

    Kasım 2024 itibarıyla, her bir oluşturulan özet dizgesi, anlam belirleyiciye 2.048 belirtece kadar maksimum uzunlukta iletilir. Daha önce 256 token'dı.

Sonuçlar nasıl puanlanmıştır?

Sistem, sonuçları altyazıya ve 2.048 belirteç uzunluğunu dolduracak şekilde özet dizisindeki diğer içeriğe göre puanlar.

  1. Sistem, sağladığınız sorguya göre açıklamalı alt yazıları kavramsal ve anlamsal ilgi açısından değerlendirir.

  2. Sistem, verilen sorgu için belgenin anlamsal ilgisine göre her belgeye bir @search.rerankerScore atar. Puanlar 4 ile 0 (yüksekten düşüke) arasında değişir ve daha yüksek bir puan daha yüksek bir ilgi gösterir.

    Score Meaning
    4.0 Belge son derece alakalıdır ve soruyu tamamen yanıtlar, ancak metinde soruyla ilgili olmayan ek metinler olabilir.
    3.0 Belge ilgili ancak tamamlanmasını sağlayacak ayrıntılar eksik.
    2.0 Belge bir dereceye kadar ilgili; soruyu kısmen yanıtlar veya yalnızca sorunun bazı yönlerini ele alır.
    1.0 Belge soruyla ilgilidir ve küçük bir bölümünü yanıtlar.
    0.0 Belge ilgisiz.
  3. Sistem, eşleşmeleri puana göre azalan sırada listeler ve bunları sorgu yanıtı yüküne dahil eder. Taşıyıcı içerik, yanıtları, düz metni ve vurgulanmış açıklama yazılarını ve alınabilir olarak işaretlediğiniz veya bir seçme cümlesinde belirttiğiniz alanları içerir.

Note

Herhangi bir sorgu için @search.rerankerScore dağıtımları, altyapı düzeyindeki koşullar nedeniyle küçük varyasyonlar sergileyebilir. Derecelendirme modeli güncelleştirmeleri dağıtımı da etkileyebilir. Bu nedenlerden dolayı, minimum eşikler için özel kod yazıyorsanız veya vektör ve karma sorgular için eşik özelliğini ayarlıyorsanız , sınırları çok ayrıntılı yapmayın.

Semantik dereceleyicinin çıkışları

Her özet dizeden, makine okuma kavrama modelleri en temsili olan pasajları bulur.

Çıkışlar şunlardır:

  • Belgenin anlamsal bir başlığı. Her resim yazısı düz metin sürümünde ve vurgulama sürümünde kullanılabilir ve genellikle belge başına 200'den az sözcüktür.

  • Parametreyi belirttiğinizi varsayarsak isteğe bağlı answers, sorgu bir soru olarak sunulur ve uzun dizede soruya olası bir yanıt sağlayan bir metin bulunur.

Açıklamalı alt yazılar ve yanıtlar her zaman dizininizdeki ayrıntılı metinlerdir. Bu iş akışında yeni içerik yaratan bir yapay zeka modeli yoktur.

Anlamsal özellikler ve sınırlamalar

Semantik dereceleyicinin yapabilecekleri :

  • Özgün sorgunun amacına daha yakın olan eşleşmeleri önceliklendirin.

  • Başlık ve yanıt olarak kullanılacak ifadeleri bulun. Yanıt, bir arama sonuçları sayfasında görüntüleyebileceğiniz altyazılar ve yanıtlar döndürür.

Semantik sıralayıcının gerçekleştiremediği şey, semantik olarak ilgili sonuçları bulmak için sorguyu tüm korpus üzerinde yeniden çalıştırmaktır. Anlamsal derecelendirme, varsayılan derecelendirme algoritması tarafından puanlanan ilk 50 sonuçtan oluşan mevcut sonuç kümesini yeniden oluşturur. Ayrıca semantik dereceleyici yeni bilgiler veya dizeler oluşturamaz. Dil modelleri içeriğinizden başlıklar ve yanıtları olduğu gibi ayıklar, bu yüzden sonuçlar yanıt benzeri metin içermiyorsa, yanıt benzeri bir metin üretemezler.

Anlamsal derecelendirme her senaryoda yararlı olmasa da, bazı içerikler özelliklerinden önemli ölçüde yararlanabilir. Anlam derecesindeki dil modelleri, bilgi açısından zengin ve prose olarak yapılandırılmış aranabilir içerik üzerinde en iyi şekilde çalışır. Açıklayıcı içerik içeren bir bilgi bankası, çevrimiçi belge veya belge semantik dereceleyici özelliklerinden en çok kazanç elde eder.

Altta yatan teknoloji Bing ve Microsoft Research'ten gelmektedir ve bir eklenti özelliği olarak Azure AI Arama altyapısına entegrasyonu yapılmıştır. Semantik dereceleyiciyi destekleyen araştırmalar ve Bing'den gelen yapay zeka yatırımları hakkında daha fazla bilgi için Azure Yapay Zeka Araması'nı Bing'in yapay zekası nasıl güçlendiriyor (Microsoft Araştırma Blogu) konusuna bakın.

Aşağıdaki videoda özelliklere genel bir bakış sunulmaktadır.

Anlamsal sıralayıcı, eş anlamlı haritalarını nasıl kullanır?

Arama dizininizdeki bir alanla ilişkili eş anlamlı eşlemeler için desteği etkinleştirir ve bu alanı anlamsal ranker yapılandırmasına eklerseniz, anlam dereceleyici yeniden boyutlandırma işlemi sırasında yapılandırılan eş anlamlıları otomatik olarak uygular.

Kullanılabilirlik ve fiyatlandırma

Semantik dereceleyici seçili bölgelerde kullanılabilir. Bunu bağımsız bir özellik olarak ve ajantik almanın yerleşik bir bileşeni olarak kullanın.

Arama hizmetiniz için anlam dereceleyicisini devre dışı bırakabilir, sınırlı bir şekilde ücretsiz olarak kullanabilir veya kullandıkça öde faturalaması ile daha geniş bir şekilde kullanabilirsiniz:

Tasarı Description
Ücretsiz Ücretsiz katman arama hizmeti, aylık 1.000 semantik dereceleyici isteği ve aylık 50 milyon ücretsiz aracısal akıl yürütme belirteci sağlar. Daha yüksek katmanlar ücretsiz planı da kullanabilir.
Standart Standart plan, aylık ücretsiz kota tüketildikten sonra kullandıkça öde fiyatlandırmasıdır. İlk 1.000 semantik ranker isteğinden sonra, her ek 1.000 istek için ödemeniz gerekir. Ayda ilk 50 milyon aracılı akıl yürütme belirtecinin ardından, her bir milyon aracılı akıl yürütme belirteci için nominal bir ücret ödersiniz. Ücretsiz'den Standart'a geçiş sorunsuzdur. Geçiş gerçekleştiğinde size bildirim gönderilmez. Para birimine göre ücretler hakkında daha fazla bilgi için Bkz. Azure AI Search fiyatlandırma sayfası.

Azure AI Search fiyatlandırma sayfası, farklı para birimleri ve aralıklar için faturalama oranını gösterir.

Sorgu istekleri queryType=semantic içerdiğinde ve arama dizesi boş olmadığında (örneğin, search=pet friendly hotels in New York), semantik dereceleyici ücretleri oluşur. Arama dizeniz boşsa ()search=* queryType semantik olarak ayarlansa bile ücretlendirilemezsiniz.

Semantik derecelemeyi kullanmaya başlama

  1. Bölgesel kullanılabilirliği denetleyin.

  2. Azure portalında oturum açın.

  3. Fiyatlandırma planı seçerek arama hizmeti için anlam derecesini yapılandırın. Ücretsiz plan varsayılandır.

  4. Arama dizininde anlam derecesini yapılandırın.

  5. Anlamsal açıklamalı alt yazılar ve vurgular döndürmek için sorguları ayarlayın.

  6. İsteğe bağlı olarak anlamsal yanıtlar döndür.

Ayrıca bakınız