Dizin oluşturucu ile veri ayıklama
Azure AI Search çözümlerinin merkezinde dizinin oluşturulması yer alır. Dizin, aranabilir içeriğinizi içerir ve bir dizin oluşturucu tarafından şaşırtıcı bir şekilde oluşturulur ve güncelleştirilir.
Dizin oluşturma işlemi bir veri kaynağıyla başlar: özgün veri yapıtlarınızın depolama konumu; Örneğin, belgeler, veritabanı veya başka bir depoyla dolu bir Azure blob depolama kapsayıcısı.
Dizin Oluşturucu, kaynak belgelerin içeriğini ayıklamak için belge çatlatma uyguladığı ve dizin tanımı için gerekli alanlara sahip hiyerarşik (JSON tabanlı) bir belge oluşturmak için artımlı adımlar uyguladığı bir zenginleştirme işlem hattı aracılığıyla veri alanlarının ayıklanıp dizine alınmasını otomatikleştirir.
Sonuç, sorgu ölçütleriyle eşleşen belgelerden belirtilen alanları döndürmek için sorgulanabilen doldurulmuş bir dizindir.
Dizin oluşturma sırasında belgelerin nasıl oluşturulur?
Dizin oluşturma işlemi, dizine alınan her varlık için bir belge oluşturarak çalışır. Dizin oluşturma sırasında zenginleştirme işlem hattı , veri kaynağındaki meta verileri becerilerle ayıklanan veya oluşturulan zenginleştirilmiş alanlarla birleştiren belgeleri yinelemeli olarak oluşturur. Dizine alınan her belgeyi, başlangıçta kaynak verilerden doğrudan ayıklanan alanlara eşlediğiniz dizin alanlarını içeren bir belgeden oluşan bir JSON yapısı olarak düşünebilirsiniz:
-
belge
- metadata_storage_name
- metadata_author
- içerik
Veri kaynağındaki belgeler görüntü içerdiğinde, dizin oluşturucuyu görüntü verilerini ayıklayıp her görüntüyü normalized_images bir koleksiyona yerleştirecek şekilde yapılandırabilirsiniz:
-
belge
- metadata_storage_name
- metadata_author
- içerik
-
normalized_images
- resim0
- resim1
Görüntü verilerini bu şekilde normalleştirmek, görüntü verilerinden bilgi ayıklayan beceriler için giriş olarak görüntü koleksiyonunu kullanmanıza olanak tanır.
Her beceri belgeye alanlar ekler; bu nedenle, örneğin belgenin yazıldığı dili algılayan bir beceri çıktısını bir dil alanında depolayabilir, örneğin:
-
belge
- metadata_storage_name
- metadata_author
- içerik
-
normalized_images
- resim0
- resim1
- dil
Belge hiyerarşik olarak yapılandırılmıştır ve beceriler, hiyerarşi içindeki belirli bir bağlamda uygulanır. Böylece, her öğe için beceriyi belgenin belirli bir seviyesinde kullanabilirsiniz. Örneğin, normalleştirilmiş görüntüler koleksiyonundaki her görüntü için optik karakter tanıma (OCR) becerisi çalıştırarak içerdikleri metinleri ayıklayabilirsiniz:
-
belge
- metadata_storage_name
- metadata_author
- içerik
-
normalized_images
-
resim0
- Metin
-
resim1
- Metin
-
resim0
- dil
Her becerinin çıkış alanları, işlem hattında daha sonra diğer beceriler için giriş olarak kullanılabilir ve bu da çıkışlarını belge yapısında depolar. Örneğin, özgün metin içeriğini her görüntüden ayıklanan metinle birleştirmek için birleştirme becerisi kullanarak resim metni de dahil olmak üzere belgedeki tüm metni içeren yeni bir merged_content alanı oluşturabiliriz.
-
belge
- metadata_storage_name
- metadata_author
- içerik
-
normalized_images
-
resim0
- Metin
-
resim1
- Metin
-
resim0
- dil
- birleştirilmiş_içerik
İşlem hattının sonundaki son belge yapısındaki alanlar, dizin oluşturucu tarafından dizin alanlarına iki şekilde eşlenir:
- Doğrudan kaynak verilerden ayıklanan alanların tümü dizin alanlarına eşlenir. Bu eşlemeler örtük (alanlar dizinde aynı ada sahip alanlara otomatik olarak eşlenir) veya açık (bir eşleme, kaynak alanı dizin alanıyla eşleştirmek için tanımlanır ve sıkça alanın adını daha yararlı bir şekle dönüştürmek ya da veri değerine bir işlev uygulamak amacıyla tanımlanır).
- Beceri kümesindeki beceri çıkış alanları, çıktıdaki hiyerarşik konumları ile dizindeki hedef alana açıkça eşlenir.