Azure AI Search'te verileri içeri aktarma sihirbazı

Azure portalındaki Verileri içeri aktarma sihirbazı, bir arama hizmetinde dizin oluşturma ve yapay zeka zenginleştirme için kullanılan birden çok nesne oluşturur. Azure AI Search'te yeniyseniz bu, kullanımınıza sunulan en güçlü özelliklerden biridir. Çok az çabayla, Azure AI Search'ün işlevlerinin çoğunu kullanan bir dizin oluşturma veya zenginleştirme işlem hattı oluşturabilirsiniz.

Sihirbazı kavram kanıtı testi için kullanıyorsanız, daha etkili kullanabilmeniz için bu makalede sihirbazın iç çalışmaları açıklanmaktadır.

Bu makale adım adım değildir. Sihirbazı yerleşik örnek verilerle kullanma konusunda yardım için bkz . Hızlı Başlangıç: Arama dizini oluşturma veya Hızlı Başlangıç: Metin çevirisi ve varlık beceri kümesi oluşturma.

Sihirbazı başlatma

Azure portalında, panodan arama hizmeti sayfasını açın veya hizmetinizi hizmet listesinde bulun. Üstteki hizmete Genel Bakış sayfasında Verileri içeri aktar'ı seçin.

Screenshot of the Import data command

Sihirbaz tarayıcı penceresinde tamamen genişletilmiş olarak açılır, böylece daha fazla çalışma alanınız olur.

Ayrıca Azure Cosmos DB, Azure SQL Veritabanı, SQL Yönetilen Örneği ve Azure Blob Depolama gibi diğer Azure hizmetlerinden verileri içeri aktarmayı başlatabilirsiniz. Hizmet genel bakış sayfasının sol gezinti bölmesinde Azure AI Araması Ekle'yi arayın.

Sihirbaz tarafından oluşturulan nesneler

Sihirbaz, aşağıdaki tabloda yer alan nesnelerin çıkışını verir. Nesneler oluşturulduktan sonra portalda JSON tanımlarını gözden geçirebilir veya koddan çağırabilirsiniz.

Object Tanım
Dizin Oluşturucu Veri kaynağı, hedef dizin, isteğe bağlı beceri kümesi, isteğe bağlı zamanlama ve hata teslimi ve temel 64 kodlaması için isteğe bağlı yapılandırma ayarlarını belirten bir yapılandırma nesnesi.
Veri Kaynağı Bağlantı bilgilerini Azure'da desteklenen bir veri kaynağında kalıcı hale ekler. Veri kaynağı nesnesi yalnızca dizin oluşturucularla birlikte kullanılır.
Dizin Tam metin araması ve diğer sorgular için kullanılan fiziksel veri yapısı.
Beceri Kümesi isteğe bağlı. Görüntü dosyalarındaki bilgileri analiz etme ve ayıklama da dahil olmak üzere içeriği düzenleme, dönüştürme ve şekillendirmeye yönelik eksiksiz yönergeler kümesi. İş hacmi günlük dizin oluşturucu başına 20 işlem sınırının altına düşmediği sürece beceri kümesinin zenginleştirme sağlayan bir Azure AI çok hizmetli kaynağa başvuru içermesi gerekir.
Bilgi deposu isteğe bağlı. Yapay zeka zenginleştirme işlem hattının çıktılarını bağımsız analiz veya aşağı akış işleme için Azure Depolama'deki tablolarda ve bloblarda depolar.

Avantajlar ve sınırlamalar

Herhangi bir kod yazmadan önce, prototip oluşturma ve kavram kanıtı testi için sihirbazı kullanabilirsiniz. Sihirbaz dış veri kaynaklarına bağlanır, verileri örnekleyip bir ilk dizin oluşturur ve ardından verileri JSON belgeleri olarak Azure AI Search'te bir dizine aktarır.

Beceri kümelerini değerlendiriyorsanız, sihirbaz tüm çıkış alanı eşlemelerini işler ve kullanılabilir nesneler oluşturmak için yardımcı işlevler ekler. Ayrıştırma modu belirtirseniz metin bölme eklenir. Sihirbazın metin açıklamalarını görüntü içeriğiyle yeniden birleştirebilmesi için görüntü analizini seçerseniz metin birleştirme eklenir. Bilgi deposu seçeneğini belirlediyseniz geçerli projeksiyonları desteklemek için eklenen şekillendirici becerileri. Yukarıdaki görevlerin tümü öğrenme eğrisiyle birlikte gelir. Zenginleştirme konusunda yeniyseniz, bu adımların sizin için işlenmesi, çok fazla zaman ve çaba harcamanıza gerek kalmadan bir becerinin değerini ölçmenize olanak tanır.

Örnekleme, dizin şemasının çıkarıldığı işlemdir ve bazı sınırlamaları vardır. Veri kaynağı oluşturulduğunda sihirbaz, hangi sütunların veri kaynağının parçası olduğuna karar vermek için rastgele bir belge örneği seçer. Çok büyük veri kaynakları için saatler alabildiği için tüm dosyalar okunmayabilir. Bir dizin şemasında alan koleksiyonu oluşturmak için alan adı veya türü gibi bir belge seçimi verildiğinde kaynak meta veriler kullanılır. Kaynak verilerin karmaşıklığına bağlı olarak, ilk şemayı doğruluk açısından düzenlemeniz veya eksiksiz olması için genişletmeniz gerekebilir. Değişikliklerinizi dizin tanımı sayfasında satır içinde yapabilirsiniz.

Genel olarak, sihirbazı kullanmanın avantajları açıktır: Gereksinimler karşılandığı sürece, dakikalar içinde sorgulanabilir bir dizinin prototipini oluşturabilirsiniz. Verileri JSON belgeleri olarak seri hale getirme gibi dizin oluşturmanın bazı karmaşıklıkları sihirbaz tarafından işlenir.

Sihirbazın sınırlamaları yoktur. Kısıtlamalar aşağıdaki gibi özetlenir:

  • Sihirbaz yinelemeyi veya yeniden kullanımı desteklemez. Sihirbazdan geçen her geçiş yeni bir dizin, beceri kümesi ve dizin oluşturucu yapılandırması oluşturur. Sihirbazda yalnızca veri kaynakları kalıcı hale gelebilir ve yeniden kullanılabilir. Diğer nesneleri düzenlemek veya daraltmak için, nesneleri silin ve baştan başlayın ya da yapıları değiştirmek için REST API'lerini veya .NET SDK'sını kullanın.

  • Kaynak içerik desteklenen bir veri kaynağında bulunmalıdır.

  • Örnekleme, kaynak verilerin bir alt kümesinin üzerindedir. Büyük veri kaynakları için sihirbazın alanları kaçırması mümkündür. Örnekleme yetersizse şemayı genişletmeniz veya çıkarsanan veri türlerini düzeltmeniz gerekebilir.

  • Portalda kullanıma sunulan yapay zeka zenginleştirmesi, yerleşik becerilerin bir alt kümesiyle sınırlıdır.

  • Sihirbaz tarafından oluşturulabilen bir bilgi deposu birkaç varsayılan projeksiyonla sınırlıdır ve varsayılan adlandırma kuralını kullanır. Adları veya projeksiyonları özelleştirmek istiyorsanız REST API veya SDK'lar aracılığıyla bilgi deposu oluşturmanız gerekir.

  • Genel erişim devre dışı bırakılırsa portal kurulum sırasında veri kaynağına erişemeyeceğinden sihirbaz kullanılırken desteklenen veri kaynağında tüm ağlara genel erişim etkinleştirilmelidir. Bu, veri kaynağınızda güvenlik duvarı etkinleştirilmişse veya paylaşılan bir özel bağlantı ayarladıysanız bunları devre dışı bırakmanız, Verileri İçeri Aktarma sihirbazını çalıştırmanız ve sihirbaz kurulumu tamamlandıktan sonra etkinleştirmeniz gerektiği anlamına gelir. Bu bir seçenek değilse REST API veya SDK'lar aracılığıyla Azure AI Search veri kaynağı, dizin oluşturucu, beceri kümesi ve dizin oluşturabilirsiniz.

İş akışı

Sihirbaz dört ana adımda düzenlenmiştir:

  1. Desteklenen bir Azure veri kaynağına Bağlan.

  2. Kaynak verileri örnekleme tarafından çıkarsanan bir dizin şeması oluşturun.

  3. İsteğe bağlı olarak, içerik ve yapıyı ayıklamak veya oluşturmak için yapay zeka zenginleştirmeleri ekleyin. Bilgi deposu oluşturmaya yönelik girişler bu adımda toplanır.

  4. Nesneleri oluşturmak, veri yüklemek, zamanlama ve diğer yapılandırma seçeneklerini ayarlamak için sihirbazı çalıştırın.

İş akışı bir işlem hattı olduğundan tek yönlüdür. Oluşturulan nesnelerin hiçbirini düzenlemek için sihirbazı kullanamazsınız, ancak izin verilen güncelleştirmeler için dizin veya dizin oluşturucu tasarımcısı ya da JSON düzenleyicileri gibi diğer portal araçlarını kullanabilirsiniz.

Sihirbazdaki veri kaynağı yapılandırması

Verileri içeri aktarma sihirbazı, Azure AI Search dizin oluşturucuları tarafından sağlanan ve kaynağı örneklemek, meta verileri okumak, içeriği ve yapıyı okumak için belgeleri kırmak ve azure AI Search'e daha sonra içeri aktarmak için içeriği JSON olarak seri hale getirmek için donatılmış iç mantığı kullanarak desteklenen dış veri kaynağına bağlanır.

Farklı bir abonelikte veya bölgede desteklenen bir veri kaynağına bağlantı yapıştırabilirsiniz, ancak Var olan bir bağlantı seçiciyi seçin seçeneğinin kapsamı etkin abonelik olarak belirlenmiştir.

Screenshot of the Connect to your data tab.

Tüm önizleme veri kaynaklarının sihirbazda kullanılabilir olması garanti değildir. Her veri kaynağı diğer değişiklikleri aşağı akışa ekleme potansiyeline sahip olduğundan, bir önizleme veri kaynağı yalnızca beceri kümesi tanımı ve dizin şeması çıkarımı gibi sihirbazdaki tüm deneyimleri tam olarak destekliyorsa veri kaynakları listesine eklenir.

Yalnızca tek bir tablodan, veritabanı görünümünden veya eşdeğer veri yapısından içeri aktarabilirsiniz, ancak yapı hiyerarşik veya iç içe alt yapılar içerebilir. Daha fazla bilgi için bkz . Karmaşık türleri modelleme.

Sihirbazdaki beceri kümesi yapılandırması

Beceri kümesi yapılandırması, veri kaynağı tanımından sonra gerçekleşir çünkü veri kaynağı türü belirli yerleşik becerilerin kullanılabilirliğini bilgilendirecektir. Özellikle, Blob Depolama dosyaları dizine alacaksanız, bu dosyaların ayrıştırma modu seçiminiz yaklaşım analizinin kullanılabilir olup olmadığını belirler.

Sihirbaz seçtiğiniz becerileri ekler, ancak başarılı bir sonuç elde etmek için gereken diğer becerileri de ekler. Örneğin, bir bilgi deposu belirtirseniz sihirbaz projeksiyonları (veya fiziksel veri yapılarını) desteklemek için bir Şekillendirici becerisi ekler.

Beceri kümeleri isteğe bağlıdır ve yapay zeka zenginleştirmesini istemiyorsanız sayfanın alt kısmında atlanması gereken bir düğme vardır.

Sihirbazda dizin şeması yapılandırması

Sihirbaz, alanları ve alan türünü algılamak için veri kaynağınızı örneklemektedir. Veri kaynağına bağlı olarak, meta verileri dizine eklemeye yönelik alanlar da sunabilir.

Örnekleme kesin olmayan bir alıştırma olduğundan, aşağıdaki noktalar için dizini gözden geçirin:

  1. Alan listesi doğru mu? Veri kaynağınızda örneklemede alınmamış alanlar varsa, örneklemenin eksik olduğu yeni alanları el ile ekleyebilir ve arama deneyimine değer eklemeyen veya filtre ifadesinde veya puanlama profilinde kullanılmayan alanları kaldırabilirsiniz.

  2. Veri türü gelen veriler için uygun mu? Azure AI Search varlık veri modeli (EDM) veri türlerini destekler. Azure SQL verileri için eşdeğer değerleri yerleştiren eşleme grafiği vardır. Daha fazla arka plan için bkz . Alan eşlemeleri ve dönüştürmeleri.

  3. Anahtar görevi görecek tek bir alanınız var mı? Bu alan Edm.string olmalı ve belgeyi benzersiz olarak tanımlamalıdır. İlişkisel veriler için birincil anahtarla eşlenebilir. Bloblar için olabilir metadata-storage-path. Alan değerleri boşluk veya tireler içeriyorsa, Bu karakterler için doğrulama denetimini engellemek için Dizin Oluşturucu Oluştur adımındaki Gelişmiş seçenekler'in altındaki Temel-64 Kodlama Anahtarı seçeneğini ayarlamanız gerekir.

  4. Bu alanın bir dizinde nasıl kullanıldığını belirlemek için öznitelikleri ayarlayın.

    Öznitelikler dizindeki alanların fiziksel ifadesini belirlediğinden, bu adımla zamanınızı ayırın. Öznitelikleri daha sonra program aracılığıyla bile değiştirmek istiyorsanız, neredeyse her zaman dizini bırakmanız ve yeniden oluşturmanız gerekir. Aranabilir ve Alınabilir gibi temel özniteliklerin depolama üzerinde önemsiz bir etkisi vardır. Filtrelerin etkinleştirilmesi ve önericilerin kullanılması depolama gereksinimlerini artırır.

    • Aranabilir, tam metin aramayı etkinleştirir. Serbest form sorgularında veya sorgu ifadelerinde kullanılan her alanın bu özniteliği olmalıdır. Çevrilmiş dizinler, Aranabilir olarak işaretlediğiniz her alan için oluşturulur.

    • Alınabilir, arama sonuçlarında alanı döndürür. Arama sonuçlarına içerik sağlayan her alan bu özniteliğe sahip olmalıdır. Bu alanın ayarlanması dizin boyutunu önemli ölçüde etkilemez.

    • Filterable , alana filtre ifadelerinde başvurulmasını sağlar. $filter ifadesinde kullanılan her alan bu özniteliğe sahip olmalıdır. Filtre ifadeleri tam eşleşmeler içindir. Metin dizeleri olduğu gibi kaldığından, ayrıntılı içeriğe uyum sağlamak için daha fazla depolama alanı gerekir.

    • Facetable , alanı çok yönlü gezinti için etkinleştirir. Yalnızca Filtrelenebilir olarak işaretlenen alanlar Da Facetable olarak işaretlenebilir.

    • Sıralanabilir, alanın bir sıralamada kullanılmasını sağlar. bir $Orderby ifadesinde kullanılan her alan bu özniteliğe sahip olmalıdır.

  5. Sözcük temelli analize ihtiyacınız var mı? Aranabilir Edm.string alanları için, dil açısından gelişmiş dizin oluşturma ve sorgulama istiyorsanız bir Çözümleyici ayarlayabilirsiniz.

    Varsayılan değer Standart Lucene'dir, ancak düzensiz isim ve fiil formlarını çözümleme gibi gelişmiş sözcük temelli işleme için Microsoft'un çözümleyicisini kullanmak istiyorsanız Microsoft İngilizce'yi seçebilirsiniz. Portalda yalnızca dil çözümleyicileri belirtilebilir. Özel çözümleyici veya Anahtar Sözcük, Desen vb. gibi dil dışı bir çözümleyicinin kullanılması program aracılığıyla yapılmalıdır. Çözümleyiciler hakkında daha fazla bilgi için bkz . Dil çözümleyicileri ekleme.

  6. Otomatik tamamlama veya önerilen sonuçlar biçiminde typeahead işlevselliğine ihtiyacınız var mı? Seçili alanlarda tür başlığı sorgu önerilerini ve otomatik tamamlamayı etkinleştirmek için Önericisi onay kutusunu seçin. Önericiler dizininizdeki belirteçli terimlerin sayısını ekler ve böylece daha fazla depolama alanı tüketir.

Sihirbazda dizin oluşturucu yapılandırması

Sihirbazın son sayfası dizin oluşturucu yapılandırması için kullanıcı girişleri toplar. Bir zamanlama belirtebilir ve veri kaynağı türüne göre değişiklik gösterecek diğer seçenekleri ayarlayabilirsiniz.

Sihirbaz dahili olarak aşağıdaki tanımları da ayarlar. Bu tanım, oluşturulduktan sonra dizin oluşturucuda görünmez:

Sonraki adımlar

Sihirbazın avantajlarını ve sınırlamalarını anlamanın en iyi yolu adım adım ilerleyebilmektir. Aşağıdaki hızlı başlangıçta her adım açıklanmaktadır.