Aracılığıyla paylaş


Hızlı Başlangıç: Azure portalını kullanarak metin ve görüntüleri vektörleştirme

Önemli

Verileri içeri aktarma ve vektörleştirme sihirbazı, Ek Kullanım Koşulları altında genel önizleme aşamasındadır. Varsayılan olarak, 2024-05-01-Preview REST API'sini hedefler.

Bu hızlı başlangıç, Azure portalındaki Verileri içeri aktarma ve vektörleştirme sihirbazını kullanarak tümleşik vektörleştirme (önizleme) kullanmaya başlamanıza yardımcı olur. Bu sihirbaz, dizin oluşturma sırasında ve sorgular için içeriği vektörleştirmek için kullanıcı tarafından belirtilen bir ekleme modelini çağırır.

Önizleme sınırlamaları

  • Kaynak veriler, varsayılan ayrıştırma modunu (blob veya dosya başına bir arama belgesi) kullanarak Azure Blob Depolama veya OneLake dosyaları ve kısayollarıdır.

  • Dizin şeması yapılandırılamaz. Kaynak alanlar başlık ve belge anahtarı için (öbeklenmiş ve metadata_storage_path vektörleştirilmiş) metadata_storage_name alanlarını içerir content . Bu anahtar dizinde olduğu gibi parent_id gösterilir.

  • Öbekleme yapılandırılamaz. Geçerli ayarlar şunlardır:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Daha az sınırlama veya daha fazla veri kaynağı seçeneği için kod tabanlı bir yaklaşım deneyin. Daha fazla bilgi için tümleşik vektörleştirme örneğine bakın.

Önkoşullar

  • Azure aboneliği. Ücretsiz bir tane oluşturun.

  • Veriler için Azure Blob Depolama veya OneLake lakehouse.

    Azure Depolama standart bir performans (genel amaçlı v2) hesabı olmalıdır. Erişim katmanları sık erişimli, seyrek erişimli ve soğuk olabilir.

    Azure Data Lake Storage 2. Nesil (hiyerarşik ad alanına sahip bir depolama hesabı) kullanmayın. Sihirbazın bu sürümü Data Lake Storage 2. Nesil desteklemiyor.

  • Vektörleştirme için, bir Azure AI hizmetleri çok hizmetli hesabı veya dağıtımları olan Azure OpenAI Hizmeti uç noktası.

    Azure AI Vision ile çoklumodal kullanım için İsveçCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth veya JapanEast'te bir Azure yapay zeka hizmeti oluşturun. Güncelleştirilmiş liste belgelerine bakın.

    Ayrıca, model dağıtımlarıyla bir Azure AI Studio model kataloğu (ve hub ve proje) kullanabilirsiniz.

  • Dizin oluşturma ve sorgular için Azure AI Search. Azure AI hizmetinizle aynı bölgede olmalıdır. Temel katmanı veya üzerini öneririz.

  • Modelleri ve veri kaynaklarını ekleme bağlantıları için rol atamaları veya API anahtarları. Bu makalede rol tabanlı erişim denetimi (RBAC) için yönergeler sağlanır.

Portal düğümlerinin bunlara erişebilmesi için önceki tüm kaynakların genel erişimi etkinleştirilmelidir. Aksi takdirde sihirbaz başarısız olur. Sihirbaz çalıştırıldıktan sonra, güvenlik için tümleştirme bileşenlerinde güvenlik duvarlarını ve özel uç noktaları etkinleştirebilirsiniz. Daha fazla bilgi için bkz . İçeri aktarma sihirbazlarında güvenli bağlantılar.

Özel uç noktalar zaten varsa ve bunları devre dışı bırakamıyorsanız, alternatif seçenek sanal makinedeki bir betikten veya programdan ilgili uçtan uca akışı çalıştırmaktır. Sanal makine, özel uç noktayla aynı sanal ağda olmalıdır. Tümleşik vektörleştirme için bir Python kod örneği aşağıda verilmiştır. Aynı GitHub deposunda diğer programlama dillerinde örnekler bulunur.

Ücretsiz arama hizmeti, Azure AI Search bağlantılarında RBAC'yi destekler, ancak Azure Depolama'ya veya Azure AI Vision'a giden bağlantılarda yönetilen kimlikleri desteklemez. Bu destek düzeyi, ücretsiz arama hizmetiyle diğer Azure hizmetleri arasındaki bağlantılarda anahtar tabanlı kimlik doğrulaması kullanmanız gerektiği anlamına gelir. Daha güvenli bağlantılar için:

Not

Seçenekler kullanılamadığından sihirbazda ilerleyemiyorsanız (örneğin, veri kaynağı veya ekleme modeli seçemiyorsanız), rol atamalarını yeniden ziyaret edin. Hata iletileri modellerin veya dağıtımların mevcut olmadığını gösterir. Asıl sorun, arama hizmetinin bunlara erişim izni olmamasıdır.

Alan denetleme

Ücretsiz hizmetle başlıyorsanız üç dizin, üç veri kaynağı, üç beceri kümesi ve üç dizin oluşturucuyla sınırlısınız demektir. Başlamadan önce ek öğeler için yeriniz olduğundan emin olun. Bu hızlı başlangıçta her nesneden biri oluşturulur.

Hizmet kimliğini denetleme

Diğer kaynaklara yönelik arama hizmeti bağlantıları için rol atamaları öneririz.

  1. Azure AI Search'te RBAC'yi etkinleştirin.

  2. Arama hizmetinizi sistem tarafından atanan veya kullanıcı tarafından atanan yönetilen kimliği kullanacak şekilde yapılandırın.

Aşağıdaki bölümlerde, arama hizmetinin yönetilen kimliğini diğer hizmetlerdeki rollere atayabilirsiniz. Bölümler, uygun olduğunda rol atamaları için adımlar sağlar.

Anlamsal derecelendirmeyi denetleme

Sihirbaz semantik derecelendirmeyi destekler, ancak yalnızca Temel katmanda ve daha yüksek bir katmanda ve yalnızca arama hizmetinizde semantik derecelendirme zaten etkinse. Faturalanabilir bir katman kullanıyorsanız anlamsal derecelendirmenin etkinleştirilip etkinleştirilmediğini denetleyin.

Örnek verileri hazırlama

Bu bölüm, bu hızlı başlangıç için uygun olan verileri gösterir.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure Depolama hesabınıza gidin.

  2. Sol bölmedeki Veri Depolama'nın altında Kapsayıcılar'ı seçin.

  3. Yeni bir kapsayıcı oluşturun ve ardından bu hızlı başlangıç için kullanılan sistem durumu planı PDF belgelerini karşıya yükleyin.

  4. Erişim denetiminde, kapsayıcıdaki Depolama Blobu Veri Okuyucusu rolünü arama hizmeti kimliğine atayın. Alternatif olarak, Erişim anahtarları sayfasından depolama hesabına bir bağlantı dizesi alabilirsiniz.

Ekleme modellerini ayarlama

Tümleşik vektörleştirme ve Verileri içeri aktarma ve vektörleştirme sihirbazı, dizin oluşturma sırasında dağıtılmış ekleme modellerine dokunarak metin ve görüntüleri vektörlere dönüştürür.

Azure OpenAI'de dağıtılan ekleme modellerini, çok modüllü eklemeler için Azure AI Vision'da veya Azure AI Studio'daki model kataloğunda kullanabilirsiniz.

Verileri içeri aktarma ve vektörleştirme, , text-embedding-3-largeve text-embedding-3-small'yi desteklertext-embedding-ada-002. Sihirbaz dahili olarak Azure OpenAI'ye bağlanmak için AzureOpenAIEmbedding becerisini kullanır.

Azure OpenAI'ye izin atamak veya arama hizmeti bağlantısı için bir API anahtarı almak için bu yönergeleri kullanın. Sihirbazı çalıştırmadan önce izinleri ayarlamanız veya bağlantı bilgilerinin kullanılabilir olması gerekir.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure OpenAI kaynağınıza gidin.

  2. İzinleri ayarlama:

    1. Sol menüde Erişim denetimi'ni seçin.

    2. Ekle'yi ve ardından Rol ataması ekle'yi seçin.

    3. İş işlevi rolleri'nin altında Bilişsel Hizmetler OpenAI Kullanıcısı'nın ardından İleri'yi seçin.

    4. Üyeler'in altında Yönetilen kimlik'i ve ardından Üyeler'i seçin.

    5. Aboneliğe ve kaynak türüne (arama hizmetleri) göre filtreleyin ve arama hizmetinizin yönetilen kimliğini seçin.

    6. Gözden geçir + ata'yı seçin.

  3. Genel Bakış sayfasında Uç noktaları görüntülemek için buraya tıklayın'ı veya bir uç nokta veya API anahtarı kopyalamanız gerekiyorsa anahtarları yönetmek için buraya tıklayın'ı seçin. Anahtar tabanlı kimlik doğrulamasına sahip bir Azure OpenAI kaynağı kullanıyorsanız bu değerleri sihirbaza yapıştırabilirsiniz.

  4. Azure AI Studio'yu açmak için Kaynak Yönetimi ve Model dağıtımları'nın altında Dağıtımları Yönet'i seçin.

  5. veya başka bir desteklenen ekleme modelinin text-embedding-ada-002 dağıtım adını kopyalayın. Ekleme modeliniz yoksa şimdi bir tane dağıtın.

Sihirbazı başlatma

  1. Azure hesabınızla Azure portalında oturum açın ve Azure yapay zeka Arama hizmeti gidin.

  2. Genel Bakış sayfasında Verileri içeri aktar ve vektörleştir'i seçin.

    Verileri içeri aktarma ve vektörleştirme sihirbazını açma komutunun ekran görüntüsü.

Verilerinize bağlanma

Sonraki adım, arama dizini için kullanılacak bir veri kaynağına bağlanmaktır.

  1. Verileri içeri aktarma ve vektörleştirme sihirbazının Veri bağlantınızı ayarlayın sayfasında Azure Blob Depolama veya OneLake'i seçin.

  2. Azure aboneliğini belirtin.

  3. OneLake için lakehouse URL'sini belirtin veya çalışma alanı ile lakehouse kimliklerini sağlayın.

    Azure Depolama için verileri sağlayan hesabı ve kapsayıcıyı seçin.

  4. Silme algılamasını isteyip istemediğinizi belirtin.

  5. İleri'yi seçin.

Metninizi vektörleştirme

Bu adımda, öbeklenmiş verileri vektörleştirmek için ekleme modelini belirtin.

  1. Metninizi vektörleştirin sayfasında, dağıtılan modellerin Azure OpenAI'de mi, Azure AI Studio model kataloğunda mı yoksa Azure AI Search ile aynı bölgede bulunan mevcut bir Azure AI Vision multimodal kaynağında mı olduğunu belirtin.

  2. Azure aboneliğini belirtin.

  3. Kaynağa göre seçim yapın:

    1. Azure OpenAI için hizmet, model dağıtımı ve kimlik doğrulama türünü seçin.

    2. AI Studio kataloğu için projeyi, model dağıtımını ve kimlik doğrulama türünü seçin.

    3. AI Vision vektörleştirmesi için hesabı seçin.

    Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.

  4. Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.

  5. İleri'yi seçin.

Görüntülerinizi vektörleştirin ve zenginleştirin

İçeriğinizde resimler varsa yapay zekayı iki yolla uygulayabilirsiniz:

  • Katalogdan desteklenen bir görüntü ekleme modeli kullanın veya görüntüleri vektörleştirmek için Azure AI Vision çok modüllü eklemeLER API'sini seçin.
  • Resimlerdeki metni tanımak için optik karakter tanıma (OCR) kullanın.

Azure AI Search ve Azure AI kaynağınız aynı bölgede olmalıdır.

  1. Görüntülerinizi vektörleştirin sayfasında, sihirbazın yapması gereken bağlantı türünü belirtin. Görüntü vektörleştirme için sihirbaz Azure AI Studio veya Azure AI Vision'a ekleme modellerine bağlanabilir.

  2. Aboneliği belirtin.

  3. Azure AI Studio model kataloğu için projeyi ve dağıtımı belirtin. Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.

  4. İsteğe bağlı olarak, ikili görüntüleri (örneğin, taranmış belge dosyaları) kırabilir ve metni tanımak için OCR kullanabilirsiniz.

  5. Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.

  6. İleri'yi seçin.

Gelişmiş ayarları seçme

  1. Gelişmiş ayarlar sayfasında, isteğe bağlı olarak sorgu yürütmenin sonunda sonuçları yeniden kırpmak için anlamsal derecelendirme ekleyebilirsiniz. Yeniden boyutlandırma, en ilgili eşlemeleri en üste yükseltir.

  2. İsteğe bağlı olarak, dizin oluşturucu için bir çalıştırma zamanlaması belirtin.

  3. İleri'yi seçin.

Sihirbazı tamamlama

  1. Yapılandırmanızı gözden geçirin sayfasında, sihirbazın oluşturacağı nesneler için bir ön ek belirtin. Ortak bir ön ek düzenli kalmanıza yardımcı olur.

  2. Oluştur'u belirleyin.

Sihirbaz yapılandırmayı tamamladığında aşağıdaki nesneleri oluşturur:

  • Veri kaynağı bağlantısı.

  • Vektör alanları, vektörleştiriciler, vektör profilleri ve vektör algoritmaları içeren dizin. Sihirbaz iş akışı sırasında varsayılan dizini tasarlayamaz veya değiştiremezsiniz. Dizinler 2024-05-01-preview REST API'sine uygundur.

  • Öbekleme için Metin Bölme becerisini ve vektörleştirme için ekleme becerisini içeren beceri kümesi. Ekleme becerisi, Azure OpenAI için AzureOpenAIEmbeddingModel becerisi veya Azure AI Studio model kataloğu için AML becerisidir.

  • Alan eşlemeleri ve çıkış alanı eşlemeleri olan dizin oluşturucu (varsa).

Sonuçları denetleme

Arama Gezgini metin dizelerini giriş olarak kabul eder ve ardından vektör sorgu yürütmesi için metni vektörleştirir.

  1. Azure portalında Arama Yönetimi>Dizinleri'ne gidin ve oluşturduğunuz dizini seçin.

  2. İsteğe bağlı olarak Sorgu seçenekleri'ni seçin ve arama sonuçlarında vektör değerlerini gizleyin. Bu adım, arama sonuçlarınızın daha kolay okunmasını sağlar.

    Sorgu seçenekleri düğmesinin ekran görüntüsü.

  3. Vektör sorgusu parametresinde vektör sorgunuzun text metnini girebilmeniz için Görünüm menüsünde JSON görünümünü seçin.

    JSON görünümünü açmak için menü komutunun ekran görüntüsü.

    Sihirbaz, alanda vektör sorgusu veren ve en yakın beş komşuyu döndüren bir varsayılan sorgu vector sunar. Vektör değerlerini gizlemeyi tercih ettiyseniz, varsayılan sorgunuz alanı arama sonuçlarından vector dışlayan bir select deyim içerir.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. text değeri için yıldız işareti (*) yerine sistem durumu planlarıyla ilgili bir soru (gibiWhich plan has the lowest deductible?) yazın.

  5. Sorguyu çalıştırmak için Ara'yı seçin.

    Arama sonuçlarının ekran görüntüsü.

    Beş eşleşme görünmelidir. Her belge, özgün PDF'nin bir öbekleridir. Alanında title öbek hangi PDF'den geldiği gösterilir.

  6. Belirli bir belgedeki tüm öbekleri görmek için title , belirli bir PDF için alana filtre ekleyin:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Temizleme

Azure AI Search faturalanabilir bir kaynaktır. Artık ihtiyacınız yoksa ücretlerden kaçınmak için aboneliğinizden silin.

Sonraki adım

Bu hızlı başlangıçta tümleşik vektörleştirme için gerekli tüm nesneleri oluşturan Verileri içeri aktarma ve vektörleştirme sihirbazı tanıtıldı. Her adımı ayrıntılı olarak incelemek istiyorsanız tümleşik vektörleştirme örneğini deneyin.