Aracılığıyla paylaş


Hızlı Başlangıç: Azure portalını kullanarak metin ve görüntüleri vektörleştirme

Bu hızlı başlangıç, Azure portalındaki Verileri içeri aktarma ve vektörleştirme sihirbazını kullanarak tümleşik vektörleştirmeye başlamanıza yardımcı olur. Sihirbaz, içeriğinizi öbekler ve dizin oluşturma sırasında ve sorgular için içeriği vektörleştirmek için bir ekleme modeli çağırır.

Sihirbazla ilgili önemli noktalar:

  • Kaynak veriler Azure Blob Depolama, Azure Data Lake Storage (ADLS) 2. Nesil veya OneLake dosyaları ve kısayollarıdır.

  • Belge ayrıştırma modu varsayılandır (blob veya dosya başına bir arama belgesi).

  • Dizin şeması yapılandırılamaz. Öbeklenmiş veriler için vektör ve seçici olmayan alanlar sağlar.

  • Öbekleme yapılandırılamaz. Geçerli ayarlar şunlardır:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Önkoşullar

Azure OpenAI Hizmeti kullanılıyorsa, ilişkili bir özel alt etki alanına sahip olması gerekir. Hizmet Azure portalı aracılığıyla oluşturulduysa, bu alt etki alanı hizmet kurulumunuzun bir parçası olarak otomatik olarak oluşturulur. Hizmetinizi Azure AI Search tümleştirmesiyle kullanmadan önce özel bir alt etki alanı içerdiğinden emin olun.

AI Studio hizmet hesabıyla oluşturulan Azure OpenAI modellerinin desteklenmediğini unutmayın. Yalnızca Azure OpenAI Hizmeti'nden modeller Azure OpenAI tümleştirmesiyle uyumludur.

Genel uç nokta gereksinimleri

Portal düğümlerinin bunlara erişebilmesi için önceki tüm kaynakların genel erişimi etkinleştirilmelidir. Aksi takdirde sihirbaz başarısız olur. Sihirbaz çalıştırıldıktan sonra, güvenlik için tümleştirme bileşenlerinde güvenlik duvarlarını ve özel uç noktaları etkinleştirebilirsiniz. Daha fazla bilgi için bkz . İçeri aktarma sihirbazlarında güvenli bağlantılar.

Özel uç noktalar zaten varsa ve bunları devre dışı bırakamıyorsanız, alternatif seçenek sanal makinedeki bir betikten veya programdan ilgili uçtan uca akışı çalıştırmaktır. Sanal makine, özel uç noktayla aynı sanal ağda olmalıdır. Tümleşik vektörleştirme için bir Python kod örneği aşağıda verilmiştır. Aynı GitHub deposunda diğer programlama dillerinde örnekler bulunur.

Rol tabanlı erişim denetimi gereksinimleri

Diğer kaynaklara yönelik arama hizmeti bağlantıları için rol atamaları öneririz.

  1. Azure AI Search'te rolleri etkinleştirin.

  2. Arama hizmetinizi yönetilen kimlik kullanacak şekilde yapılandırın.

  3. Veri kaynağı platformunuzda ve ekleme modeli sağlayıcınızda, arama hizmetinin verilere ve modellere erişmesine olanak sağlayan rol atamaları oluşturun. Örnek verileri hazırlama, rolleri ayarlamaya yönelik yönergeler sağlar.

Ücretsiz arama hizmeti, Azure AI Search bağlantılarında RBAC'yi destekler, ancak Azure Depolama'ya veya Azure AI Vision'a giden bağlantılarda yönetilen kimlikleri desteklemez. Bu destek düzeyi, ücretsiz arama hizmetiyle diğer Azure hizmetleri arasındaki bağlantılarda anahtar tabanlı kimlik doğrulaması kullanmanız gerektiği anlamına gelir.

Daha güvenli bağlantılar için:

  • Temel katmanı veya üzerini kullanın.
  • Yönetilen bir kimlik yapılandırın ve yetkili erişim için rolleri kullanın.

Not

Seçenekler kullanılamadığından sihirbazda ilerleyemiyorsanız (örneğin, veri kaynağı veya ekleme modeli seçemiyorsanız), rol atamalarını yeniden ziyaret edin. Hata iletileri modellerin veya dağıtımların mevcut olmadığını gösterir. Bunun asıl nedeni, arama hizmetinin bunlara erişim izni olmamasıdır.

Alan denetleme

Ücretsiz hizmetle başlıyorsanız 3 dizin, veri kaynağı, beceri kümesi ve dizin oluşturucuyla sınırlısınız demektir. Temel, sizi 15 ile sınırlar. Başlamadan önce ek öğeler için yeriniz olduğundan emin olun. Bu hızlı başlangıçta her nesneden biri oluşturulur.

Anlam derecesini denetleme

Sihirbaz semantik derecelendirmeyi destekler, ancak yalnızca Temel katmanda ve daha yüksek bir katmanda ve yalnızca arama hizmetinizde semantik dereceleyici zaten etkinse. Faturalanabilir bir katman kullanıyorsanız anlam dereceleyicinin etkinleştirilip etkinleştirilmediğini denetleyin.

Örnek verileri hazırlama

Bu bölüm, bu hızlı başlangıç için uygun olan verileri gösterir.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure Depolama hesabınıza gidin.

  2. Sol bölmedeki Veri Depolama'nın altında Kapsayıcılar'ı seçin.

  3. Yeni bir kapsayıcı oluşturun ve ardından bu hızlı başlangıç için kullanılan sistem durumu planı PDF belgelerini karşıya yükleyin.

  4. Sol bölmede, Erişim denetimi altında Depolama Blobu Veri Okuyucusu rolünü arama hizmeti kimliğine atayın. Alternatif olarak, Erişim anahtarları sayfasından depolama hesabına bir bağlantı dizesi alabilirsiniz.

  5. İsteğe bağlı olarak, kapsayıcınızdaki silmeleri arama dizinindeki silme işlemleriyle eşitleyin. Aşağıdaki sonraki adımlar, dizin oluşturucuyu silme algılaması için yapılandırmanıza olanak sağlar:

    1. Depolama hesabınızda geçici silmeyi etkinleştirin.

    2. Yerel geçici silme kullanıyorsanız Azure Depolama'da başka adım gerekmez.

    3. Aksi takdirde, bir dizin oluşturucu tarafından hangi blobların silinmek üzere işaretlendiğini belirlemek için tarayabileceği özel meta veriler ekleyin. Özel özelliğinize açıklayıcı bir ad verin. Örneğin, özelliğini "IsDeleted" olarak adlandırabilir ve false olarak ayarlayabilirsiniz. Bunu kapsayıcıdaki her blob için yapın. Daha sonra blobu silmek istediğinizde özelliğini true olarak değiştirin. Daha fazla bilgi için bkz. Azure Depolama'dan dizin oluştururken algılamayı değiştirme ve silme

Ekleme modellerini ayarlama

Sihirbaz, Azure OpenAI, Azure AI Vision veya Azure AI Studio'daki model kataloğundan dağıtılan ekleme modellerini kullanabilir.

Sihirbaz text-embedding-ada-002, text-embedding-3-large ve text-embedding-3-small'ı destekler. Sihirbaz dahili olarak Azure OpenAI'ye bağlanmak için AzureOpenAIEmbedding becerisini çağırır.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure OpenAI kaynağınıza gidin.

  2. İzinleri ayarlama:

    1. Sol menüde Erişim denetimi'ni seçin.

    2. Ekle'yi ve ardından Rol ataması ekle'yi seçin.

    3. İş işlevi rolleri'nin altında Bilişsel Hizmetler OpenAI Kullanıcısı'nın ardından İleri'yi seçin.

    4. Üyeler'in altında Yönetilen kimlik'i ve ardından Üyeler'i seçin.

    5. Aboneliğe ve kaynak türüne (arama hizmetleri) göre filtreleyin ve arama hizmetinizin yönetilen kimliğini seçin.

    6. Gözden geçir + ata'yı seçin.

  3. Genel Bakış sayfasında Uç noktaları görüntülemek için buraya tıklayın'ı veya bir uç nokta veya API anahtarı kopyalamanız gerekiyorsa anahtarları yönetmek için buraya tıklayın'ı seçin. Anahtar tabanlı kimlik doğrulamasına sahip bir Azure OpenAI kaynağı kullanıyorsanız bu değerleri sihirbaza yapıştırabilirsiniz.

  4. Azure AI Studio'yu açmak için Kaynak Yönetimi ve Model dağıtımları'nın altında Dağıtımları Yönet'i seçin.

  5. veya başka bir desteklenen ekleme modelinin text-embedding-ada-002 dağıtım adını kopyalayın. Ekleme modeliniz yoksa şimdi bir tane dağıtın.

Sihirbazı başlatma

  1. Azure hesabınızla Azure portalında oturum açın ve Azure yapay zeka Arama hizmeti gidin.

  2. Genel Bakış sayfasında Verileri içeri aktar ve vektörleştir'i seçin.

    Verileri içeri aktarma ve vektörleştirme sihirbazını açma komutunun ekran görüntüsü.

Verilerinize bağlanma

Sonraki adım, arama dizini için kullanılacak bir veri kaynağına bağlanmaktır.

  1. Veri bağlantınızı ayarlayın sayfasında Azure Blob Depolama'ı seçin.

  2. Azure aboneliğini belirtin.

  3. Verileri sağlayan depolama hesabını ve kapsayıcıyı seçin.

  4. Silme algılama desteği isteyip istemediğinizi belirtin. Sonraki dizin oluşturma çalıştırmalarında arama dizini, Azure Depolama'da geçici olarak silinen blobları temel alan tüm arama belgelerini kaldıracak şekilde güncelleştirilir.

    • Bloblar, özel verileri kullanarak Yerel blob geçici silmeyi veya Geçici silmeyi destekler.
    • Daha önce Azure Depolama'da geçici silmeyi etkinleştirmiş ve isteğe bağlı olarak dizin oluşturmanın silme bayrağı olarak tanıyabileceği özel meta veriler eklemiş olmanız gerekir. Bu adımlar hakkında daha fazla bilgi için bkz . Örnek verileri hazırlama.
    • Bloblarınızı özel verileri kullanarak geçici silme için yapılandırdıysanız, bu adımda meta veri özelliği ad-değer çiftini sağlayın. "IsDeleted" önerilir. Bir blobda "IsDeleted" true olarak ayarlanırsa, dizin oluşturucu sonraki dizin oluşturucu çalıştırmasına karşılık gelen arama belgesini bırakır.

    Sihirbaz geçerli ayarlar için Azure Depolama'yı denetlemez veya gereksinimler karşılanmazsa hata oluşturmaz. Bunun yerine, silme algılaması çalışmaz ve arama dizininizin zaman içinde yalnız bırakılmış belgeleri toplaması olasıdır.

    Silme algılama seçeneklerini içeren veri kaynağı sayfasının ekran görüntüsü.

  5. Arama hizmetinizin yönetilen kimliğini kullanarak Azure Depolama'ya bağlanmasını isteyip istemediğinizi belirtin.

    • Sistem tarafından yönetilen veya kullanıcı tarafından yönetilen bir kimlik seçmeniz istenir.
    • Kimliğin Azure Depolama'da bir Depolama Blob Veri Okuyucusu rolü olmalıdır.
    • Bu adımı atlamayın. Sihirbaz Azure Depolama'ya bağlanamıyorsa dizin oluşturma sırasında bir bağlantı hatası oluşur.
  6. İleri'yi seçin.

Metninizi vektörleştirme

Bu adımda, öbeklenmiş verileri vektörleştirmek için ekleme modelini belirtin.

  1. Metninizi vektörleştirin sayfasında ekleme modelinin kaynağını seçin:

    • Azure OpenAI
    • Azure AI Studio model kataloğu
    • Azure AI Search ile aynı bölgede bulunan mevcut bir Azure AI Vision çok modüllü kaynağı. Aynı bölgede Azure AI Services çoklu hizmet hesabı yoksa bu seçenek kullanılamaz.
  2. Azure aboneliğini seçin.

  3. Kaynağa göre seçim yapın:

    • Azure OpenAI için text-embedding-ada-002, text-embedding-3-large veya text-embedding-3-small dağıtımını seçin.

    • AI Studio kataloğu için Azure, Cohere ve Facebook ekleme modelinin mevcut dağıtımını seçin.

    • AI Vision çok modüllü eklemeler için hesabı seçin.

    Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.

  4. Arama hizmetinizin BIR API anahtarı veya yönetilen kimlik kullanarak kimlik doğrulaması yapmak isteyip istemediğinizi belirtin.

    • Kimlik, Azure AI çoklu hizmetler hesabında Bilişsel Hizmetler OpenAI Kullanıcı rolüne sahip olmalıdır.
  5. Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.

  6. İleri'yi seçin.

Görüntülerinizi vektörleştirin ve zenginleştirin

İçeriğinizde resimler varsa yapay zekayı iki yolla uygulayabilirsiniz:

  • Katalogdan desteklenen bir görüntü ekleme modeli kullanın veya görüntüleri vektörleştirmek için Azure AI Vision çok modüllü eklemeLER API'sini seçin.

  • Resimlerdeki metni tanımak için optik karakter tanıma (OCR) kullanın. Bu seçenek, görüntülerden metin okumak için OCR becerisini çağırır.

Azure AI Search ve Azure AI kaynağınız aynı bölgede olmalıdır.

  1. Görüntülerinizi vektörleştirin sayfasında, sihirbazın yapması gereken bağlantı türünü belirtin. Görüntü vektörleştirme için sihirbaz Azure AI Studio veya Azure AI Vision'a ekleme modellerine bağlanabilir.

  2. Aboneliği belirtin.

  3. Azure AI Studio model kataloğu için projeyi ve dağıtımı belirtin. Daha fazla bilgi için bu makalenin önceki bölümlerinde yer alan Ekleme modellerini ayarlama bölümüne bakın.

  4. İsteğe bağlı olarak, ikili görüntüleri (örneğin, taranmış belge dosyaları) kırabilir ve metni tanımak için OCR kullanabilirsiniz.

  5. Bu kaynakları kullanmanın faturalama etkisini kabul eden onay kutusunu seçin.

  6. İleri'yi seçin.

Gelişmiş ayarları seçme

  1. Gelişmiş ayarlar sayfasında, isteğe bağlı olarak sorgu yürütmenin sonunda sonuçları yeniden kırpmak için anlamsal derecelendirme ekleyebilirsiniz. Yeniden boyutlandırma, en ilgili eşlemeleri en üste yükseltir.

  2. İsteğe bağlı olarak, dizin oluşturucu için bir çalıştırma zamanlaması belirtin.

  3. İleri'yi seçin.

Sihirbazı tamamlama

  1. Yapılandırmanızı gözden geçirin sayfasında, sihirbazın oluşturacağı nesneler için bir ön ek belirtin. Ortak bir ön ek düzenli kalmanıza yardımcı olur.

  2. Oluştur'u belirleyin.

Sihirbaz yapılandırmayı tamamladığında aşağıdaki nesneleri oluşturur:

  • Veri kaynağı bağlantısı.

  • Vektör alanları, vektörleştiriciler, vektör profilleri ve vektör algoritmaları içeren dizin. Sihirbaz iş akışı sırasında varsayılan dizini tasarlayamaz veya değiştiremezsiniz. Dizinler 2024-05-01-preview REST API'sine uygundur.

  • Öbekleme için Metin Bölme becerisini ve vektörleştirme için ekleme becerisini içeren beceri kümesi. Ekleme becerisi, Azure OpenAI için AzureOpenAIEmbeddingModel becerisi veya Azure AI Studio model kataloğu için AML becerisidir. Beceri kümesi ayrıca verilerin veri kaynağındaki bir belgeden "alt" dizindeki karşılık gelen öbeklerine eşlenmesine olanak tanıyan dizin projeksiyonları yapılandırmasına sahiptir.

  • Alan eşlemeleri ve çıkış alanı eşlemeleri olan dizin oluşturucu (varsa).

Sonuçları denetleme

Arama Gezgini metin dizelerini giriş olarak kabul eder ve ardından vektör sorgu yürütmesi için metni vektörleştirir.

  1. Azure portalında Arama Yönetimi>Dizinleri'ne gidin ve oluşturduğunuz dizini seçin.

  2. İsteğe bağlı olarak Sorgu seçenekleri'ni seçin ve arama sonuçlarında vektör değerlerini gizleyin. Bu adım, arama sonuçlarınızın daha kolay okunmasını sağlar.

    Sorgu seçenekleri düğmesinin ekran görüntüsü.

  3. Vektör sorgusu parametresinde vektör sorgunuzun text metnini girebilmeniz için Görünüm menüsünde JSON görünümünü seçin.

    JSON görünümünü açmak için menü komutunun ekran görüntüsü.

    Sihirbaz, alanda vektör sorgusu veren ve en yakın beş komşuyu döndüren bir varsayılan sorgu vector sunar. Vektör değerlerini gizlemeyi tercih ettiyseniz, varsayılan sorgunuz alanı arama sonuçlarından vector dışlayan bir select deyim içerir.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. text değeri için yıldız işareti (*) yerine sistem durumu planlarıyla ilgili bir soru (gibiWhich plan has the lowest deductible?) yazın.

  5. Sorguyu çalıştırmak için Ara'yı seçin.

    Arama sonuçlarının ekran görüntüsü.

    Beş eşleşme görünmelidir. Her belge, özgün PDF'nin bir öbekleridir. Alanında title öbek hangi PDF'den geldiği gösterilir.

  6. Belirli bir belgedeki tüm öbekleri görmek için title , belirli bir PDF için alana filtre ekleyin:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Temizleme

Azure AI Search faturalanabilir bir kaynaktır. Artık ihtiyacınız yoksa ücretlerden kaçınmak için aboneliğinizden silin.

Sonraki adım

Bu hızlı başlangıçta tümleşik vektörleştirme için gerekli tüm nesneleri oluşturan Verileri içeri aktarma ve vektörleştirme sihirbazı tanıtıldı. Her adımı ayrıntılı olarak incelemek istiyorsanız tümleşik vektörleştirme örneğini deneyin.