Aracılığıyla paylaş


OneLake dosyalarından ve kısayollarından dizin verileri

Bu makalede, OneLake'in üzerindeki bir göl evinden aranabilir verileri ve meta veri verilerini ayıklamak için OneLake dosyaları dizin oluşturucu yapılandırmayı öğrenin.

Aşağıdaki görevler için bu dizin oluşturucuyu kullanın:

  • Veri dizin oluşturma ve artımlı dizin oluşturma: Dizin oluşturucu, bir lakehouse içindeki veri yollarından dosyaları ve ilişkili meta verileri dizinleyebilir. Yerleşik değişiklik algılama aracılığıyla yeni ve güncelleştirilmiş dosyaları ve meta verileri algılar. Veri yenilemeyi bir zamanlamaya göre veya isteğe bağlı olarak yapılandırabilirsiniz.
  • Silme algılama: Dizin oluşturucu çoğu dosya ve kısayol için özel meta veriler aracılığıyla silmeleri algılayabilir. Bunun için dosyalara meta veriler eklenerek bunların "geçici olarak silindiğini" ve arama dizininden kaldırılmalarının sağlandığının belirtilmesi gerekir. Şu anda, bu veri kaynakları için özel meta veriler desteklenmediğinden Google Cloud Storage veya Amazon S3 kısayol dosyalarındaki silmeleri algılamak mümkün değildir.
  • Beceri kümeleri aracılığıyla uygulanan yapay zeka: Beceri kümeleri , OneLake dosyaları dizin oluşturucu tarafından tam olarak desteklenir. Buna, veri öbekleme ve ekleme adımları ekleyen tümleşik vektörleştirme gibi temel özellikler dahildir.
  • Ayrıştırma modları: JSON dizilerini veya satırlarını tek tek arama belgelerine ayrıştırmak istiyorsanız dizin oluşturucu JSON ayrıştırma modlarını destekler.
  • Diğer özelliklerle uyumluluk: OneLake dizin oluşturucu, hata ayıklama oturumları, artımlı zenginleştirmeler için dizin oluşturucu önbelleği ve bilgi deposu gibi diğer dizin oluşturucu özellikleriyle sorunsuz çalışacak şekilde tasarlanmıştır.

2024-05-01-preview REST API'sini, beta bir Azure SDK paketini kullanın veya OneLake'ten dizin oluşturmak için Azure portalındaki verileri içeri aktarın ve vektörleştirin.

Bu makalede, her adımı göstermek için REST API'leri kullanılır.

Önkoşullar

Desteklenen belge biçimleri

OneLake dosyaları dizin oluşturucu aşağıdaki belge biçimlerinden metin ayıklayabilir:

  • CSV (bkz. CSV bloblarının dizinini oluşturma)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (bkz. JSON bloblarını dizinleme)
  • KML (coğrafi gösterimler için XML)
  • Microsoft Office biçimleri: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook e-postaları), XML (hem 2003 hem de 2006 WORD XML)
  • Belge biçimlerini açma: ODT, ODS, ODP
  • PDF
  • Düz metin dosyaları (ayrıca bkz. Düz metin dizini oluşturma)
  • RTF
  • XML
  • ZIP

Desteklenen kısayollar

Aşağıdaki OneLake kısayolları OneLake dosyaları dizin oluşturucu tarafından desteklenir:

Bu önizlemedeki sınırlamalar

  • Parquet (delta parquet dahil) dosya türleri şu anda desteklenmiyor.

  • Dosya silme, Amazon S3 ve Google Cloud Storage kısayolları için desteklenmez.

  • Bu dizin oluşturucu OneLake çalışma alanı Tablo konumu içeriğini desteklemiyor.

  • Bu dizin oluşturucu SQL sorgularını desteklemez, ancak veri kaynağı yapılandırmasında kullanılan sorgu yalnızca isteğe bağlı olarak erişecek klasörü veya kısayolu eklemek için kullanılır.

  • Bu, kullanıcı başına kişisel bir depo olduğundan OneLake'teki Çalışma Alanım çalışma alanından dosya alma desteği yoktur.

Dizin oluşturma için verileri hazırlama

Dizin oluşturmayı ayarlamadan önce, herhangi bir değişikliğin önceden yapılıp yapılmayacağını belirlemek için kaynak verilerinizi gözden geçirin. Dizin oluşturucu bir kerede bir kapsayıcıdaki içeriği dizine alabilir. Varsayılan olarak, kapsayıcıdaki tüm dosyalar işlenir. Daha seçmeli işleme için çeşitli seçenekleriniz vardır:

  • Dosyaları bir sanal klasöre yerleştirin. Dizin oluşturucu veri kaynağı tanımı , lakehouse alt klasörü veya kısayolu olabilecek bir "query" parametresi içerir. Bu değer belirtilirse, yalnızca göl evi içindeki alt klasördeki veya kısayoldaki dosyalar dizine eklenir.

  • Dosyaları dosya türüne göre dahil edin veya hariç tutun. Desteklenen belge biçimleri listesi , hangi dosyaların dışlanabileceğini belirlemenize yardımcı olabilir. Örneğin, aranabilir metin sağlamayan görüntü veya ses dosyalarını dışlamak isteyebilirsiniz. Bu özellik, dizin oluşturucudaki yapılandırma ayarları aracılığıyla denetlenilir.

  • Rastgele dosyaları dahil edin veya hariç tutun. Belirli bir dosyayı hangi nedenle olursa olsun atlamak istiyorsanız, OneLake göl evinizdeki dosyalara meta veri özellikleri ve değerleri ekleyebilirsiniz. Bir dizin oluşturucu bu özellikle karşılaştığında, dizin oluşturma çalıştırmasında dosyayı veya içeriğini atlar.

Dosya ekleme ve dışlama, dizin oluşturucu yapılandırma adımında ele alınmıştır. Ölçüt ayarlamazsanız, dizin oluşturucu uygun olmayan bir dosyayı hata olarak bildirir ve devam eder. Yeterli hata oluşursa işlem durdurulabilir. Dizin oluşturucu yapılandırma ayarlarında hataya dayanıklılık belirtebilirsiniz.

Dizin oluşturucu genellikle dosya başına bir arama belgesi oluşturur ve burada metin içeriği ve meta veriler bir dizinde aranabilir alanlar olarak yakalanır. Dosyalar tam dosyaysa, bunları birden çok arama belgesine ayrıştırabilirsiniz. Örneğin, bir CSV dosyasındaki satırları ayrıştırarak satır başına bir arama belgesi oluşturabilirsiniz. Verileri vektörleştirmek için tek bir belgeyi daha küçük bölümler halinde öbeklemeniz gerekiyorsa tümleşik vektörleştirmeyi kullanmayı göz önünde bulundurun.

Dosya meta verilerini dizinleme

Dosya meta verileri de dizine eklenebilir ve standart veya özel meta veri özelliklerinden herhangi birinin filtreler ve sorgularda yararlı olduğunu düşünüyorsanız bu yararlı olur.

Kullanıcı tarafından belirtilen meta veri özellikleri ayrıntılı olarak ayıklanır. Değerleri almak için, türündeki arama dizininde Edm.Stringblobun meta veri anahtarıyla aynı ada sahip bir alan tanımlamanız gerekir. Örneğin, bir blobun değeri Higholan bir meta veri anahtarı Priority varsa, arama dizininizde adlı Priority bir alan tanımlamanız gerekir ve değeriyle Highdoldurulur.

Standart dosya meta veri özellikleri, aşağıda listelendiği gibi benzer adlandırılmış ve yazılan alanlara ayıklanabilir. OneLake dosyaları dizin oluşturucu, bu meta veri özellikleri için otomatik olarak iç alan eşlemeleri oluşturur ve özgün kısa çizgili adı ("metadata-storage-name") alt çizgili eşdeğer ada ("metadata_storage_name") dönüştürür.

Yine de dizin tanımına alt puanlanmış alanları eklemeniz gerekir, ancak dizin oluşturucu ilişkilendirmeyi otomatik olarak yaptığından dizin oluşturucu alan eşlemelerini atlayabilirsiniz.

  • metadata_storage_name (Edm.String) - dosya adı. Örneğin, /mydatalake/my-folder/subfolder/resume.pdf bir dosyanız varsa, bu alanın değeri olur resume.pdf.

  • metadata_storage_path (Edm.String) - depolama hesabı dahil olmak üzere blobun tam URI'si. Örneğin https://myaccount.blob.core.windows.net/my-container/my-folder/subfolder/resume.pdf

  • metadata_storage_content_type (Edm.String) - blobu karşıya yüklemek için kullandığınız kod tarafından belirtilen içerik türü. Örneğin, application/octet-stream.

  • metadata_storage_last_modified (Edm.DateTimeOffset) - blob için son değiştirilen zaman damgası. Azure AI Search, ilk dizin oluşturma işleminden sonra her şeyin yeniden dizine alınmasını önlemek için değiştirilen blobları tanımlamak için bu zaman damgasını kullanır.

  • metadata_storage_size (Edm.Int64) - bayt cinsinden blob boyutu.

  • metadata_storage_content_md5 (Edm.String) - Varsa blob içeriğinin MD5 karması.

Son olarak, dizine eklediğiniz dosyaların belge biçimine özgü tüm meta veri özellikleri de dizin şemasında temsil edilebilir. İçeriğe özgü meta veriler hakkında daha fazla bilgi için bkz . İçerik meta veri özellikleri.

Arama dizininizde yukarıdaki özelliklerin tümü için alan tanımlamanıza gerek olmadığını belirtmek önemlidir. Yalnızca uygulamanız için ihtiyacınız olan özellikleri yakalayın.

İzinleri verme

OneLake dizin oluşturucu, OneLake'e bağlantılar için belirteç kimlik doğrulaması ve rol tabanlı erişim kullanır. İzinler OneLake'de atanır. Kısayolların yedeklenmesi için fiziksel veri depolarında izin gereksinimi yoktur. Örneğin AWS'den dizin oluştururken AWS'de arama hizmeti izinleri vermeniz gerekmez.

Arama hizmeti kimliğiniz için en düşük rol ataması Katkıda Bulunan'dır.

  1. Yapay zeka Arama hizmeti için sistem veya kullanıcı tarafından yönetilen bir kimlik yapılandırın.

    Aşağıdaki ekran görüntüsünde "onelake-demo" adlı bir arama hizmeti için sistem tarafından yönetilen kimlik gösterilmektedir.

    Azure portalında arama hizmeti sistem kimliğini gösteren ekran görüntüsü.

    Bu ekran görüntüsü, aynı arama hizmeti için kullanıcı tarafından yönetilen kimliği gösterir.

    Azure portalında kullanıcı tarafından atanan bir arama hizmeti yönetilen kimliğini gösteren ekran görüntüsü.

  2. Doku çalışma alanına arama hizmeti erişimi izni verin. Arama hizmeti, bağlantıyı dizin oluşturucu adına yapar.

    Sistem tarafından atanan bir yönetilen kimlik kullanıyorsanız yapay zeka Arama hizmeti adını arayın. Kullanıcı tarafından atanan yönetilen kimlik için kimlik kaynağının adını arayın.

    Aşağıdaki ekran görüntüsünde, sistem tarafından yönetilen kimlik kullanan katkıda bulunan rol ataması gösterilmektedir.

    Azure portalında arama hizmeti sistem kimliği için Katkıda Bulunan rolü atamasını gösteren ekran görüntüsü.

    Bu ekran görüntüsünde, sistem tarafından yönetilen kimlik kullanan katkıda bulunan rol ataması gösterilmektedir:

    Azure portalında kullanıcı tarafından atanan bir arama hizmeti yönetilen kimliği için Katkıda Bulunan rolü atamasını gösteren ekran görüntüsü.

Veri kaynağını tanımlama

Veri kaynağı, birden çok dizin oluşturucu tarafından kullanılabilmesi için bağımsız bir kaynak olarak tanımlanır. Veri kaynağını oluşturmak için 2024-05-01-preview REST API'sini kullanmanız gerekir.

  1. Tanımını ayarlamak için Veri kaynağı REST API'sini oluşturun veya güncelleştirin. Bunlar tanımın en önemli adımlarıdır.

  2. olarak "onelake" ayarlayın "type" (gerekli).

  3. Microsoft Fabric çalışma alanı GUID'sini ve göl evi GUID'sini alın:

    • URL'sinden verileri içeri aktarmak istediğiniz lakehouse'a gidin. Şu örneğe benzer görünmelidir: "https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=power-bi". Veri kaynağı tanımında kullanılan aşağıdaki değerleri kopyalayın:

    • URL'de "gruplar" sözcüğünden hemen sonra listelenen ve çağıracağımız {FabricWorkspaceGuid}çalışma alanı GUID'sini kopyalayın. Bu örnekte 000000000-0000-0000-0000-0000-00000000000000 olacaktır.

      Azure portalında Doku çalışma alanı GUID'sinin ekran görüntüsü.

    • URL'de "lakehouses" sözcüğünden hemen sonra listelenen, çağıracağımız {lakehouseGuid}göl evi GUID'sini kopyalayın. Bu örnekte 111111111-1111-1111-1111-1111111111111 olacaktır.

      Azure portalındaki göl evi GUID'sinin ekran görüntüsü.

  4. değerini önceki adımda kopyaladığınız değerle değiştirerek {FabricWorkspaceGuid} Microsoft Fabric çalışma alanı GUID'sine ayarlayın"credentials". Bu, bu kılavuzun devamında ayarlayacağımız yönetilen kimlikle erişecek OneLake'dir.

    "credentials": {  
    "connectionString": "ResourceId={FabricWorkspaceGuid}"  
    }
    
  5. değerini önceki adımda kopyaladığınız değerle değiştirerek {lakehouseGuid} lakehouse GUID'sine ayarlayın"container.name". İsteğe bağlı olarak bir göl evi alt klasörü veya kısayol belirtmek için kullanın "query" .

      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }
    
  6. Kullanıcı tarafından atanan yönetilen kimliği kullanarak kimlik doğrulama yöntemini ayarlayın veya sistem tarafından yönetilen kimlik için sonraki adıma geçin.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "{userAssignedManagedIdentity}"  
      }  
    }
    

    Değer userAssignedIdentity , kaynağa erişerek {userAssignedManagedIdentity} Özellikler altında bulunabilir ve olarak adlandırılır Id.

    Kullanıcı tarafından atanan kimlik kimliği özelliğinin ekran görüntüsü.

    Örnek:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=00000000-0000-0000-0000-000000000000"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      },  
      "identity": {  
        "@odata.type": "Microsoft.Azure.Search.DataUserAssignedIdentity",  
        "userAssignedIdentity": "/subscriptions/333333-3333-3333-3333-33333333/resourcegroups/myresourcegroup/providers/Microsoft.ManagedIdentity/userAssignedIdentities/demo-mi"  
      }  
    }
    
  7. İsteğe bağlı olarak, bunun yerine sistem tarafından atanan bir yönetilen kimlik kullanın. Sistem tarafından atanan yönetilen kimlik kullanılıyorsa "kimlik" tanımdan kaldırılır.

    {    
      "name": "{dataSourceName}",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId={FabricWorkspaceGuid}"  
      },  
      "container": {  
        "name": "{lakehouseGuid}",  
        "query": "{optionalLakehouseFolderOrShortcut}"  
      }  
    }
    

    Örnek:

    {    
      "name": "mydatasource",  
      "description": "description",  
      "type": "onelake",  
      "credentials": {  
        "connectionString": "ResourceId=00000000-0000-0000-0000-000000000000"  
      },  
      "container": {  
        "name": "11111111-1111-1111-1111-111111111111",  
        "query": "folder_name"  
      }
    } 
    

Özel meta veriler aracılığıyla silmeleri algılama

Kaynak belge silinmek üzere işaretlendiğinde dizin oluşturucunun bir arama belgesini silmesini istiyorsanız OneLake dosyaları dizin oluşturucu veri kaynağı tanımı geçici silme ilkesi içerebilir.

Otomatik dosya silmeyi etkinleştirmek için, özel meta verileri kullanarak bir arama belgesinin dizinden kaldırılması gerekip gerekmediğini belirtin.

İş akışı için üç ayrı eylem gerekir:

  • OneLake'te dosyayı "geçici silme"
  • Dizin oluşturucu, dizindeki arama belgesini siler
  • OneLake'te dosyayı "sabit silme"

"Geçici silme", dizin oluşturucuya ne yapacağını söyler (arama belgesini siler). Önce OneLake'te fiziksel dosyayı silerseniz, dizin oluşturucunun okuması gereken bir şey yoktur ve dizindeki ilgili arama belgesi yalnız kalır.

Hem OneLake hem de Azure AI Search'te izleyebileceğiniz adımlar vardır, ancak başka özellik bağımlılıkları yoktur.

  1. Lakehouse dosyasında, dosyaya özel bir meta veri anahtar-değer çifti ekleyerek dosyanın silinmek üzere işaretlenmiş olduğunu belirtin. Örneğin, özelliğini "IsDeleted" olarak adlandırabilir ve false olarak ayarlayabilirsiniz. Dosyayı silmek istediğinizde true olarak değiştirin.

    IsDeleted için özel meta verileri olan bir dosyanın ekran görüntüsü.

  2. Azure AI Search'te veri kaynağı tanımını "dataDeletionDetectionPolicy" özelliğini içerecek şekilde düzenleyin. Örneğin aşağıdaki ilke, true değerine sahip "IsDeleted" meta veri özelliğine sahip bir dosyanın silinmesini dikkate alır:

    PUT https://[service name].search.windows.net/datasources/file-datasource?api-version=2024-05-01-preview
    {
        "name" : "onelake-datasource",
        "type" : "onelake",
         "credentials": {  
            "connectionString": "ResourceId={FabricWorkspaceGuid}"  
        },  
        "container": {  
            "name": "{lakehouseGuid}",  
            "query": "{optionalLakehouseFolderOrShortcut}"  
        },  
        "dataDeletionDetectionPolicy" : {
            "@odata.type" :"#Microsoft.Azure.Search.SoftDeleteColumnDeletionDetectionPolicy",
            "softDeleteColumnName" : "IsDeleted",
            "softDeleteMarkerValue" : "true"
        }
    }
    

Dizin oluşturucu çalıştırılıp belgeyi arama dizininden sildikten sonra, veri gölündeki fiziksel dosyayı silebilirsiniz.

Bazı önemli noktalar şunlardır:

  • Dizin oluşturucu çalıştırmasını zamanlamak bu işlemi otomatikleştirmeye yardımcı olur. Tüm artımlı dizin oluşturma senaryoları için zamanlamalar öneririz.

  • Silme algılama ilkesi ilk dizin oluşturucu çalıştırması üzerinde ayarlanmadıysa, güncelleştirilmiş yapılandırmayı okuyabilmesi için dizin oluşturucuyu sıfırlamanız gerekir.

  • Silme algılamanın özel meta veri bağımlılığı nedeniyle Amazon S3 ve Google Cloud Storage kısayolları için desteklenmediğini unutmayın.

Dizine arama alanları ekleme

Arama dizininde, OneLake data lake dosyalarınızın içeriğini ve meta verilerini kabul etmek için alanlar ekleyin.

  1. Dosya içeriğini ve meta verileri depolayan arama alanlarını tanımlamak için dizin oluşturun veya güncelleştirin:

    {
        "name" : "my-search-index",
        "fields": [
            { "name": "ID", "type": "Edm.String", "key": true, "searchable": false },
            { "name": "content", "type": "Edm.String", "searchable": true, "filterable": false },
            { "name": "metadata_storage_name", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_size", "type": "Edm.Int64", "searchable": false, "filterable": true, "sortable": true  },
            { "name": "metadata_storage_content_type", "type": "Edm.String", "searchable": false, "filterable": true, "sortable": true }     
        ]
    }
    
  2. Belge anahtarı alanı oluşturma ("anahtar": true). Dosya içeriği için en iyi adaylar meta veri özellikleridir.

    • metadata_storage_path (varsayılan) nesnenin veya dosyanın tam yolu. Bu örnekteki anahtar alanı ("Kimlik") varsayılan değer olduğundan metadata_storage_path değerleriyle doldurulur.

    • metadata_storage_name, yalnızca adlar benzersizse kullanılabilir. Bu alanın anahtar olarak olmasını istiyorsanız, bu alan tanımına gidin "key": true .

    • Dosyalarınıza eklediğiniz özel meta veri özelliği. Bu seçenek, dosya yükleme işleminizin bu meta veri özelliğini tüm bloblara eklemesini gerektirir. Anahtar gerekli bir özellik olduğundan, değeri eksik olan dosyalar dizine alınamaz. Anahtar olarak özel meta veri özelliği kullanıyorsanız, bu özellikte değişiklik yapmaktan kaçının. Anahtar özelliği değişirse dizin oluşturucular aynı dosya için yinelenen belgeler ekler.

    Meta veri özellikleri genellikle ve -gibi / belge anahtarları için geçersiz karakterler içerir. Dizin oluşturucunun "base64EncodeKeys" özelliği (varsayılan olarak true) olduğundan, meta veri özelliğini otomatik olarak kodlar; yapılandırma veya alan eşlemesi gerekmez.

  3. Dosyanın "content" özelliği aracılığıyla her dosyadan ayıklanan metni depolamak için bir "içerik" alanı ekleyin. Bu adı kullanmanız gerekmez, ancak bunu yaptığınızda örtük alan eşlemelerinden yararlanabilirsiniz.

  4. Standart meta veri özellikleri için alanlar ekleyin. Dizin oluşturucu özel meta veri özelliklerini, standart meta veri özelliklerini ve içeriğe özgü meta veri özelliklerini okuyabilir.

OneLake dosyaları dizin oluşturucusunu yapılandırma ve çalıştırma

Dizin ve veri kaynağı oluşturulduktan sonra dizin oluşturucuyu oluşturmaya hazır olursunuz. Dizin oluşturucu yapılandırması, çalışma zamanı davranışlarını denetleen girişleri, parametreleri ve özellikleri belirtir. Bir blobun hangi bölümlerinin dizine ekleneceğini de belirtebilirsiniz.

  1. Dizin oluşturucuya bir ad verip veri kaynağına ve hedef dizine başvurarak dizin oluşturucu oluşturun veya güncelleştirin:

    {
      "name" : "my-onelake-indexer",
      "dataSourceName" : "my-onelake-datasource",
      "targetIndexName" : "my-search-index",
      "parameters": {
          "batchSize": null,
          "maxFailedItems": null,
          "maxFailedItemsPerBatch": null,
          "base64EncodeKeys": null,
          "configuration": {
              "indexedFileNameExtensions" : ".pdf,.docx",
              "excludedFileNameExtensions" : ".png,.jpeg",
              "dataToExtract": "contentAndMetadata",
              "parsingMode": "default"
          }
      },
      "schedule" : { },
      "fieldMappings" : [ ]
    }
    
  2. Varsayılan (10 belge) kullanılabilir kaynakları kullanıyor veya bunaltıyorsa "batchSize" değerini ayarlayın. Varsayılan toplu iş boyutları veri kaynağına özeldir. Dosya dizin oluşturma, daha büyük ortalama belge boyutunun tanınması için toplu iş boyutunu 10 belge olarak ayarlar.

  3. "yapılandırma" altında, hangi dosyaların dosya türüne göre dizine alınıp alınamayanları denetleyin veya tüm dosyaları almak için belirtilmemiş bırakın.

    için "indexedFileNameExtensions", dosya uzantılarının virgülle ayrılmış bir listesini sağlayın (baştaki noktayla). Hangi uzantıların atlanması gerektiğini belirtmek için "excludedFileNameExtensions" de aynısını yapın. Aynı uzantı her iki listede de yer alırsa dizin oluşturmanın dışında tutulur.

  4. "configuration" altında, dosyaların hangi bölümlerinin dizine eklendiğini denetlemek için "dataToExtract" değerini ayarlayın:

    • "contentAndMetadata" varsayılan değerdir. Dosyadan ayıklanan tüm meta verilerin ve metin içeriğinin dizine alındığını belirtir.

    • "storageMetadata", yalnızca standart dosya özelliklerinin ve kullanıcı tarafından belirtilen meta verilerin dizine alındığını belirtir. Özellikler Azure blobları için belgelenmiş olsa da, SAS ile ilgili meta veriler dışında dosya özellikleri OneLkae için aynıdır.

    • "allMetadata", standart dosya özelliklerinin ve bulunan içerik türleri için meta verilerin dosya içeriğinden ayıklandığını ve dizine alındığını belirtir.

  5. "configuration" altında, dosyaların birden çok arama belgesine eşlenmesi gerekiyorsa veya düz metin, JSON belgeleri veya CSV dosyalarından oluşuyorsa "parsingMode" ayarını yapın.

  6. Alan adında veya türünde farklılıklar varsa veya arama dizininde bir kaynak alanın birden çok sürümüne ihtiyacınız varsa alan eşlemelerini belirtin.

    Dizin oluşturucunun "içerik" ve meta veri özelliklerini dizindeki benzer adlandırılmış ve yazılan alanlarla eşlemeye yönelik yerleşik desteği olduğundan, dosya dizin oluşturmada alan eşlemelerini atlayabilirsiniz. Meta veri özellikleri için dizin oluşturucu, kısa çizgileri - otomatik olarak arama dizinindeki alt çizgilerle değiştirir.

Diğer özellikler hakkında daha fazla bilgi için Dizin oluşturucu oluşturun. Parametre açıklamalarının tam listesi için bkz . REST API'deki Blob yapılandırma parametreleri . Parametreler OneLake için aynıdır.

Varsayılan olarak, bir dizin oluşturucu oluşturduğunuzda otomatik olarak çalışır. "Devre dışı" ayarını true olarak ayarlayarak bu davranışı değiştirebilirsiniz. Dizin oluşturucu yürütmesini denetlemek için isteğe bağlı olarak bir dizin oluşturucu çalıştırın veya zamanlamaya yerleştirin.

Dizin oluşturucu durumunu denetleme

Dizin oluşturucu durumunu ve yürütme geçmişini izlemek için burada birden çok yaklaşım öğrenin.

Hataları işleme

Dizin oluşturma sırasında sık karşılaşılan hatalar desteklenmeyen içerik türleri, eksik içerik veya büyük harfli dosyalardır. Varsayılan olarak, OneLake dosyaları dizin oluşturucu desteklenmeyen içerik türüne sahip bir dosyayla karşılaştığında durur. Ancak, hatalar oluşsa bile dizin oluşturma işleminin devam edip daha sonra tek tek belgelerde hata ayıklamasını isteyebilirsiniz.

Geçici hatalar, birden çok platform ve ürün içeren çözümlerde yaygındır. Ancak, dizin oluşturucuyu bir zamanlamaya göre tutarsanız (örneğin, 5 dakikada bir), dizin oluşturucu aşağıdaki çalıştırmada bu hatalardan kurtarabilmelidir.

Hatalar oluştuğunda dizin oluşturucunun yanıtını denetleyebilen beş dizin oluşturucu özelliği vardır.

{
  "parameters" : { 
    "maxFailedItems" : 10, 
    "maxFailedItemsPerBatch" : 10,
    "configuration" : { 
        "failOnUnsupportedContentType" : false, 
        "failOnUnprocessableDocument" : false,
        "indexStorageMetadataOnlyForOversizedDocuments": false
    }
  }
}
Parametre Geçerli değerler Açıklama
"maxFailedItems" -1, null veya 0, pozitif tamsayı Blobları ayrıştırırken veya dizine belge eklerken herhangi bir işlem noktasında hata oluşursa dizine eklemeye devam edin. Bu özellikleri kabul edilebilir hata sayısına ayarlayın. değeri -1 , kaç hata olursa olsun işlemeye izin verir. Aksi takdirde, değer pozitif bir tamsayıdır.
"maxFailedItemsPerBatch" -1, null veya 0, pozitif tamsayı Yukarıdakiyle aynıdır, ancak toplu dizin oluşturma için kullanılır.
"failOnUnsupportedContentType" true veya false Dizin oluşturucu içerik türünü belirleyemezse, işe devam etmek mi yoksa başarısız mı olmak istediğinizi belirtin.
"failOnUnprocessableDocument" true veya false Dizin oluşturucu, başka bir şekilde desteklenen içerik türündeki bir belgeyi işleyemiyorsa, işe devam edilip edilmeyeceğini veya başarısız olup olmayacağını belirtin.
"indexStorageMetadataOnlyForOversizedDocuments" true veya false Büyük büyük bloblar varsayılan olarak hata olarak değerlendirilir. Bu parametreyi true olarak ayarlarsanız, dizin oluşturucu içerik dizine alınamıyor olsa bile meta verilerini dizine almaya çalışır. Blob boyutuyla ilgili sınırlar için bkz . Hizmet Sınırları.

Sonraki adımlar

Verileri içeri aktarma ve vektörleştirme sihirbazının nasıl çalıştığını gözden geçirin ve bu dizin oluşturucu için deneyin. Varsayılan şemayı kullanarak vektör veya karma arama için eklemeleri öbekleyip oluşturmak için tümleşik vektörleştirmeyi kullanabilirsiniz.