Vytvoření nebo aktualizace indexeru (ROZHRANÍ REST API verze Preview)

Platí pro: 2023-07-01-Preview, 2021-04-30-Preview, 2020-06-30-Preview

Důležité

2023-07-01-Preview (beze změn)

Verze 2021-04-30-Preview přidává podporu spravovaných identit pro mezipaměť rozšiřování a šifrovací klíče:

  • StorageConnectionString přijímá ID prostředku pro připojení spravované identity přiřazené systémem ke službě Azure Storage. Tato vlastnost je v mezipaměti. Spravovaná identita přiřazená uživatelem se nepodporuje.
  • Identita přijímá spravovanou identitu přiřazenou uživatelem.

Verze 2020-06-30-Preview přidává:

Indexer automatizuje indexování z podporovaných zdrojů dat tím, že se připojí k předdefinovanému zdroji dat, načte a serializuje data a předá je vyhledávací službě pro příjem dat. Pro rozšíření obrázků a nestrukturovaného textu pomocí umělé inteligence můžou indexery také přijmout sadu dovedností , která přidává zpracování obrázků a přirozeného jazyka.

U žádosti o vytvoření můžete použít post nebo PUT. U obou z nich text požadavku poskytuje definici objektu.

POST https://[service name].search.windows.net/indexers?api-version=[api-version]
    Content-Type: application/json  
    api-key: [admin key]  

Pro žádosti o aktualizaci použijte PUT a zadejte název indexeru v identifikátoru URI.

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=[api-version]
    Content-Type: application/json  
    api-key: [admin key]    

Https se vyžaduje pro všechny žádosti o služby. Pokud indexer neexistuje, vytvoří se. Pokud už existuje, aktualizuje se na novou definici, ale pokud chcete spustit indexer, musíte vydat požadavek spustit indexer .

Vytvoření indexeru ho přidá do vyhledávací služby a spustí ho. Pokud je požadavek úspěšný, naplní se index prohledávatelným obsahem ze zdroje dat.

Aktualizace indexeru nespustí automaticky, ale v závislosti na vašich úpravách a přidruženém zdroji dat se může vyžadovat resetování a opětovné spuštění. Při aktualizaci existujícího indexeru se celá definice nahradí obsahem textu požadavku. Obecně platí, že nejlepší způsob, jak použít pro aktualizace, je načíst definici indexeru pomocí get, upravit ji a pak ji aktualizovat pomocí PUT.

Konfigurace indexeru se liší v závislosti na typu zdroje dat. Pokyny k vytváření indexerů pro konkrétní datovou platformu najdete v tématu Přehled indexerů, který obsahuje úplný seznam souvisejících článků.

Poznámka

Maximální počet indexerů, které můžete vytvořit, se liší podle cenové úrovně. Další informace najdete v tématu Limity služeb pro Azure AI Search.

Parametry identifikátoru URI

Parametr Popis
název služby Povinná hodnota. Nastavte ho na jedinečný uživatelsky definovaný název vaší vyhledávací služby.
název indexeru Vyžaduje se u identifikátoru URI, pokud používáte PUT. Název musí mít malá písmena, musí začínat písmenem nebo číslicí, nesmí mít lomítka ani tečky a nesmí obsahovat méně než 128 znaků. Jakmile začnete jméno písmenem nebo číslem, může zbytek názvu obsahovat libovolné písmeno, číslo a pomlčky, pokud pomlčky nejsou po sobě jdoucí.
verze-api Povinná hodnota. Aktuální verze Preview je 2023-07-01-Preview. Další verze najdete v tématu Verze rozhraní API .

Hlavičky požadavku

Následující tabulka popisuje požadované a volitelné hlavičky požadavků.

Pole Description
Typ obsahu Povinná hodnota. Nastavte tuto možnost na application/json
api-key Volitelné, pokud používáte role Azure a v požadavku je k dispozici nosný token, jinak se vyžaduje klíč. Klíč api-key je jedinečný systémově vygenerovaný řetězec, který ověřuje požadavek pro vaši vyhledávací službu. Požadavky na vytvoření musí obsahovat hlavičku nastavenou api-key na klíč správce (na rozdíl od klíče dotazu). Podrobnosti najdete v tématu Připojení ke službě Azure AI Search pomocí ověřování pomocí klíče .

Text požadavku

Zdroj dat, index a sada dovedností jsou součástí definice indexeru, ale každá z nich je nezávislá komponenta, kterou lze použít v různých kombinacích. Můžete například použít stejný zdroj dat s více indexery nebo stejný index s více indexery nebo více indexerů zapisujících do jednoho indexu.

Následující kód JSON představuje základní reprezentaci hlavních částí definice.

{   
    "name" : (optional on PUT; required on POST) "Name of the indexer",  
    "description" : (optional) "Anything you want, or nothing at all", 
    "dataSourceName" : (required) "Name of an existing data source",  
    "targetIndexName" : (required) "Name of an existing index",  
    "skillsetName" : (required for AI enrichment) "Name of an existing skillset",
    "cache":  { ... },
    "schedule" : (optional but runs once immediately if unspecified) { ... },  
    "parameters" : (optional) {
        "batchSize": null,
        "maxFailedItems": 0,
        "maxFailedItemsPerBatch": 0,
        "base64EncodeKeys": null,
        "configuration": { }
    },
    "fieldMappings" : (optional) { ... },
    "outputFieldMappings" : (required for AI enrichment) { ... },
    "encryptionKey":(optional) { },
    "disabled" : (optional) Boolean value indicating whether the indexer is disabled. False by default.
}  

Požadavek obsahuje následující vlastnosti:

Vlastnost Popis
name Povinná hodnota. Název musí mít malá písmena, musí začínat písmenem nebo číslicí, nesmí mít lomítka ani tečky a nesmí obsahovat méně než 128 znaků. Jakmile začnete jméno písmenem nebo číslem, může zbytek názvu obsahovat libovolné písmeno, číslo a pomlčky, pokud pomlčky nejsou po sobě jdoucí.
description Nepovinný parametr. Popis indexeru.
dataSourceName Povinná hodnota. Název existujícího zdroje dat, který poskytuje informace o připojení a další vlastnosti.
targetIndexName Povinná hodnota. Název existujícího indexu.
skillsetName Vyžaduje se pro rozšiřování AI. Název existující sady dovedností.
Mezipaměti Volitelné pro rozšiřování AI umožňuje opakované použití nezměněných dokumentů.
Plán Volitelné, ale spustí se jednou okamžitě, pokud není zadáno.
parameters Nepovinný parametr. Vlastnosti pro úpravu chování za běhu.
fieldMappings Nepovinný parametr. Používá se v případech, kdy zdrojová a cílová pole mají různé názvy.
outputFieldMappings Vyžaduje se pro rozšiřování AI. Mapuje výstup ze sady dovedností na index nebo projekci.
šifrovací klíč Nepovinný parametr. Používá se k šifrování neaktivních uložených dat indexeru pomocí vlastních klíčů spravovaných v Azure Key Vault. Další informace najdete v tématu Šifrování služby Azure AI Search pomocí klíčů spravovaných zákazníkem v Azure Key Vault.
zakázaný Nepovinný parametr. Logická hodnota označující, jestli je indexer zakázaný. Ve výchozím nastavení je false.

Odpověď

201 Vytvořeno pro úspěšný požadavek.

Příklady

Příklad: Textový indexer s plánem a parametrem

Tento příklad vytvoří indexer, který zkopíruje data z tabulky, na kterou order-sds odkazuje zdroj dat, do indexu orders-idx podle plánu, který začíná 1. ledna 2022 UTC a běží každou hodinu. Každé vyvolání indexeru bude úspěšné, pokud se v každé dávce nepodaří indexovat více než 5 položek a celkem nebude indexováno více než 10 položek. Mapování polí poskytuje cestu k datům, když se názvy polí a typy neshodují.

{
    "name" : "myindexer",  
    "description" : "a cool indexer",  
    "dataSourceName" : "orders-ds",  
    "targetIndexName" : "orders-idx", 
    "fieldMappings" : [
      {
          "sourceFieldName" : "content",
          "targetFieldName" : "sourceContent"
      }
    ], 
    "schedule" : { "interval" : "PT1H", "startTime" : "2022-01-01T00:00:00Z" },  
    "parameters" : { "maxFailedItems" : 10, "maxFailedItemsPerBatch" : 5 }  
}

Příklad: Indexer sady dovedností

Tento příklad ukazuje rozšíření AI označené odkazem na sadu dovedností a outputFieldMappings, které mapují výstupy dovedností na pole ve vyhledávacím indexu. Sady dovedností jsou základní zdroje definované samostatně.

Novinka v této verzi Preview, která se vztahuje pouze na sady dovedností, můžete zadat vlastnost mezipaměti pro opakované použití dokumentů, které nejsou ovlivněny změnami v definici sady dovedností.

{
  "name":"demo-indexer",	
  "dataSourceName" : "demo-data",
  "targetIndexName" : "demo-index",
  "skillsetName" : "demo-skillset",
  "cache" : 
    {
      "storageConnectionString" : "DefaultEndpointsProtocol=https;AccountName=<storage-account-name>;AccountKey=<storage-account-key>;EndpointSuffix=core.windows.net",
      "enableReprocessing": true
    },
  "fieldMappings" : [ ],
  "outputFieldMappings" : 
  [
    {
        "sourceFieldName" : "/document/organizations", 
        "targetFieldName" : "organizations"
    },
  ],
  "parameters":
  {
  	"maxFailedItems":-1,
  	"configuration": 
    {
    "dataToExtract": "contentAndMetadata",
    "imageAction": "generateNormalizedImages"
    }
  }
}

Příklad: Mezipaměť rozšíření o připojení spravované identity

Tento příklad ukazuje formát připojovací řetězec při použití Azure Active Directory k ověřování. Vyhledávací služba musí být nakonfigurovaná tak, aby používala spravovanou identitu. Identita musí mít oprávnění Přispěvatel dat v objektech blob služby Storage, aby ji bylo možné zapisovat do mezipaměti. připojovací řetězec je jedinečné ID prostředku vašeho účtu úložiště a musí obsahovat kontejner použitý k uložení obohacení v mezipaměti.

{
  "name":"demo-indexer",
  "dataSourceName" : "demodata-ds",
  "targetIndexName" : "demo-index",
  "skillsetName" : "demo-skillset",
  "cache" : 
    {
      "storageConnectionString" : "ResourceId=/subscriptions/<subscription-ID>/resourceGroups/<resource-group-name>/providers/Microsoft.Storage/storageAccounts/<storage-account-name>/<container-name>;",
      "enableReprocessing": true
    },
  "fieldMappings" : [  ],
  "outputFieldMappings" :  [  ],
  "parameters": {  }
}

Definice

Odkaz Description
Mezipaměti Konfiguruje ukládání do mezipaměti pro rozšiřování AI a spouštění sad dovedností.
šifrovací klíč Nakonfiguruje připojení k Azure Key Vault pro šifrování spravované zákazníkem.
fieldMappings Mapování polí od zdroje k cíli pro pole, která se neshodují podle názvu a typu.
outputFieldMappings Mapuje uzly v rozšířeném dokumentu na pole v indexu. Vyžaduje se, pokud používáte sady dovedností.
parameters Nakonfiguruje indexer. Parametry zahrnují obecné parametry a parametry specifické pro zdroj.
Plán Určuje interval a frekvenci naplánovaného provádění indexeru.

mezipaměť (Preview)

Přírůstkové indexování je možnost opakovaně používat rozšířené dokumenty v mezipaměti při zpracování sady dovedností. Nejběžnějším scénářem je opakované použití OCR nebo analýzy obrázků u souborů obrázků, což může být nákladné a časově náročné na zpracování.

"cache" : 
  {
    "storageConnectionString" : "<YOUR-STORAGE-ACCOUNT-CONNECTION-STRING>",
    "enableReprocessing": true
  }

Objekt mezipaměti má požadované a volitelné vlastnosti.

Vlastnost Popis
storageConnectionString Povinná hodnota. Určuje účet úložiště použitý k ukládání průběžných výsledků do mezipaměti. Pomocí účtu, který zadáte, vyhledávací služba vytvoří kontejner objektů blob s ms-az-search-indexercache předponou a doplněný identifikátorem GUID jedinečným pro indexer. Musí být nastavený na úplný přístup připojovací řetězec, který obsahuje klíč, nebo jedinečné ID prostředku vašeho účtu úložiště pro požadavky, které se ověřují pomocí Azure AD.

Pokud chcete ověřovat prostřednictvím Azure AD, musí být vyhledávací služba nakonfigurovaná tak, aby používala spravovanou identitu, a tato identita musí mít oprávnění Přispěvatel dat v objektech blob služby Storage.
enableReprocessing Nepovinný parametr. Logická vlastnost (true ve výchozím nastavení) pro řízení zpracování příchozích dokumentů, které jsou již v mezipaměti zastoupeny. Když true je (výchozí), dokumenty, které už jsou v mezipaměti, se znovu zpracují při opětovném spuštění indexeru za předpokladu, že vaše aktualizace dovedností ovlivní daný dokument. Při falsese stávající dokumenty znovu nezpracují, čímž se ve skutečnosti upřednostní nový příchozí obsah před existujícím obsahem. Na hodnotu byste měli nastavit enableReprocessingfalse pouze dočasně. Pokud chcete zajistit konzistenci v celém korpusu, enableReprocessing mělo by to být ve většině případů a mělo by se true zajistit, aby všechny nové i existující dokumenty byly platné podle aktuální definice sady dovedností.
ID Jen pro čtení. Generuje se po vytvoření mezipaměti. Je ID identifikátor kontejneru v rámci účtu úložiště, který se použije jako mezipaměť pro tento indexer. Tato mezipaměť bude pro tento indexer jedinečná, a pokud se indexer odstraní a znovu vytvoří se stejným názvem, ID vygeneruje se znovu. Nejde ID nastavit, služba ho vždy vygeneruje.

schedule

Indexer může volitelně zadat plán. Bez plánu se indexer spustí okamžitě po odeslání požadavku: připojení ke zdroji dat, procházení a indexování zdroje dat. V některých scénářích, včetně dlouhotrvajících úloh indexování, se plány používají k prodloužení časového intervalu zpracování nad rámec maximálního 24hodinového intervalu. Pokud existuje plán, indexer se pravidelně spouští podle plánu. Plánovač je integrovaný; nemůžete použít externí plánovač. Plán má následující atributy:

  • interval: Povinné. Hodnota doby trvání, která určuje interval nebo období spuštění indexeru. Nejmenší povolený interval je pět minut; nejdelší je jeden den. Musí být formátovaná jako hodnota XSD "dayTimeDuration" (omezená podmnožina hodnoty doby trvání ISO 8601 ). Vzor: "P[nD][T[nH][nM]]". Příklady: PT15M každých 15 minut, PT2H každé 2 hodiny.

  • startTime: Volitelné. Datum a čas UTC, kdy by měl indexer začít běžet.

Poznámka

Pokud je indexer nastavený na určitý plán, ale opakovaně selhává ve stejném dokumentu pokaždé, když se spustí, začne indexer běžet v méně častém intervalu (maximálně jednou za 24 hodin), dokud úspěšně nepoběží znovu. Pokud se domníváte, že jste vyřešili jakýkoliv problém, který způsoboval zablokování indexeru v určitém okamžiku, můžete spustit indexer na vyžádání, a pokud se to podaří, indexer se znovu vrátí do nastaveného naplánovaného intervalu.

parameters

Indexer může volitelně převzít konfigurační parametry, které upravují chování modulu runtime. Konfigurační parametry jsou v požadavku indexeru oddělené čárkami.

{
  "name" : "my-blob-indexer-for-cognitive-search",
  ... other indexer properties
  "parameters" : { 
        "batchSize": null,
        "maxFailedItems": 0,
        "maxFailedItemsPerBatch": 0,
        "base64EncodeKeys": null,
        "configuration" : { 
            "parsingMode" : "json", 
            "indexedFileNameExtensions" : ".json, .jpg, .png", 
            "imageAction" : "generateNormalizedImages", 
            "dataToExtract" : "contentAndMetadata" } }
}

Obecné parametry pro všechny indexery

Parametr Typ a povolené hodnoty Využití
"batchSize" Integer
Výchozí hodnota je specifická pro zdroj (1000 pro Azure SQL Database a Azure Cosmos DB, 10 pro Azure Blob Storage)
Určuje počet položek, které se načtou ze zdroje dat a indexují jako jedna dávka, aby se zlepšil výkon.
"maxFailedItems" Integer
Výchozí hodnota je 0.
Počet chyb, které se mají tolerovat před spuštěním indexeru, se považuje za selhání. Pokud nechcete, aby proces indexování zastavily žádné chyby, nastavte hodnotu -1. Informace o neúspěšných položkách můžete načíst pomocí možnosti Získat stav indexeru.
"maxFailedItemsPerBatch" Integer
Výchozí hodnota je 0.
Počet chyb, které se mají tolerovat v každé dávce před spuštěním indexeru, se považuje za selhání. Pokud nechcete, aby proces indexování zastavily žádné chyby, nastavte hodnotu -1.
"base64EncodeKeys" Logická hodnota
Výchozí hodnota je true
Platné hodnoty jsou null, true nebo false. Pokud je nastavená hodnota false, indexer nebude automaticky kódovat hodnoty pole určeného jako klíč dokumentu na základě base64. Nastavení této vlastnosti eliminuje nutnost zadat funkci mapování, která kóduje hodnoty klíčů (například pomlčky), které jinak nejsou v klíči dokumentu platné(například pomlčky).

Parametry konfigurace objektu blob

Několik parametrů je výhradních pro konkrétní indexer, například indexování objektů blob Azure.

Parametr Typ a povolené hodnoty Využití
"parsingMode" Řetězec
"text"
"delimitedText"
"json"
"jsonArray"
"jsonLines"
Pro objekty blob Azure nastavte na text , abyste zlepšili výkon indexování souborů ve formátu prostého textu ve službě Blob Storage.
Pro objekty blob sdíleného svazku clusteru nastavte na hodnotu delimitedText , kdy jsou objekty blob prostými soubory CSV.
Pro objekty blob JSON nastavte na json extrahování strukturovaného obsahu nebo na extrahování jsonArray jednotlivých prvků pole jako samostatných dokumentů ve službě Azure AI Search. Slouží jsonLines k extrakci jednotlivých entit JSON oddělených novým řádkem jako samostatných dokumentů ve službě Azure AI Search.
"excludedFileNameExtensions" Řetězec
Seznam oddělený čárkami
definované uživatelem
V případě objektů blob Azure ignorujte všechny typy souborů v seznamu. Můžete například vyloučit ".png, .png, .mp4" a přeskočit tyto soubory během indexování.
"indexedFileNameExtensions" Řetězec
Seznam oddělený čárkami
definované uživatelem
V případě objektů blob Azure vybere objekty blob, pokud je přípona souboru v seznamu. Indexování můžete například zaměřit na konkrétní soubory aplikace ".docx, .pptx, .msg", aby se zahrnuly konkrétně tyto typy souborů.
"failOnUnsupportedContentType" Logická hodnota
true
false (výchozí)
Pro objekty blob Azure nastavte na , false pokud chcete pokračovat v indexování, když se zjistí nepodporovaný typ obsahu a neznáte předem všechny typy obsahu (přípony souborů).
"failOnUnprocessableDocument" Logická hodnota
true
false (výchozí)
Pro objekty blob Azure nastavte na , false pokud chcete pokračovat v indexování, pokud se indexování dokumentu nezdaří.
"indexStorageMetadataOnly
ForOversizedDocuments"
Logická hodnota true
false (výchozí)
V případě objektů blob Azure nastavte tuto vlastnost na , true aby se stále indexují metadata úložiště pro obsah objektů blob, který je příliš velký na zpracování. Objekty blob naddimenzované jsou ve výchozím nastavení považovány za chyby. Omezení velikosti objektu blob najdete v tématu Limity služby.
"delimitedTextHeaders" Řetězec
Seznam oddělený čárkami
definované uživatelem
Pro objekty blob CSV určuje seznam záhlaví sloupců oddělených čárkami, který je užitečný pro mapování zdrojových polí na cílová pole v indexu.
"delimitedTextDelimiter" Řetězec
Jeden znak
definované uživatelem
U objektů blob sdíleného svazku clusteru určuje oddělovač konce řádku pro soubory CSV, kde každý řádek začíná nový dokument (například "|").
"firstLineContainsHeaders" Logická hodnota
true (výchozí)
false (nepravda)
U objektů blob sdíleného svazku clusteru označuje, že první (neprázdný) řádek každého objektu blob obsahuje hlavičky.
"documentRoot" Řetězec
Cesta definovaná uživatelem
U polí JSON můžete u strukturovaného nebo částečně strukturovaného dokumentu určit cestu k poli pomocí této vlastnosti.
"dataToExtract" Řetězec
"storageMetadata"
"allMetadata"
"contentAndMetadata" (výchozí)
Objekty blob Azure:
Pokud chcete indexovat jenom standardní vlastnosti objektu blob a metadata zadaná uživatelem, nastavte na "storageMetadata" hodnotu .
Nastavte na , "allMetadata" aby se extrahovali metadata poskytovaná subsystémem Úložiště objektů blob v Azure a indexují se metadata specifická pro obsah (například metadata jedinečná jenom pro .png soubory).
Pokud chcete extrahovat všechna metadata a textový obsah z každého objektu blob, nastavte na "contentAndMetadata" hodnotu .

Pokud je při analýze obrázků v rozšiřování"imageAction" AI nastavená na jinou hodnotu než "none", "dataToExtract" nastavení říká indexeru, která data se mají extrahovat z obsahu obrázku. Platí pro vložený obsah obrázku v .PDF nebo jiné aplikaci nebo soubory obrázků, jako jsou .jpg a .png, v objektech blob Azure.
"imageAction" Řetězec
"none"
"generateNormalizedImages"
"generateNormalizedImagePerPage"
U objektů blob Azure nastavte na ,"none" aby se ignorovaly vložené obrázky nebo soubory obrázků v datové sadě. Tato možnost je výchozí.

Pro analýzu obrázků v rozšiřování AI nastavte na"generateNormalizedImages" extrahování textu z obrázků (například slovo stop ze značky zastavení provozu) a vložte ho jako součást pole obsahu. Během analýzy obrázků indexer vytvoří pole normalizovaných obrázků jako součást prolomení dokumentu a vygenerované informace vloží do pole obsahu. Tato akce vyžaduje, aby "dataToExtract" byla nastavená na "contentAndMetadata"hodnotu . Normalizovaný obrázek odkazuje na další zpracování, jehož výsledkem je rovnoměrný výstup obrázku, jeho velikost a otočení, aby se podpořilo konzistentní vykreslování při zahrnutí obrázků do vizuálních výsledků hledání (například obrázky stejné velikosti v ovládacím prvku grafu, jak je vidět v ukázce JFK). Při použití této možnosti se tyto informace vygenerují pro každou image.

Pokud nastavíte na "generateNormalizedImagePerPage", se soubory PDF budou zacházet jinak v tom, že místo extrahování vložených obrázků se každá stránka vykresluje jako obrázek a odpovídajícím způsobem normalizuje. S typy souborů bez PDF se bude zacházet stejně, jako kdyby "generateNormalizedImages" byly nastaveny.

"imageAction" Nastavení konfigurace na jinou hodnotu než "none" vyžaduje, aby byla k danému indexeru připojena také sada dovedností.
"normalizedImageMaxWidth"
"normalizedImageMaxHeight"
Jakékoli celé číslo mezi 50 až 10000 Maximální šířka nebo výška (v pixelech) pro normalizované obrázky vygenerované při "imageAction" nastavení . Výchozí hodnota je 2000.

Výchozí hodnota 2 000 pixelů pro normalizovanou maximální šířku a výšku obrázků vychází z maximální velikosti podporované schopností OCR a schopností analýzy obrázků. Schopnost OCR podporuje maximální šířku a výšku 4200 pro neanglické jazyky a 10 000 pro angličtinu. Pokud maximální limity zvýšíte, může zpracování větších obrázků selhat v závislosti na definici sady dovedností a jazyce dokumentů.
"allowSkillsetToReadFileData" Logická hodnota
true
false (výchozí)
Nastavením parametru "allowSkillsetToReadFileData" na vytvoříte true cestu /document/file_data , která je objektem představujícím data původního souboru stažená ze zdroje dat objektů blob. To vám umožní předat původní data souboru vlastní dovednosti ke zpracování v rámci kanálu pro rozšiřování nebo dovednosti extrakce dokumentů. Vygenerovaný objekt bude definován takto: { "$type": "file", "data": "BASE64 encoded string of the file" }

Nastavení parametru "allowSkillsetToReadFileData" na hodnotu true vyžaduje, aby k indexeru byla připojena sada dovedností , aby "parsingMode" parametr byl nastaven na "default"hodnotu nebo "text""json"a "dataToExtract" parametr byl nastaven na "contentAndMetadata" hodnotu nebo "allMetadata".
"pdfTextRotationAlgorithm" Řetězec
"none" (výchozí)
"detectAngles"
Nastavení parametru "pdfTextRotationAlgorithm" na "detectAngles" hodnotu může pomoct zajistit lepší a čitelnější extrakci textu ze souborů PDF, které v nich otočily text. Všimněte si, že při použití tohoto parametru může mít malý dopad na rychlost výkonu. Tento parametr platí jenom pro soubory PDF a jenom pro soubory PDF s vloženým textem. Pokud se otočený text zobrazí ve vloženém obrázku v PDF, tento parametr se nepoužije.

Nastavení parametru "pdfTextRotationAlgorithm" na hodnotu "detectAngles" vyžaduje, aby byl "parsingMode" parametr nastavený na "default"hodnotu .

Parametry konfigurace služby Azure Cosmos DB

Následující parametry jsou specifické pro indexery cosmos DB.

Parametr Typ a povolené hodnoty Využití
"assumeOrderByHighWaterMarkColumn" Logická hodnota U indexerů cosmos DB s rozhraním SQL API nastavte tento parametr, abyste službě Cosmos DB naznačili, že dotaz použitý k vrácení dokumentů k indexování je ve skutečnosti seřazený podle _ts sloupce. Nastavením tohoto parametru získáte lepší výsledky pro scénáře přírůstkového indexování.

Azure SQL konfiguračních parametrů

Následující parametry jsou specifické pro Azure SQL Database.

Parametr Typ a povolené hodnoty Využití
"queryTimeout" Řetězec
"hh:mm:ss"
"00:05:00"
Nastavením tohoto parametru přepíšete výchozí 5minutovou hodnotu.
"convertHighWaterMarkToRowVersion" Logická hodnota Nastavte tento parametr na "true", pokud chcete pro sloupec horní meze použít datový typ rowversion. Pokud je tato vlastnost nastavena na hodnotu true, indexer odečte jednu z hodnoty rowversion před spuštěním indexeru. Dělá to proto, že zobrazení se spojeními 1:N můžou obsahovat řádky s duplicitními hodnotami rowversion. Odečtením hodnoty zajistíte, že dotaz indexeru tyto řádky neunikne.
"disableOrderByHighWaterMarkColumn" Logická hodnota Pokud chcete zakázat chování ORDER BY v dotazu používaném k detekci změn, nastavte tento parametr na hodnotu true. Pokud používáte zásadu detekce změn horní meze, indexer pomocí klauzulí WHERE a ORDER BY sleduje, které řádky potřebují indexování (WHERE [High Water Mark Column] > [Current High Water Mark Value] ORDER BY [High Water Mark Column]). Tento parametr zakáže chování ORDER BY. Indexování se dokončí rychleji, ale kompromis spočívá v tom, že pokud je indexer z nějakého důvodu přerušen, musí se celá úloha indexeru opakovat v plném rozsahu.

fieldMappings

Vytvořte je, když se názvy nebo typy polí zdroje a cíle neshodují nebo když chcete zadat funkci. Při mapování polí se nerozlišují malá a velká písmena. Viz Definování mapování polí.

Atribut Popis
sourceFieldName Povinná hodnota. Název zdrojového sloupce
targetFieldName Povinná hodnota. Název odpovídajícího pole v indexu vyhledávání.
mappingFunction Nepovinný parametr. Přidá zpracování zdrojových hodnot na cestě do vyhledávacího webu. Například libovolná řetězcová hodnota může být zakódovaná jako base64, takže se dá použít k naplnění pole klíče dokumentu. Funkce mapování má název a parametry. Mezi platné hodnoty patří:

base64Kódování
base64Decode
extractTokenAtPosition
jsonArrayToStringCollection
urlKódování
urlDecode

outputFieldMappings

Určuje výstupy dovedností (nebo uzly ve stromu rozšiřování) do polí ve vyhledávacím indexu.

  "outputFieldMappings" : [
        {
          "sourceFieldName" : "/document/organizations", 
          "targetFieldName" : "organizations"
        },
        {
          "sourceFieldName" : "/document/pages/*/keyPhrases/*", 
          "targetFieldName" : "keyphrases"
        },
        {
            "sourceFieldName": "/document/languageCode",
            "targetFieldName": "language",
            "mappingFunction": null
        }      
   ],

šifrovací klíč

Nakonfiguruje připojení k Azure Key Vault pro doplňkové šifrovací klíče spravované zákazníkem (CMK). Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné služby. U fakturovatelných služeb je k dispozici pouze pro vyhledávací služby vytvořené 1. 1. 2019 nebo později.

Připojení k trezoru klíčů se musí ověřit. K tomuto účelu můžete použít buď "accessCredentials", nebo spravovanou identitu.

Spravované identity můžou být přiřazené systémem nebo uživatelem (Preview). Pokud má vyhledávací služba spravovanou identitu přiřazenou systémem i roli, která uděluje přístup pro čtení k trezoru klíčů, můžete vynechat identity i accessCredentials a požadavek se ověří pomocí identity spravované systémem. Pokud má vyhledávací služba identitu a přiřazení role přiřazené uživatelem, nastavte vlastnost identity na ID prostředku této identity.

Atribut Popis
keyVaultKeyName Povinná hodnota. Název klíče azure Key Vault použitého k šifrování.
keyVaultKeyVersion Povinná hodnota. Verze klíče azure Key Vault.
identifikátor keyVaultUri Povinná hodnota. Identifikátor URI azure Key Vault (označovaný také jako název DNS), který poskytuje klíč. Příkladem identifikátoru URI může být https://my-keyvault-name.vault.azure.net
accessCredentials Pokud používáte spravovanou identitu, využte ji. Jinak vlastnosti accessCredentials include applicationId (ID aplikace Azure Active Directory, které má přístupová oprávnění k zadané Key Vault Azure) a applicationSecret (ověřovací klíč zadané Azure AD aplikace).
identity Volitelné, pokud pro připojení Vyhledávací služby k Azure Key Vault nepoužíváte spravovanou identitu přiřazenou uživatelem. Formát je "/subscriptions/[subscription ID]/resourceGroups/[resource group name]/providers/Microsoft.ManagedIdentity/userAssignedIdentities/[managed identity name]".

Viz také