Indexers - Create
Vytvoří nový indexer.
POST {endpoint}/indexers?api-version=2023-11-01
Parametry identifikátoru URI
Name | V | Vyžadováno | Typ | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adresa URL koncového bodu vyhledávací služby. |
api-version
|
query | True |
string |
Verze rozhraní API klienta. |
Hlavička požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID sledování odeslané spolu s požadavkem na pomoc s laděním. |
Text požadavku
Name | Vyžadováno | Typ | Description |
---|---|---|---|
dataSourceName | True |
string |
Název zdroje dat, ze kterého tento indexer čte data. |
name | True |
string |
Název indexeru. |
targetIndexName | True |
string |
Název indexu, do kterého tento indexer zapisuje data. |
@odata.etag |
string |
Značka ETag indexeru. |
|
description |
string |
Popis indexeru. |
|
disabled |
boolean |
Hodnota označující, zda je indexer zakázán. Výchozí hodnota je false. |
|
encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč slouží k poskytnutí další úrovně šifrování neaktivních uložených uložených dat pro definici indexeru (stejně jako stav spuštění indexeru), pokud chcete mít plnou jistotu, že je nikdo, dokonce ani Microsoft, nemůže dešifrovat. Jakmile zašifrujete definici indexeru, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Pokud chcete šifrovací klíč obměnit, můžete tuto vlastnost podle potřeby změnit. Definice indexeru (a stav spuštění indexeru) nebudou ovlivněny. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
||
fieldMappings |
Definuje mapování mezi poli ve zdroji dat a odpovídajícími cílovými poli v indexu. |
||
outputFieldMappings |
Mapování výstupních polí se použijí po rozšíření a bezprostředně před indexováním. |
||
parameters |
Parametry pro provádění indexeru. |
||
schedule |
Plán pro tento indexer. |
||
skillsetName |
string |
Název sady dovedností spouštěné pomocí tohoto indexeru. |
Odpovědi
Name | Typ | Description |
---|---|---|
201 Created | ||
Other Status Codes |
Odpověď na chybu. |
Příklady
SearchServiceCreateIndexer
Ukázkový požadavek
POST https://myservice.search.windows.net/indexers?api-version=2023-11-01
{
"name": "myindexer",
"description": "an indexer",
"dataSourceName": "mydatasource",
"targetIndexName": "orders",
"schedule": {
"interval": "PT1H",
"startTime": "2015-01-01T00:00:00Z"
},
"parameters": {
"maxFailedItems": 10,
"maxFailedItemsPerBatch": 5
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
}
}
Ukázková odpověď
{
"name": "myindexer",
"description": "an indexer",
"dataSourceName": "mydatasource",
"targetIndexName": "orders",
"schedule": {
"interval": "PT1H",
"startTime": "2015-01-01T00:00:00Z"
},
"parameters": {
"maxFailedItems": 10,
"maxFailedItemsPerBatch": 5
},
"fieldMappings": [],
"disabled": false,
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
}
}
Definice
Name | Description |
---|---|
Azure |
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault. |
Blob |
Určuje data, která se mají extrahovat z úložiště objektů blob v Azure, a řekne indexeru, která data se mají extrahovat z obsahu obrázku, když je vlastnost imageAction nastavená na jinou hodnotu než "none". To platí pro vložený obsah obrázku v .PDF nebo jiné aplikaci nebo soubory obrázků, jako jsou .jpg a .png, v objektech blob Azure. |
Blob |
Určuje způsob zpracování vložených obrázků a souborů obrázků ve službě Azure Blob Storage. Nastavení konfigurace "imageAction" na jinou hodnotu než "none" vyžaduje, aby byla k danému indexeru připojena také sada dovedností. |
Blob |
Představuje režim analýzy pro indexování ze zdroje dat objektů blob Azure. |
Blob |
Určuje algoritmus pro extrakci textu ze souborů PDF ve službě Azure Blob Storage. |
Field |
Definuje mapování mezi polem ve zdroji dat a cílovým polem v indexu. |
Field |
Představuje funkci, která transformuje hodnotu ze zdroje dat před indexováním. |
Indexer |
Určuje prostředí, ve kterém se má indexer spustit. |
Indexing |
Představuje parametry pro spuštění indexeru. |
Indexing |
Slovník vlastností konfigurace specifických pro indexer. Každý název je název konkrétní vlastnosti. Každá hodnota musí být primitivního typu. |
Indexing |
Představuje plán spuštění indexeru. |
Search |
Popisuje chybovou podmínku rozhraní API. |
Search |
Představuje indexer. |
Search |
Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat ve vyhledávací službě, jako jsou indexy a mapy synonym. |
AzureActiveDirectoryApplicationCredentials
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault.
Name | Typ | Description |
---|---|---|
applicationId |
string |
ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění k azure Key Vault, která se mají použít při šifrování neaktivních uložených dat. ID aplikace by se nemělo zaměňovat s ID objektu vaší aplikace AAD. |
applicationSecret |
string |
Ověřovací klíč zadané aplikace AAD. |
BlobIndexerDataToExtract
Určuje data, která se mají extrahovat z úložiště objektů blob v Azure, a řekne indexeru, která data se mají extrahovat z obsahu obrázku, když je vlastnost imageAction nastavená na jinou hodnotu než "none". To platí pro vložený obsah obrázku v .PDF nebo jiné aplikaci nebo soubory obrázků, jako jsou .jpg a .png, v objektech blob Azure.
Name | Typ | Description |
---|---|---|
allMetadata |
string |
Extrahuje metadata poskytovaná subsystémem úložiště objektů blob v Azure a metadaty specifickými pro obsah (například metadata jedinečná pouze pro .png soubory se indexují). |
contentAndMetadata |
string |
Extrahuje všechna metadata a textový obsah z každého objektu blob. |
storageMetadata |
string |
Indexuje pouze standardní vlastnosti objektu blob a metadata zadaná uživatelem. |
BlobIndexerImageAction
Určuje způsob zpracování vložených obrázků a souborů obrázků ve službě Azure Blob Storage. Nastavení konfigurace "imageAction" na jinou hodnotu než "none" vyžaduje, aby byla k danému indexeru připojena také sada dovedností.
Name | Typ | Description |
---|---|---|
generateNormalizedImagePerPage |
string |
Extrahuje text z obrázků (například slovo "STOP" ze symbolu zastavení provozu) a vloží ho do pole obsahu, ale zachází se soubory PDF odlišně v tom, že každá stránka se vykresluje jako obrázek a odpovídajícím způsobem normalizuje místo extrahování vložených obrázků. S typy souborů bez PDF se bude zacházet stejně, jako kdyby byla nastavena hodnota generateNormalizedImages. |
generateNormalizedImages |
string |
Extrahuje text z obrázků (například slovo "STOP" ze symbolu zastavení provozu) a vloží ho do pole obsahu. Tato akce vyžaduje, aby hodnota dataToExtract byla nastavena na contentAndMetadata. Normalizovaný obrázek označuje další zpracování, jehož výsledkem je rovnoměrný výstup obrázku, jeho velikost a otočení, aby se při zahrnutí obrázků do vizuálních výsledků hledání podpořilo konzistentní vykreslování. Tyto informace se při použití této možnosti vygenerují pro každou image. |
none |
string |
Ignoruje vložené obrázky nebo soubory obrázků v datové sadě. Tato možnost je výchozí. |
BlobIndexerParsingMode
Představuje režim analýzy pro indexování ze zdroje dat objektů blob Azure.
Name | Typ | Description |
---|---|---|
default |
string |
Nastavte na výchozí pro normální zpracování souborů. |
delimitedText |
string |
Pokud jsou objekty blob prostými soubory CSV, nastavte na hodnotu Text s oddělovači. |
json |
string |
Pokud chcete extrahovat strukturovaný obsah ze souborů JSON, nastavte na json. |
jsonArray |
string |
Pokud chcete extrahovat jednotlivé prvky pole JSON jako samostatné dokumenty, nastavte na jsonArray. |
jsonLines |
string |
Pokud chcete extrahovat jednotlivé entity JSON oddělené novým řádkem jako samostatné dokumenty, nastavte na jsonLines. |
text |
string |
Pokud chcete zlepšit výkon indexování souborů ve formátu prostého textu v úložišti objektů blob, nastavte na text. |
BlobIndexerPDFTextRotationAlgorithm
Určuje algoritmus pro extrakci textu ze souborů PDF ve službě Azure Blob Storage.
Name | Typ | Description |
---|---|---|
detectAngles |
string |
Může vytvářet lepší a čitelnější extrakci textu ze souborů PDF, které mají otočený text v nich. Všimněte si, že při použití tohoto parametru může dojít k malému dopadu na rychlost výkonu. Tento parametr platí pouze pro soubory PDF a pouze pro soubory PDF s vloženým textem. Pokud se otočený text zobrazí ve vloženém obrázku v PDF, tento parametr se nepoužije. |
none |
string |
Využívá normální extrakci textu. Tato možnost je výchozí. |
FieldMapping
Definuje mapování mezi polem ve zdroji dat a cílovým polem v indexu.
Name | Typ | Description |
---|---|---|
mappingFunction |
Funkce, která se před indexováním použije na každou hodnotu zdrojového pole. |
|
sourceFieldName |
string |
Název pole ve zdroji dat. |
targetFieldName |
string |
Název cílového pole v indexu. Stejné jako název zdrojového pole ve výchozím nastavení. |
FieldMappingFunction
Představuje funkci, která transformuje hodnotu ze zdroje dat před indexováním.
Name | Typ | Description |
---|---|---|
name |
string |
Název funkce mapování polí. |
parameters |
object |
Slovník dvojic název/hodnota parametru, který se předá funkci. Každá hodnota musí být primitivního typu. |
IndexerExecutionEnvironment
Určuje prostředí, ve kterém se má indexer spustit.
Name | Typ | Description |
---|---|---|
private |
string |
Označuje, že indexer by měl běžet s prostředím zřízeným speciálně pro vyhledávací službu. To by se mělo zadat jako spouštěcí prostředí pouze v případě, že indexer potřebuje zabezpečený přístup k prostředkům přes prostředky sdíleného privátního propojení. |
standard |
string |
Označuje, že vyhledávací služba může určit, kde se má indexer spustit. Toto je výchozí prostředí, pokud není zadáno nic a jedná se o doporučenou hodnotu. |
IndexingParameters
Představuje parametry pro spuštění indexeru.
Name | Typ | Default value | Description |
---|---|---|---|
batchSize |
integer |
Počet položek, které jsou načteny ze zdroje dat a indexovány jako jedna dávka za účelem zvýšení výkonu. Výchozí hodnota závisí na typu zdroje dat. |
|
configuration |
Slovník vlastností konfigurace specifických pro indexer. Každý název je název konkrétní vlastnosti. Každá hodnota musí být primitivního typu. |
||
maxFailedItems |
integer |
0 |
Maximální počet položek, u které může dojít k selhání indexeru při provádění indexeru, se stále považují za úspěšné. -1 znamená bez omezení. Výchozí hodnota je 0. |
maxFailedItemsPerBatch |
integer |
0 |
Maximální počet položek v jedné dávce, u které může dojít k selhání indexování, aby byla dávka stále považována za úspěšnou. -1 znamená bez omezení. Výchozí hodnota je 0. |
IndexingParametersConfiguration
Slovník vlastností konfigurace specifických pro indexer. Každý název je název konkrétní vlastnosti. Každá hodnota musí být primitivního typu.
Name | Typ | Default value | Description |
---|---|---|---|
allowSkillsetToReadFileData |
boolean |
False |
Pokud je true, vytvoří cestu //document//file_data, což je objekt představující data původního souboru stažená ze zdroje dat objektu blob. To vám umožní předat původní data souboru vlastní dovednosti ke zpracování v rámci kanálu pro rozšiřování nebo dovednosti extrakce dokumentů. |
dataToExtract | contentAndMetadata |
Určuje data, která se mají extrahovat z úložiště objektů blob v Azure, a řekne indexeru, která data se mají extrahovat z obsahu obrázku, když je vlastnost imageAction nastavená na jinou hodnotu než "none". To platí pro vložený obsah obrázku v .PDF nebo jiné aplikaci nebo soubory obrázků, jako jsou .jpg a .png, v objektech blob Azure. |
|
delimitedTextDelimiter |
string |
Pro objekty blob CSV určuje oddělovač jednoho znaku na konci řádku pro soubory CSV, kde každý řádek začíná nový dokument (například |). |
|
delimitedTextHeaders |
string |
Pro objekty blob CSV určuje seznam záhlaví sloupců oddělených čárkami, který je užitečný pro mapování zdrojových polí na cílová pole v indexu. |
|
documentRoot |
string |
U polí JSON můžete u strukturovaného nebo částečně strukturovaného dokumentu určit cestu k poli pomocí této vlastnosti. |
|
excludedFileNameExtensions |
string |
Seznam přípon názvů souborů oddělených čárkami, které se mají při zpracování z úložiště objektů blob v Azure ignorovat. Můžete například vyloučit ".png, .mp4", abyste tyto soubory během indexování přeskočili. |
|
executionEnvironment | standard |
Určuje prostředí, ve kterém se má indexer spustit. |
|
failOnUnprocessableDocument |
boolean |
False |
V případě objektů blob Azure nastavte na false, pokud chcete pokračovat v indexování, pokud se indexování dokumentu nezdaří. |
failOnUnsupportedContentType |
boolean |
False |
U objektů blob Azure nastavte na false, pokud chcete pokračovat v indexování, když se zjistí nepodporovaný typ obsahu a neznáte předem všechny typy obsahu (přípony souborů). |
firstLineContainsHeaders |
boolean |
True |
U objektů blob sdíleného svazku clusteru označuje, že první (neprázdný) řádek každého objektu blob obsahuje hlavičky. |
imageAction | none |
Určuje způsob zpracování vložených obrázků a souborů obrázků ve službě Azure Blob Storage. Nastavení konfigurace "imageAction" na jinou hodnotu než "none" vyžaduje, aby byla k danému indexeru připojena také sada dovedností. |
|
indexStorageMetadataOnlyForOversizedDocuments |
boolean |
False |
U objektů blob Azure nastavte tuto vlastnost na true, aby se stále indexují metadata úložiště pro obsah objektů blob, který je příliš velký na zpracování. Objekty blob naddimenzované jsou ve výchozím nastavení považovány za chyby. Omezení velikosti objektu blob najdete v tématu https://docs.microsoft.com/azure/search/search-limits-quotas-capacity. |
indexedFileNameExtensions |
string |
Seznam přípon názvů souborů oddělených čárkami, které se mají vybrat při zpracování ze služby Azure Blob Storage. Můžete se například zaměřit na indexování konkrétních aplikačních souborů ".docx, .pptx, .msg", aby se zahrnuly konkrétně tyto typy souborů. |
|
parsingMode | default |
Představuje režim analýzy pro indexování ze zdroje dat objektů blob Azure. |
|
pdfTextRotationAlgorithm | none |
Určuje algoritmus pro extrakci textu ze souborů PDF ve službě Azure Blob Storage. |
|
queryTimeout |
string |
00:05:00 |
Zvýší časový limit nad výchozí 5 minut pro Azure SQL zdroje dat databáze zadané ve formátu hh:mm:ss. |
IndexingSchedule
Představuje plán spuštění indexeru.
Name | Typ | Description |
---|---|---|
interval |
string |
Časový interval mezi spuštěními indexeru. |
startTime |
string |
Čas, kdy by se měl spustit indexer. |
SearchError
Popisuje chybovou podmínku rozhraní API.
Name | Typ | Description |
---|---|---|
code |
string |
Jeden ze serverem definovaných chybových kódů. |
details |
Pole podrobností o konkrétních chybách, které vedly k této nahlášené chybě. |
|
message |
string |
Lidsky čitelná reprezentace chyby. |
SearchIndexer
Představuje indexer.
Name | Typ | Default value | Description |
---|---|---|---|
@odata.etag |
string |
Značka ETag indexeru. |
|
dataSourceName |
string |
Název zdroje dat, ze kterého indexer čte data. |
|
description |
string |
Popis indexeru. |
|
disabled |
boolean |
False |
Hodnota označující, zda je indexer zakázán. Výchozí hodnota je false. |
encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč slouží k poskytnutí další úrovně šifrování neaktivních uložených dat pro definici indexeru (a také stav spuštění indexeru), pokud chcete mít plnou jistotu, že je nikdo, dokonce ani Microsoft, nemůže dešifrovat. Jakmile zašifrujete definici indexeru, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Pokud chcete šifrovací klíč obměnit, můžete tuto vlastnost podle potřeby změnit. Definice indexeru (a stav spuštění indexeru) nebude ovlivněna. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
||
fieldMappings |
Definuje mapování mezi poli ve zdroji dat a odpovídajícími cílovými poli v indexu. |
||
name |
string |
Název indexeru. |
|
outputFieldMappings |
Mapování výstupních polí se použijí po rozšíření a bezprostředně před indexováním. |
||
parameters |
Parametry pro spuštění indexeru |
||
schedule |
Plán pro tento indexer. |
||
skillsetName |
string |
Název sady dovedností spouštěné pomocí tohoto indexeru. |
|
targetIndexName |
string |
Název indexu, do kterého tento indexer zapisuje data. |
SearchResourceEncryptionKey
Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat ve vyhledávací službě, jako jsou indexy a mapy synonym.
Name | Typ | Description |
---|---|---|
accessCredentials |
Volitelné přihlašovací údaje Azure Active Directory používané pro přístup k azure Key Vault. Nevyžaduje se, pokud místo toho používáte spravovanou identitu. |
|
keyVaultKeyName |
string |
Název klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
keyVaultKeyVersion |
string |
Verze klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
keyVaultUri |
string |
Identifikátor URI vašeho Key Vault Azure, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být |