Indexer des objets blob et des fichiers en texte brut dans Recherche IA Azure

S’applique à : Indexeurs de blobs, Indexeurs de fichiers

Quand vous utilisez un indexeur pour extraire du texte de blob recherchable ou le contenu d’un fichier pour une recherche en texte intégral, vous pouvez attribuer un mode d’analyse pour obtenir de meilleurs résultats d’indexation. Par défaut, l’indexeur analyse la propriété d’un content objet blob sous la forme d’un seul bloc de texte. Toutefois, si tous les blobs et les fichiers contiennent du texte brut avec le même codage, vous pouvez améliorer considérablement les performances d’indexation en utilisant le mode d’analyse text.

Recommandations pour text l’analyse incluent l’une des caractéristiques suivantes :

  • Type de fichier : .txt
  • Les fichiers sont de n’importe quel type, mais le contenu lui-même est du texte (par exemple, code source d’un programme, HTML, XML, etc.). Pour les fichiers d’un langage de balisage, les caractères de syntaxe apparaissent sous forme de texte statique.

Rappelez-vous que tous les indexeurs sérialisent en JSON. Par défaut, le contenu de l’intégralité du fichier texte est indexé dans un champ volumineux comme "content": "<file-contents>". De nouvelles instructions de ligne et de retour sont incorporées dans le champ de contenu et exprimées sous la forme \r\n\.

Si vous souhaitez obtenir un résultat plus affiné ou granulaire et si le type de fichier est compatible, tenez compte des solutions suivantes :

Une troisième option alternative pour diviser le contenu en plusieurs parties nécessite des fonctionnalités avancées sous la forme d’enrichissement par IA. Elle ajoute une analyse qui identifie et assigne des segments du fichier à différents champs de recherche. Vous pouvez trouver une solution complète ou partielle par le biais de compétences intégrées telles que la reconnaissance d’entité ou l’extraction mot clé, mais une solution plus probable peut être un modèle d’apprentissage personnalisé qui comprend votre contenu, encapsulé dans une compétence personnalisée.

Configurer l’indexation de texte brut

Pour indexer des objets blob de texte brut, créez ou mettez à jour une définition d’indexeur avec la parsingMode propriété de configuration définie text sur une requête Create Indexer :

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Par défaut, le UTF-8 encodage est possible. Pour spécifier un encodage différent, utilisez la encoding propriété de configuration :

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

Exemple de requête

Les modes d’analyse sont spécifiés dans la définition de l’indexeur.

POST https://[service name].search.windows.net/indexers?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Étapes suivantes