Indexer des blobs et des fichiers en texte brut dans Recherche Azure AI

Article
09/03/2024

S’applique à : Indexeurs de blobs, Indexeurs de fichiers

Quand vous utilisez un indexeur pour extraire du texte de blob recherchable ou le contenu d’un fichier pour une recherche en texte intégral, vous pouvez attribuer un mode d’analyse pour obtenir de meilleurs résultats d’indexation. Par défaut, l’indexeur analyse le content d’un blob en tant que bloc de texte unique. Toutefois, si tous les blobs et les fichiers contiennent du texte brut avec le même codage, vous pouvez améliorer considérablement les performances d’indexation en utilisant le mode d’analyse text.

Les recommandations relatives à l’analyse de text incluent l’une des caractéristiques suivantes :

Le type de fichier est .txt
Les fichiers sont de n’importe quel type, mais le contenu lui-même est du texte (par exemple, code source d’un programme, HTML, XML, etc.). Pour les fichiers en langage de balisage, les caractères de syntaxe sont fournis sous forme de texte statique.

Rappelez-vous que tous les indexeurs sérialisent en JSON. Par défaut, le contenu de la totalité du fichier texte est indexé dans un seul grand champ en tant que "content": "<file-contents>". Les instructions de nouvelle ligne et de retour sont incorporées dans le champ de contenu et exprimées sous la forme \r\n\.

Si vous souhaitez obtenir un résultat plus précis ou plus granulaire, et que le type de fichier est compatible, envisagez les solutions suivantes :

Mode d’analyse delimitedText, si la source est au format CSV
jsonArray ou jsonLines, si la source est au format JSON

Une troisième option alternative de subdivision du contenu nécessite des fonctionnalités avancées faisant appel à l’enrichissement par IA. Elle ajoute une analyse qui identifie et assigne des segments du fichier à différents champs de recherche. Vous pouvez trouver une solution complète ou partielle via les fonctionnalités intégrées comme la reconnaissance d’entité ou l’extraction de mots clés, mais une solution plus probable peut être un modèle d’apprentissage personnalisé qui comprend votre contenu, encapsulé dans une fonctionnalité personnalisée.

Configurer l’indexation de texte brut

Pour indexer des blobs de texte brut, créez ou mettez à jour une définition d’indexeur avec la propriété de configuration parsingMode définie sur text sur une requête Créer un indexeur :

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Par défaut, le UTF-8 encodage est possible. Pour spécifier un encodage différent, utilisez la propriété de configuration encoding. La liste des encodages pris en charge se trouve dans la colonne Prise en charge .NET 5 et versions ultérieures .

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}

Exemple de requête

Les modes d’analyse sont spécifiés dans la définition de l’indexeur.

POST https://[service name].search.windows.net/indexers?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Partager via

Indexer des blobs et des fichiers en texte brut dans Recherche Azure AI

Configurer l’indexation de texte brut

Exemple de requête

Étapes suivantes

Commentaires

Ressources supplémentaires