Sessions de débogage dans Recherche Azure AI

Article
09/03/2024

La fonctionnalité Sessions de débogage est un éditeur visuel qui fonctionne avec un ensemble de compétences existant dans le Portail Azure, en exposant la structure et le contenu d’un seul document enrichi, car il est produit par un indexeur et un ensemble de compétences pendant la durée de la session. Étant donné que vous travaillez avec un document en direct, la session est interactive. Vous pouvez identifier des erreurs, modifier et appeler l’exécution d’une compétence, et valider les résultats en temps réel. Si vos modifications résolvent le problème, vous pouvez les valider dans un ensemble de compétences publié pour appliquer les correctifs globalement.

Cet article explique les scénarios pris en charge et la façon dont l’éditeur est organisé. Les sections et les onglets de l’éditeur décompressent diverses couches de l’ensemble de compétences afin que vous puissiez examiner la structure, le flux et le contenu généré par l’ensemble de compétences au moment de l’exécution.

Scénarios pris en charge

Utilisez des sessions de débogage pour examiner et résoudre les problèmes liés aux éléments suivants :

Compétences intégrées utilisées pour l’enrichissement par IA, notamment la reconnaissance optique de caractères (OCR), l’analyse d’images, la reconnaissance d’entités et l’extraction de mots clés.
Compétences intégrées utilisées pour la vectorisation intégrée, avec segmentation des données via le fractionnement de texte et vectorisation via une compétence d’incorporation.
Compétences personnalisées utilisées pour intégrer le traitement externe que vous fournissez.

Comparez les images de session de débogage suivantes pour les deux premiers scénarios. Pour les deux scénarios, la surface montre la progression des compétences qui génèrent ou transforment du contenu du document source vers l’index de recherche. Le flux inclut des options de mappage d’index, et vous pouvez tracer les flèches pour suivre la piste de traitement. Le volet d’informations à droite tient compte du contexte. Il affiche une représentation du document enrichi ou les détails d’une compétence ou d’un mappage.

La première image montre un modèle pour l’enrichissement par IA appliqué. Les compétences peuvent s’exécuter séquentiellement ou en parallèle en l’absence de dépendances. Les mappages de champs de sortie envoient du contenu enrichi ou généré à partir de structures de données en mémoire aux champs d’un index.

La deuxième image montre un modèle standard pour la vectorisation intégrée. Les compétences pour la vectorisation intégrée incluent généralement le fractionnement de texte et une compétence d’incorporation. Une compétence de fractionnement de texte segmente un document en pages. Une compétence d’incorporation fournit la vectorisation. Les mappages de projection contrôlent la façon dont les segments de contenu sont indexés. Cet ensemble de compétences particulier ignore l’index parent et crée un index de contenu simplement segmenté, en utilisant les métadonnées pour identifier la source du segment.

Limites

Les sessions de débogage fonctionnent avec toutes les sources de données d’indexeur en disponibilité générale et la plupart des sources de données en préversion, avec les exceptions suivantes :

Indexeur SharePoint Online.
Indexeur Azure Cosmos DB for MongoDB.
Pour Azure Cosmos DB for NoSQL, si une ligne échoue pendant l’index et qu’il n’y a pas de métadonnées correspondantes, la session de débogage risque de ne pas choisir la ligne correcte.
Pour l’API SQL d’Azure Cosmos DB, si une collection partitionnée n’était pas partitionnée auparavant, la session de débogage ne trouvera pas le document.
Pour les compétences personnalisées, une identité managée attribuée par l’utilisateur n’est pas prise en charge pour une connexion de session de débogage au stockage Azure. Comme indiqué dans les conditions préalables, vous pouvez utiliser une identité gérée par le système ou spécifier une chaîne de connexion à accès complet qui inclut une clé. Pour plus d’informations, consultez Connecter un service de recherche à d’autres ressources Azure à l’aide d’une identité managée.

Fonctionnement d’une session de débogage

Lorsque vous démarrez une session, le service de recherche crée une copie de l’ensemble de compétences, un indexeur et une source de données contenant un document unique utilisé pour tester l’ensemble de compétences. Tous les états de session sont enregistrés dans un nouveau conteneur blob créé par le service Recherche Azure AI dans un compte Stockage Microsoft Azure que vous fournissez. Le nom du conteneur généré a un préfixe de ms-az-cognitive-search-debugsession. Le préfixe est requis, car il atténue les risques d’exportation accidentelle des données de la session vers un autre conteneur de votre compte.

Une copie mise en cache du document enrichi et de l’ensemble de compétences est chargée dans l’éditeur visuel pour vous permettre d’inspecter le contenu et les métadonnées du document enrichi, avec la possibilité de vérifier chaque nœud de document et de modifier tout aspect de la définition de l’ensemble de compétences. Toutes les modifications apportées au sein de la session sont mises en cache. Ces modifications n’affectent pas l’ensemble de compétences publié, sauf si vous les validez. La validation des modifications remplacera l’ensemble de compétences de production.

Si le pipeline d’enrichissement ne contient aucune erreur, une session de débogage peut être utilisée pour enrichir un document de façon incrémentielle, tester et valider chaque modification avant sa validation.

Disposition de la session de débogage

La surface dans laquelle l’éditeur visuel est organisé montre la progression des opérations, en commençant par le craquage de document, suivi des compétences, des mappages et d’un index.

Sélectionnez une compétence ou un mappage pour ouvrir un volet latéral présentant des informations pertinentes.

Suivez les liens pour explorer davantage le traitement des compétences. Par exemple, la capture d’écran suivante montre la sortie de la première itération de la compétence Fractionnement de texte.

Volet d’informations sur la compétence

Le volet Détails de la compétence comprend les sections suivantes :

Itérations : indique le nombre de fois qu’une compétence s’exécute. Vous pouvez vérifier les entrées et sorties de chacune.
Paramètres de compétence : affichez ou modifiez la définition de l’ensemble de compétences JSON.
Erreurs et avertissements : affiche les erreurs ou avertissements propres à cette compétence.

Volet Structure de données enrichie

Le volet Structure de données enrichie glisse sur le côté lorsque vous sélectionnez la flèche bleue Afficher ou Masquer. Il s’agit d’une représentation lisible par l’utilisateur de ce que contient le document enrichi. Les captures d’écran précédentes de cet article montrent des exemples de la structure de données enrichie.

Étapes suivantes

À présent que vous comprenez les éléments des sessions de débogage, démarrez votre première session de débogage sur un ensemble de compétences existant.

Comment déboguer un ensemble de compétences

Partage via