Charger des données dans un index de recherche dans la Recherche Azure AI

Cet article explique comment importer, actualiser et gérer le contenu d’un index de recherche prédéfini. Dans la Recherche Azure AI, un index de recherche est d’abord créé, puis des données sont importées. L’Assistant Importation de données et les pipelines d’indexeur, qui créent et chargent un index en un seul workflow, sont des exceptions.

Un service de recherche importe et indexe des textes et des vecteurs en JSON, utilisés dans des scénarios de recherche en texte intégral, de recherche vectorielle, de recherche hybride et d’exploration des connaissances. Le texte peut être obtenu à partir de champs alphanumériques dans la source de données externe, de métadonnées utiles dans les scénarios de recherche ou de contenu enrichi créé par un ensemble de compétences (les compétences peuvent extraire ou déduire des descriptions textuelles à partir d’images et de contenu non structuré). Le contenu vectoriel est vectorisé à l’aide d’un modèle d’incorporation externe ou d’une vectorisation intégrée (préversion).

Une fois les données indexées, les structures de données physiques de l’index sont verrouillées. Pour obtenir de l’aide sur ce qui peut et ne peut pas être modifié, consultez Abandonner et recréer un index.

L’indexation n’est pas un processus en arrière-plan. Un service de recherche équilibre les charges de travail d’indexation et d’exécution des requêtes, mais si la latence des requêtes est trop élevée, vous pouvez augmenter la capacité ou identifier les périodes de faible activité des requêtes pour charger un index.

Chargement de documents

Un service de recherche accepte les documents JSON qui sont conformes au schéma de l’index.

Vous pouvez préparer ces documents vous-même, mais si le contenu réside dans une source de données prise en charge, l’exécution d’un indexeur ou de l’Assistant Importation de données peut automatiser la récupération des documents, la sérialisation JSON et l’indexation.

Dans le portail Azure, utilisez les Assistants Importation de données pour créer et charger des index dans un flux de travail transparent. Si vous souhaitez charger un index existant, choisissez une autre approche.

  1. Connectez-vous au portail Azure avec votre compte Azure.

  2. Recherchez votre service de recherche. Ensuite, dans la page Vue d’ensemble, sélectionnez Importer des données ou Importer et vectoriser des données dans la barre de commandes pour créer et remplir un index de recherche. Vous pouvez suivre ces liens pour passer en revue le flux de travail : Démarrage rapide : créer un index Recherche Azure AI et Démarrage rapide : vectorisation intégrée (préversion).

    Capture d’écran de la commande Importer des données

Si les indexeurs sont déjà définis, vous pouvez réinitialiser et exécuter un indexeur à partir du portail Azure, ce qui est utile si vous ajoutez des champs de manière incrémentielle. La réinitialisation force l’indexeur à recommencer depuis le début, en sélectionnant tous les champs de tous les documents sources.

Supprimer les documents orphelins

La Recherche Azure AI prend en charge les opérations au niveau des documents, ce qui vous permet de rechercher, mettre à jour et supprimer un document spécifique de manière isolée. L’exemple suivant montre comment supprimer un document. Dans un service de recherche, les documents ne sont pas liés. Le fait d’en supprimer un n’a donc aucun impact sur le reste de l’index.

  1. Identifiez le champ qui correspond à la clé de document. Dans le portail, vous pouvez voir les champs de chaque index. Les clés de document sont des champs de chaîne dénotés par une icône de clé qui permet de les repérer plus facilement.

  2. Vérifiez les valeurs du champ de clé du document : search=*&$select=HotelId. Une chaîne simple ne pose pas de difficultés, mais si l’index utilise un champ encodé en base 64 ou que les documents de recherche ont été générés à partir d’un paramètre parsingMode, vous pouvez avoir affaire à des valeurs qui ne vous sont pas familières.

  3. Recherchez le document pour vérifier la valeur de l’ID du document et examiner son contenu avant de le supprimer. Spécifiez la clé ou l’ID du document dans la demande. Les exemples suivants illustrent une chaîne simple pour l’exemple d’index d’hôtels et une chaîne codée en base 64 pour la clé metadata_storage_path de l’index cog-search-demo.

    GET https://[service name].search.windows.net/indexes/hotel-sample-index/docs/1111?api-version=2023-11-01
    
    GET https://[service name].search.windows.net/indexes/cog-search-demo/docs/aHR0cHM6Ly9oZWlkaWJsb2JzdG9yYWdlMi5ibG9iLmNvcmUud2luZG93cy5uZXQvY29nLXNlYXJjaC1kZW1vL2d1dGhyaWUuanBn0?api-version=2023-11-01
    
  4. Supprimez le document pour le retirer de l’index de recherche.

    POST https://[service name].search.windows.net/indexes/hotels-sample-index/docs/index?api-version=2023-11-01
    Content-Type: application/json   
    api-key: [admin key] 
    {  
      "value": [  
        {  
          "@search.action": "delete",  
          "id": "1111"  
        }  
      ]  
    }
    

Voir aussi