Connecteur Microsoft Graph pour les sites web d’entreprise

Le connecteur Microsoft Graph sites web d’entreprise permet à vos organization d’indexer des articles et du contenu à partir de sites web appartenant à votre entreprise. Après avoir configuré le connecteur et synchronisé le contenu à partir du site web, les utilisateurs finaux peuvent rechercher ce contenu à partir de n’importe quel client Recherche Microsoft.

Remarque

Lisez l’article Configurer des connecteurs Microsoft Graph dans le Centre d'administration Microsoft 365 pour comprendre les instructions générales de configuration des connecteurs.

Cet article s’adresse à toute personne qui configure, exécute et surveille un connecteur de sites web d’entreprise. Il complète le processus de configuration générale et affiche des instructions qui s’appliquent uniquement au connecteur sites web d’entreprise. Cet article contient également des informations sur la résolution des problèmes.

Étape 1 : Ajouter un connecteur dans le Centre d'administration Microsoft 365

Ajouter un connecteur de site web d’entreprise

(Pour plus d’informations, consultez les instructions d’installation générales)

Étape 2 : Nommer la connexion

Spécifiez ces attributs :

  • Name (obligatoire)
  • ID de connexion (obligatoire)
  • Description (facultatif)
  • Sélectionner case activée zone (obligatoire)

L’ID de connexion crée des propriétés implicites pour votre connecteur. Il doit être unique et ne peut contenir qu’un maximum de 32 caractères alphanumériques. Pour modifier l’ID, accédez à Paramètres avancés.

Étape 3 : Configurer les paramètres de connexion

Pour vous connecter à votre source de données, renseignez l’URL racine du site web et sélectionnez une verticale personnalisée pour les résultats. Une fois ces informations terminées, sélectionnez Tester la connexion pour vérifier vos paramètres.

URL du site web

Spécifiez la racine du site web que vous souhaitez analyser. Le connecteur de sites web d’entreprise utilise cette URL comme point de départ et suit tous les liens de cette URL pour son analyse.

Remarque

Vous pouvez indexer jusqu’à 50 URL de site différentes dans une même connexion. Dans le champ URL, entrez les URL de site séparées par des virgules (,). Par exemple : https://www.contoso.com,https://www.contosoelectronics.com.

Utiliser le plan de site pour l’analyse

Une fois sélectionné, le connecteur analyse uniquement les URL répertoriées dans le plan de site. Cela vous permet également de configurer l’analyse incrémentielle lors d’une étape ultérieure. S’il n’est pas sélectionné ou si aucun plan de site n’est trouvé, le connecteur effectue une analyse approfondie de tous les liens trouvés sur l’URL racine du site.

Configuration de site dynamique

Si votre site web contient du contenu dynamique, par exemple des pages web qui résident dans des systèmes de gestion de contenu comme Confluence ou Unily, vous pouvez activer un robot dynamique. Pour l’activer, sélectionnez Activer l’analyse des sites dynamiques. Le robot attend que le contenu dynamique s’affiche avant de commencer l’analyse.

Capture d’écran du volet Paramètres de connexion pour Enterprise Web Connector.

En plus de la zone case activée, trois champs facultatifs sont disponibles :

  1. DOM Prêt : entrez l’élément DOM que le robot doit utiliser comme signal que le contenu est entièrement restitué et que l’analyse doit commencer.
  2. En-têtes à ajouter : spécifiez les en-têtes HTTP que le robot doit inclure lors de l’envoi de cette URL web spécifique. Vous pouvez définir plusieurs en-têtes pour différents sites web. Nous vous suggérons d’inclure des valeurs de jeton d’authentification.
  3. En-têtes à ignorer : spécifiez tous les en-têtes inutiles qui doivent être exclus des demandes d’analyse dynamique.

Les en-têtes doivent être ajoutés dans la syntaxe suivante : {"Root-URL":["TKey=TValue"]}

Exemple : {"https://www.contoso.com":["Token=Value","Type=Value2"]}

Remarque

L’analyse dynamique est prise en charge uniquement pour le mode d’analyse de l’agent.

Mode d’analyse : cloud ou local

Le mode d’analyse détermine le type de sites web que vous souhaitez indexer, dans le cloud ou localement. Pour vos sites web cloud, sélectionnez Cloud comme mode d’analyse.

En outre, le connecteur prend désormais en charge l’analyse des sites web locaux. Pour accéder à vos données locales, vous devez d’abord installer et configurer l’agent de connecteur. Pour plus d’informations, consultez Agent de connecteur Microsoft Graph.

Pour vos sites web locaux, sélectionnez Agent comme mode d’analyse et, dans le champ Agent local, choisissez l’agent de connecteur Graph que vous avez installé et configuré précédemment.

Authentification

Aucun ne nécessite aucune authentification

De base nécessite un nom d’utilisateur et un mot de passe.

OAuth 2.0 avec Microsoft Entra ID nécessite un ID de ressource, un ID client et une clé secrète client.

L’ID de ressource, l’ID client et la clé secrète client dépendent de la configuration de l’authentification basée sur Microsoft Entra ID pour votre site web :

  1. Si vous utilisez une application en tant que fournisseur d’identité et application cliente pour accéder au site web, l’ID client et l’ID de ressource seront l’ID d’application de l’application, et la clé secrète client sera la clé secrète que vous avez générée dans l’application.

    Remarque

    Pour plus d’informations sur la configuration d’une application cliente en tant que fournisseur d’identité, consultez Démarrage rapide : Inscrire une application auprès du Plateforme d'identités Microsoft et Configurer votre application App Service ou Azure Functions pour utiliser Microsoft Entra connexion.

    Une fois l’application cliente configurée, veillez à créer une clé secrète client en accédant à la section Certificats & secrets de l’application. Copiez la valeur de clé secrète client affichée dans la page, car elle ne sera plus affichée.

    Dans les captures d’écran suivantes, vous pouvez voir les étapes permettant d’obtenir l’ID client, la clé secrète client et de configurer l’application si vous créez l’application par vous-même.

    • Affichage des paramètres dans la section Personnalisation :

      Image montrant la section paramètres sur la page de personnalisation.

    • Vue de la section paramètres sur l’authentification :

      Image montrant la section paramètres sur la page d’authentification.

      Remarque

      Il n’est pas nécessaire d’avoir la route spécifiée ci-dessus pour l’URI de redirection dans votre site web. Seulement si vous utilisez le jeton utilisateur envoyé par Azure sur votre site web pour l’authentification, vous devez disposer de l’itinéraire.

    • Vue de l’ID client dans la section Essentials :

      Image montrant l’ID client dans la section Essentials.

    • Vue de la clé secrète client dans la section Certificats & secrets :

      Image montrant la clé secrète client.

  2. Si vous utilisez une application en tant que fournisseur d’identité pour votre site web en tant que ressource, et une autre application pour accéder au site web, l’ID client sera l’ID d’application de votre deuxième application et la clé secrète client sera le secret configuré dans la deuxième application. Toutefois, l’ID de ressource sera l’ID de votre première application.

    Vous n’avez pas besoin de configurer une clé secrète client dans cette application, mais vous devez ajouter un rôle d’application dans la section Rôles d’application, qui sera affecté ultérieurement à votre application cliente. Reportez-vous aux images pour savoir comment ajouter un rôle d’application.

    • Création d’un rôle d’application :

      Image montrant l’option permettant de créer un rôle d’application.

    • Modification du nouveau rôle d’application :

      Image montrant la section pour modifier un rôle d’application.

      Après avoir configuré l’application de ressources, créez l’application cliente et accordez-lui des autorisations pour accéder à l’application de ressources en ajoutant le rôle d’application configuré ci-dessus dans les autorisations d’API de l’application cliente.

      Remarque

      Pour savoir comment accorder des autorisations à l’application cliente , consultez Démarrage rapide : Configurer une application cliente pour accéder à une API web.

    Les captures d’écran suivantes montrent la section permettant d’accorder des autorisations à l’application cliente.

    • Ajout d’une autorisation :

      Image montrant l’option permettant d’ajouter une autorisation.

    • Sélection des autorisations :

      Image montrant la section pour sélectionner une API.

    • Ajout des autorisations :

      Image montrant les autorisations sélectionnées.

    Une fois les autorisations attribuées, vous devez créer une clé secrète client pour cette application en accédant à la section Certificats & secrets. Copiez la valeur de clé secrète client affichée dans la page, car elle ne sera plus affichée. Utilisez l’ID d’application de cette application comme ID client, le secret de cette application comme clé secrète client et l’ID d’application de la première application comme ID de ressource.

SiteMinder nécessite une URL correctement mise en forme, https://custom_siteminder_hostname/smapi/rest/createsmsessionun nom d’utilisateur et un mot de passe.

L’authentification Windows est disponible uniquement en mode agent. Il nécessite un nom d’utilisateur, un domaine et un mot de passe. Vous devez fournir le nom d’utilisateur et le domaine dans le champ Nom d’utilisateur , dans l’un des formats suivants : domaine\nom_utilisateur ou username@domain. Un mot de passe doit être entré dans le champ Mot de passe . Par Authentification Windows, le nom d’utilisateur fourni doit également être un administrateur sur le serveur sur lequel l’agent est installé.

Étape 4 : Paramètres des balises meta

Le connecteur extrait toutes les balises meta que vos URL racine peuvent avoir et les affiche. Vous pouvez sélectionner les balises à inclure pour l’analyse.

Paramètres de balise meta avec l’auteur, les paramètres régionaux et d’autres balises sélectionnées.

Les balises meta sélectionnées peuvent être utilisées pour créer des propriétés personnalisées. En outre, dans la page Schéma, vous pouvez les gérer davantage (Interrogeable, Rechercheable, Récupérable, Refinable).

Étape 5 : Paramètres de propriété personnalisés

Vous pouvez enrichir vos données indexées en créant des propriétés personnalisées pour vos balises meta sélectionnées ou les propriétés par défaut du connecteur.

Propriété personnalisée configurée avec une règle pour les métadonnées d’équipe.

Pour ajouter une propriété personnalisée :

  1. Entrez un nom de propriété. Ce nom apparaît dans les résultats de recherche de ce connecteur.
  2. Pour la valeur, sélectionnez Static ou String/Regex Mapping. Une valeur statique sera incluse dans tous les résultats de recherche de ce connecteur. Une valeur de chaîne/d’expression régulière varie en fonction des règles que vous ajoutez.
  3. Sélectionnez Modifier la valeur.
  4. Si vous avez sélectionné une valeur statique, entrez la chaîne que vous souhaitez afficher.
  5. Si vous avez sélectionné une valeur de chaîne/d’expression régulière :
    • Dans la section Ajouter des expressions , dans la liste Propriété , sélectionnez une propriété ou une balise meta par défaut dans la liste.
    • Pour Exemple de valeur, entrez une chaîne pour représenter le type de valeurs qui peuvent apparaître. Cet exemple est utilisé lorsque vous affichez un aperçu de votre règle.
    • Pour Expression, entrez une expression regex pour définir la partie de la valeur de propriété qui doit apparaître dans les résultats de la recherche. Vous pouvez ajouter jusqu’à trois expressions. Pour en savoir plus sur les expressions regex, consultez expressions régulières .NET ou recherchez un guide de référence sur les expressions regex sur le web.
    • Dans la section Créer une formule , entrez une formule pour combiner les valeurs extraites des expressions.

Étape 6 : Ajouter des URL à exclure (restrictions d’analyse facultatives)

Il existe deux façons d’empêcher les pages d’être analysées : les interdire dans votre fichier robots.txt ou les ajouter à la liste d’exclusions.

Prise en charge de robots.txt

Le connecteur vérifie s’il existe un fichier robots.txt pour votre site racine. S’il en existe un, il suivra et respectera les instructions trouvées dans ce fichier. Si vous ne souhaitez pas que le connecteur analyse certaines pages ou répertoires sur votre site, incluez les pages ou répertoires dans les déclarations « Interdire » dans votre fichier robots.txt.

Ajouter des URL à exclure

Vous pouvez éventuellement créer une liste d’exclusion pour exclure certaines URL d’être analysées si ce contenu est sensible ou ne vaut pas la peine d’être analysé. Pour créer une liste d’exclusion, parcourez l’URL racine. Vous pouvez ajouter les URL exclues à la liste pendant le processus de configuration.

Étape 7 : Attribuer des étiquettes de propriété

Vous pouvez affecter une propriété source à chaque étiquette en choisissant dans un menu d’options. Bien que cette étape ne soit pas obligatoire, le fait d’avoir des étiquettes de propriétés améliore la pertinence de la recherche et garantit des résultats de recherche plus précis pour les utilisateurs finaux.

Étape 8 : Gérer le schéma

Dans l’écran Gérer le schéma , vous pouvez modifier les attributs de schéma (les options sont Interroger, Rechercher, Récupérer et Affiner) associés aux propriétés par défaut ou personnalisées, ajouter des alias facultatifs et choisir la propriété Content .

Étape 9 : Gérer les autorisations de recherche

Le connecteur sites web d’entreprise prend uniquement en charge les autorisations de recherche visibles par tout le monde. Les données indexées apparaissent dans les résultats de la recherche et sont visibles par tous les utilisateurs du organization.

Étape 10 : Définir la planification de l’actualisation

Le connecteur sites web d’entreprise prend en charge l’analyse complète et incrémentielle. L’analyse incrémentielle est uniquement prise en charge pour les connexions configurées avec l’analyse du plan de site activée. Le plan de site pour l’analyse peut être sélectionné à l’étape 3.

Pendant un intervalle d’actualisation incrémentielle, seules les URL qui ont été modifiées depuis la dernière actualisation incrémentielle sont analysées. Dans un intervalle d’actualisation complet, le connecteur recrawwl tout le contenu du site web. Pour une actualisation complète, nous vous recommandons de définir un intervalle de planification d’actualisation important, entre une et deux semaines, afin de vous assurer que le connecteur dispose de suffisamment de temps pour terminer l’analyse. Nous vous recommandons une actualisation planifiée.

Étape 11 : Vérifier la connexion

Suivez les instructions d’installation générales.

Résolution des problèmes

Lors de la lecture du contenu du site web, l’analyse peut rencontrer des erreurs sources, qui sont représentées par les codes d’erreur détaillés ci-dessous. Pour obtenir plus d’informations sur les types d’erreurs, accédez à la page détails de l’erreur après avoir sélectionné la connexion. Sélectionnez le code d’erreur pour afficher des erreurs plus détaillées. Pour en savoir plus, consultez Surveiller vos connexions .

Code d’erreur détaillé Message d’erreur
6001 Le site qui est en cours d’indexation n’est pas accessible
6005 La page source que l’on tente d’indexer a été bloquée par robots.txt configuration.
6008 Impossible de résoudre le DNS
6009 Pour toutes les erreurs côté client (sauf HTTP 404, 408), reportez-vous aux codes d’erreur HTTP 4xx pour plus d’informations.
6013 Impossible de trouver la page source qui est en cours d’indexation. (Erreur HTTP 404)
6018 La page source ne répond pas et la demande a expiré. (Erreur HTTP 408)
6021 La page source qui est tentée d’indexer n’a aucun contenu textuel sur la page.
6023 La page source que l’on tente d’indexer n’est pas prise en charge (pas une page HTML)
6024 La page source que l’on tente d’indexer a du contenu non pris en charge.
  • Les erreurs 6001-6013 se produisent lorsque la source de données n’est pas accessible en raison d’un problème réseau ou lorsque la source de données elle-même est supprimée, déplacée ou renommée. Vérifiez si les détails de la source de données fournis sont toujours valides.
  • Les erreurs 6021-6024 se produisent lorsque la source de données contient du contenu non textuel sur la page ou lorsque la page n’est pas html. Vérifiez la source de données et ajoutez cette page dans la liste d’exclusions ou ignorez l’erreur.