Planifier l’analyse et la fédération (Search Server 2010)

 

S’applique à : Search Server 2010

Dernière rubrique modifiée : 2016-11-30

Pour que les utilisateurs finals puissent utiliser la fonctionnalité de recherche de contenu d’entreprise dans Microsoft Search Server 2010, vous devez d’abord analyser ou fédérer le contenu que vous souhaitez rendre disponible à la recherche. La planification de l’analyse ou de la fédération inclut les tâches suivantes :

  • Planifier les sources de contenu

  • Planifier les inclusions de types de fichiers et les IFilters

  • Planifier l’authentification

  • Planifier les connecteurs

  • Planifier la gestion de l’impact de l’analyse

  • Planifier des règles d'analyse

  • Planifier les paramètres de recherche gérés au niveau de la batterie de serveurs

  • Planifier la fédération

Planifier les sources de contenu

Une source de contenu est un ensemble d’options que vous pouvez utiliser pour spécifier le type de contenu analysé, les URL à analyser, le degré d’analyse et à quel moment analyser. La source de contenu par défaut est Sites locaux SharePoint. Vous pouvez utiliser cette source de contenu pour spécifier comment analyser tout le contenu de toutes les applications Web qui sont associées à une application de service de recherche particulière. Par défaut, pour chaque application Web qui utilise une application de service de recherche particulière, Search Server 2010 ajoute l’adresse de démarrage du site supérieur de chaque collection de sites à la source de contenu par défaut.

Certaines organisations peuvent utiliser la source de contenu par défaut pour satisfaire leurs besoins de recherche. Cependant, de nombreuses organisations ont besoin d’autres sources de contenu. Prévoyez d’autres sources de contenu lorsque vous devez effectuer ce qui suit :

  • analyser différents types de contenu (par exemple, des sites SharePoint, des partages de fichiers et des données métiers) ;

  • analyser des contenus dans des planifications différentes ;

  • limiter ou augmenter la quantité de contenu analysée ;

  • définir des priorités différentes pour analyser différents sites.

Vous pouvez créer jusqu’à 500 sources de contenu dans chaque application de service de recherche, et chaque source de contenu peut contenir jusqu’à 500 adresses de démarrage. Pour une administration aussi simple que possible, nous vous recommandons tout de même de limiter le nombre de sources de contenu que vous créez.

Planifier l’analyse de différents types de contenu

Vous pouvez analyser un seul type de contenu par source de contenu. C’est-à-dire que vous pouvez créer une source de contenu qui contient des adresses de démarrage pour des sites SharePoint et une autre source de contenu qui en contient pour des partages de fichiers. Cependant, vous ne pouvez pas créer une seule source de contenu contenant des adresses de démarrage pour à la fois des sites SharePoint et des partages de fichiers. Le tableau suivant répertorie les types de sources de contenu que vous pouvez configurer.

Utilisez ce type de source de contenu Pour ce contenu

Sites SharePoint

Sites SharePoint de la même batterie ou de batteries Microsoft SharePoint Server 2010, Microsoft SharePoint Foundation 2010 ou Microsoft Search Server 2010 différentes

Sites SharePoint de la même batterie ou de batteries Microsoft Office SharePoint Server 2007, Windows SharePoint Services 3,0 ou Microsoft Search Server 2008 différentes

Sites SharePoint de batteries Microsoft Office SharePoint Portal Server 2003 ou Windows SharePoint Services 2.0 farms

Notes

À la différence de l’analyse de sites SharePoint sur SharePoint Server 2010, SharePoint Foundation 2010 ou Search Server 2010, le robot ne peut pas analyser automatiquement tous les sous-sites d’une collection de sites relevant des versions antérieures des produtis et technologies SharePoint. Par conséquent, lorsque vous analysez des sites SharePoint de versions antérieures, vous devez spécifier l’adresse de démarrage de chaque site de niveau supérieur et l’URL de chaque sous-site à analyser.

Sites Web

Autre contenu Web de votre organisation non situé sur des sites SharePoint

Contenu de sites Web sur Internet

Partages de fichiers

Contenu de partages de fichiers au sein de votre organisation

Dossiers publics Exchange

Contenu Microsoft Exchange Server

Lotus Notes

Courriers électroniques stockés dans des bases de données Lotus Notes

Notes

À la différence de toutes les autres sources de contenu, l’option Lotus Notes n’apparaît pas dans l’interface utilisateur tant que vous n’avez pas installé et configuré le logiciel prérequis approprié. Pour plus d’informations, voir Configurer et utiliser le connecteur Lotus Notes (Search Server 2010).

Données métiers

Données métiers stockées dans des applications métiers

Planifier les sources de contenu pour les données métiers

Les sources de contenu des données métiers requièrent que les applications hébergeant les données soient spécifiées dans un modèle d’application d’une application de service Business Data Connectivity. Vous pouvez créer une seule source de contenu pour analyser toutes les applications enregistrées dans le service Business Data Connectivity, ou vous pouvez créer des sources de contenu distinctes pour analyser des applications individuelles.

Souvent, les personnes qui planifient l’intégration de données métiers à des collections de sites ne sont pas les mêmes que celles impliquées dans le processus de planification de contenu global. Par conséquent, incluez des administrateurs d’applications métiers dans les équipes de planification de contenu afin qu’ils puissent vous conseiller sur la manière d’intégrer les données des applications métiers au contenu et de les présenter de manière efficace dans les collections de sites.

Analyser le contenu de différentes planifications

Vous devez déterminer si certains contenus sont analysés plus souvent que d’autres. Plus le contenu analysé est volumineux, plus il est probable que vous soyez en train d’analyser du contenu en provenance de différents référentiels de contenu. Ce contenu peut comprendre différents types de contenu et se situer sur des serveurs dont les capacités varient. Ces facteurs augmentent la probabilité d’avoir à ajouter des sources de contenu afin d’analyser les différents référentiels de contenu dans des planifications différentes.

Les principales raisons d’analyser du contenu sur différentes planifications sont les suivantes :

  • s’adapter aux temps morts et aux périodes d’utilisation maximale ;

  • analyser plus souvent le contenu le plus fréquemment mis à jour ;

  • analyser séparément le contenu situé sur des serveurs plus lents et le contenu situé sur des serveurs plus rapides.

Dans de nombreux cas, toutes ces informations ne sont pas connues tant que vous n’avez pas déployé et exécuté pendant un certain temps Search Server 2010. Le cas échéant, vous devez spécifier des planifications d’analyse une fois que la batterie de serveurs est en production. Néanmoins, il s’avère judicieux de considérer ces facteurs pendant la planification afin de pouvoir prévoir les planifications d’analyse en fonction des informations dont vous disposez.

Les deux sections suivantes fournissent davantage d’informations sur l’analyse de contenu dans des planifications différentes.

Considérations liées aux planifications d’analyse

Vous pouvez configurer des planifications d’analyse indépendamment pour chaque source de contenu. Pour chaque source de contenu, vous pouvez spécifier une heure à laquelle effectuer des analyses complètes et une autre heure à laquelle effectuer des analyses incrémentielles. Notez que vous devez exécuter une analyse complète d’une source de contenu particulière avant d’exécuter une analyse incrémentielle. Même si vous spécifiez une analyse incrémentielle pour du contenu qui n’a pas encore été analysé, le système effectue une analyse complète.

Notes

Dans la mesure où une analyse complète analyse tout le contenu rencontré par le robot et auquel ce dernier a au moins accès en lecture, que ce contenu ait été analysé précédemment ou non, les analyses complètes prennent plus de temps que les analyses incrémentielles.

Nous vous recommandons de prévoir les planifications d’analyse en fonction de la disponibilité, des performances et de la bande passante des serveurs d’analyse et de requête.

Lorsque vous prévoyez les planifications d’analyse, tenez compte des bonnes pratiques suivantes :

  • Regroupez les adresses de démarrage dans les sources de contenu selon leur disponibilité similaire et leur utilisation globale acceptable des ressources des serveurs qui hébergent le contenu.

  • Planifiez les analyses incrémentielles de chaque source de contenu à des moments où les serveurs qui hébergent le contenu sont disponibles et que la demande est faible sur leurs ressources.

  • Échelonnez les planifications d’analyse afin que la charge sur les serveurs de la batterie soit répartie dans le temps.

  • Planifiez les analyses complètes uniquement lorsque cela est nécessaire pour les raisons répertoriées dans la section suivante. Nous vous recommandons d’exécuter des analyses complètes moins souvent que des analyses incrémentielles.

  • Planifiez les modifications administratives qui requièrent une analyse complète un peu avant la planification prévue pour les analyses complètes. Par exemple, nous vous recommandons de planifier la création d’une règle d’analyse avant la prochaine analyse complète planifiée afin d’éviter une analyse complète supplémentaire.

  • Basez les analyses simultanées sur la capacité disponible. Pour de meilleures performances, nous vous recommandons d’échelonner les planifications d’analyse des sources de contenu. Vous pourrez optimiser ces dernières au fil du temps en vous familiarisant avec les durées d’analyse habituelles de chaque source de contenu.

Raisons d’effectuer une analyse complète

Les raisons pour lesquelles un administrateur d’application de service de recherche est amené à effectuer une analyse complète sont les suivantes :

  • Une mise à jour logicielle ou un Service Pack ont été installés sur les serveurs de la batterie. Voir les instructions correspondantes pour plus d’informations.

  • Un administrateur des services partagés Microsoft Office SharePoint Server 2007 ou un administrateur d’application de service de recherche Search Server 2010 a ajouté une nouvelle propriété gérée. Une analyse complète est requise pour que la nouvelle propriété gérée prenne effet immédiatement. Si vous ne voulez pas qu’elle prenne effet immédiatement, l’analyse complète n’est pas requise.

  • Vous souhaitez réindexer des pages ASPX sur des sites Windows SharePoint Services 3,0 ou Microsoft Office SharePoint Server 2007.

    Notes

    Le robot ne parvient pas à découvrir à quel moment des pages ASPX de sites Windows SharePoint Services 3,0 ou Office SharePoint Server 2007 ont changé. Par conséquent, les analyses incrémentielles ne réindexent pas les affichages ou les pages d’accueil lorsque des éléments de liste individuels sont supprimés. Nous vous recommandons d’effectuer régulièrement des analyses complètes des sites qui contiennent des fichiers ASPX afin de veiller à ce que ces pages soient réindexées.

  • Vous voulez détecter les modifications de sécurité qui ont été effectuées sur un partage de fichiers après la dernière analyse complète de ce partage de fichiers.

  • Vous voulez remédier à des échecs d’analyse incrémentielle consécutifs. Si une analyse incrémentielle échoue à cent reprises consécutives à tout niveau d’un référentiel, le système supprime le contenu concerné de l’index.

  • Des règles d’analyse ont été ajoutées, supprimées ou modifiées.

  • Vous voulez réparer un index endommagé.

  • L’administrateur d’application de service de recherche a créé un ou plusieurs mappages de noms de serveurs.

  • Les informations d’identification du compte d’utilisateur affecté au compte d’accès au contenu par défaut ou une règle d’analyse ont changé.

Le système effectue une analyse complète même lorsqu’une analyse incrémentielle est demandée dans les circonstances suivantes :

  • Un administrateur de recherche a arrêté l’analyse précédente.

  • Une base de données de contenu a été restaurée ou un administrateur de batterie de serveurs a détaché, puis rattaché une base de données de contenu.

    Notes

    Si vous exécutez Office SharePoint Server 2007 avec Mise à jour d’infrastructure pour les produits serveur de Microsoft Office ou Search Server 2010, vous pouvez utiliser l’opération de restauration de l’outil en ligne de commande Stsadm pour déterminer si une restauration de base de données de contenu engendre une analyse complète ou non.

  • Une analyse complète du site n’a jamais été effectuée depuis cette application de service de recherche.

  • Le journal des modifications ne contient pas d’entrées pour les adresses en cours d’analyse. Sans entrées dans le journal des modifications pour les éléments en cours d’analyse, les analyses incrémentielles ne peuvent pas se produire.

Vous pouvez ajuster les planifications à l’issue du déploiement initial en fonction des performances et de la capacité des serveurs de la batterie et des serveurs hébergeant le contenu.

Limiter ou augmenter la quantité de contenu analysée

Pour chaque source de contenu, vous pouvez spécifier l’ampleur de l’analyse des adresses de démarrage. Vous spécifiez également le comportement de l’analyse en en modifiant les paramètres. Les options disponibles pour une source de contenu particulière varient en fonction du type de source de contenu sélectionné. En revanche, la plupart des options d’analyse spécifient le nombre de niveaux à analyser dans la hiérarchie à partir de chaque adresse de démarrage. Notez que ce comportement s’applique à toutes les adresses de démarrage d’une source de contenu particulière. Si vous devez analyser certains sites plus profondément, vous pouvez créer d’autres sources de contenu qui incluent ces sites.

Vous pouvez utiliser les options des paramètres d’analyse pour limiter ou augmenter la quantité de contenu analysée. Les options disponibles dans les propriétés de chaque source de contenu varient en fonction du type de source de contenu sélectionné. Le tableau suivant décrit les bonnes pratiques à suivre pour configurer ces options.

Pour ce type de source de contenu Dans ce contexte Utilisez cette option des paramètres d’analyse

Sites SharePoint

Vous voulez inclure le contenu du site lui-même sans inclure celui des sous-sites ou vous voulez analyser le contenu des sous-sites dans une autre planification.

Analyser seulement le site SharePoint de chaque adresse de démarrage

Sites SharePoint

Vous voulez inclure le contenu sur le site lui-même.

- ou -

Vous voulez analyser tout le contenu situé sous l’adresse de démarrage dans la même planification.

Analyser tout sous le nom d’hôte pour chaque adresse de démarrage

Sites Web

Le contenu disponible sur les sites liés a peu de chances d’être pertinent.

Analyser seulement sur le serveur de chaque adresse de démarrage

Sites Web

Le contenu pertinent se trouve sur la première page seulement.

Analyser seulement la première page de chaque adresse de démarrage

Sites Web

Vous voulez limiter la profondeur d’analyse des liens sur les adresses de démarrage.

Personnalisé - spécifiez la taille de page et les tronçons de serveur

Notes

Pour un site hautement connecté, nous vous recommandons de démarrer avec un nombre peu élevé, car si vous spécifiez une profondeur de plus de trois pages ou de plus de trois tronçons de serveur, l’analyse peut porter sur la totalité d’Internet.

Partages de fichiers

Dossiers publics Exchange

Le contenu disponible dans les sous-dossiers a peu de chances d’être pertinent.

N’analyser que le dossier de chaque adresse de démarrage

Partages de fichiers

Dossiers publics Exchange

Le contenu des sous-dossiers a des chances d’être pertinent.

Analyser le dossier et tous les sous-dossiers de chaque adresse de démarrage

Données métiers

Toutes les applications enregistrées dans le magasin de métadonnées BDC comportent du contenu pertinent.

Analyser toutes les sources de données externes de cette application de service Business Data Connectivity

Données métiers

Toutes les applications enregistrées dans le magasin de métadonnées BDC ne comportent pas du contenu pertinent.

- ou -

Vous voulez analyser certaines applications dans une autre planification.

Analyser les applications sélectionnées

Autres considérations lors de la planification des sources de contenu

Vous ne pouvez pas analyser les mêmes adresses de démarrage en utilisant plusieurs sources de contenu dans la même application de service de recherche. Par exemple, si vous utilisez une source de contenu particulière pour analyser une collection de sites et tous ses sous-sites, vous ne pouvez pas utiliser une source de contenu différente pour analyser l’un de ces sous-sites séparément dans une autre planification.

En plus des considérations liées aux planifications d’analyse, votre décision de regrouper les adresses de démarrage dans une seule source de contenu ou de créer d’autres sources de contenu dépend largement des considérations liées à l’administration. Les administrateurs apportent souvent des modifications qui permettent de mettre à jour une source de contenu particulière. La modification d’une source de contenu nécessite une analyse complète du référentiel de contenu spécifié dans cette source de contenu. Pour faciliter l’administration, organisez les sources de contenu de sorte que la mise à jour des sources de contenu, des règles d’analyse et des planifications d’analyse soit pratique pour les administrateurs.

Planifier les inclusions de types de fichiers et les IFilters

Le contenu est uniquement analysé si l’extension de nom de fichier appropriée est incluse dans la liste des inclusions de types de fichiers et si un IFilter est installé sur le serveur d’analyse qui prend en charge ces types de fichiers. Plusieurs types de fichiers et IFilters sont automatiquement inclus lors de l’installation initiale. Lorsque vous planifiez les sources de contenu dans votre déploiement initial, déterminez si le contenu que vous voulez analyser utilise des types de fichiers non inclus. Le cas échéant, vous devez ajouter ces types de fichiers à la page Gérer les types de fichiers lors du déploiement et veiller à ce qu’un IFilter soit installé et enregistré afin de les prendre en charge.

Si vous voulez exclure certains types de fichiers de l’analyse, vous pouvez supprimer l’extension de nom de fichier correspondante dans la liste des inclusions de types de fichiers. Ce faisant, vous excluez les noms de fichiers portant cette extension de l’analyse. Pour obtenir la liste des types de fichiers et IFilters installés par défaut, voir Types de fichiers et référence d’IFilters (Search Server 2010).

Planifier l’authentification

Lorsque le robot accède aux adresses de démarrage répertoriées dans les sources de contenu, il doit être authentifié par les serveurs qui hébergent ce contenu et autorisé à y accéder. Cela signifie que le compte de domaine utilisé par le robot doit posséder au moins des autorisations de lecture sur ce contenu.

Par défaut, le système utilise le compte d’accès au contenu par défaut. Sinon, vous pouvez utiliser des règles d’analyse pour spécifier un autre compte d’accès au contenu à utiliser pour analyser un contenu particulier. Que vous utilisiez le compte d’accès au contenu par défaut ou un autre compte spécifié par une règle d’analyse, le compte d’accès au contenu utilisé doit posséder des autorisations de lecture sur tout le contenu analysé. Dans le cas contraire, le contenu n’est pas analysé, n’est pas indexé et par conséquent, n’est pas disponible pour les requêtes.

Nous recommandons que le compte spécifié en tant que compte d’accès au contenu par défaut ait accès à la majorité du contenu analysé. Utilisez uniquement d’autres comptes d’accès au contenu en cas de considérations liées à la sécurité.

Pour chaque source de contenu planifiée, déterminez les adresses de démarrage inaccessibles pour le compte d’accès au contenu par défaut, puis prévoyez d’ajouter des règles d’analyse pour ces adresses de démarrage.

Important

Vérifiez que le compte de domaine utilisé pour le compte d’accès au contenu par défaut ou tout autre compte d’accès au contenu n’est pas le même compte de domaine que celui utilisé par un pool d’applications associé à une application Web que vous analysez, sans quoi du contenu non publié et des versions mineures de fichiers (c’est-à-dire de l’historique) de sites SharePoint peuvent être analysés et indexés.

Une autre considération importante est que le robot doit utiliser le même protocole d’authentification que le serveur hôte. Par défaut, le robot effectue l’authentification à l’aide du protocole NTLM. Vous pouvez le configurer afin qu’il en utilise un autre, si besoin.

Si vous utilisez l’authentification par revendications, vérifiez que l’authentification Windows est activée sur les applications Web à analyser.

Planifier les connecteurs

Tout le contenu analysé requiert l’utilisation d’un connecteur (également appelé gestionnaire de protocole dans les versions précédentes) permettant d’accéder à ce contenu. Search Server 2010 fournit des connecteurs pour tous les protocoles Internet courants. En revanche, si vous voulez analyser du contenu qui requiert un connecteur qui n’est pas installé avec Search Server 2010, vous devez installer ce connecteur tiers ou personnalisé avant d’analyser le contenu. Pour obtenir la liste des connecteurs installés par défaut, voir Connecteurs par défaut (Search Server 2010). Pour plus d’informations sur la manière d’installer des connecteurs, voir Installer des connecteurs (Search Server 2010).

Planifier la gestion de l’impact de l’analyse

L’analyse de contenu peut considérablement diminuer les performances des serveurs qui hébergent ce contenu. L’impact alors exercé sur un serveur particulier varie en fonction de la charge que le serveur hôte subit et de ses ressources disponibles (notamment en termes de processeur et de mémoire vive) pour honorer les contrats de niveau de service dans des conditions d’utilisation normale ou maximale.

Les administrateurs de recherche peuvent utiliser des règles d’impact du robot pour gérer l’impact du robot sur les serveurs en cours d’analyse. Pour chaque règle d’impact du robot, vous pouvez spécifier une seule URL ou utiliser des caractères génériques dans le chemin d’accès de l’URL afin d’inclure un bloc d’URL auxquelles appliquer la règle. Vous pouvez ensuite spécifier le nombre de demandes simultanées de pages vers l’URL spécifiée ou décider de demander un seul document à la fois et de patienter quelques secondes entre les demandes.

Les règles d’impact du robot permettent de spécifier la cadence à laquelle le robot demande du contenu auprès d’une adresse de démarrage particulière ou d’une plage d’adresses de démarrage (également appelée nom de site). Une règle d’impact du robot s’applique à toutes les sources de contenu de l’application de service de recherche tandis que les fréquences des demandes s’appliquent par composant d’analyse. Le tableau suivant présente les caractères génériques que vous pouvez utiliser dans le nom du site lorsque vous ajoutez ou modifiez une règle d’impact du robot.

Ce caractère générique Produit ce résultat

* en tant que nom de site

Applique la règle à tous les sites.

*.* en tant que nom de site

Applique la règle aux sites qui comportent des points dans leur nom.

*.nom_site.com en tant que nom de site

Applique la règle à tous les sites compris dans le domaine nom_site.com (par exemple, *.adventure-works.com).

*.nom_domaine_niveau_supérieur en tant que nom de site

Applique la règle à tous les sites qui se terminent par un nom de domaine de niveau supérieur spécifique, par exemple, *.com ou *.net.

?

Remplace un seul caractère dans une règle. Par exemple, *.adventure-works?.com applique la règle à tous les sites des domaines adventure-works1.com, adventure-works2.com, et ainsi de suite.

Vous pouvez créer une règle d’impact du robot qui s’applique à tous les sites d’un domaine de niveau supérieur particulier. Par exemple, *.com s’applique à tous les sites Internet dont l’adresse se termine par .com. Par exemple, l’administrateur d’un site de portail peut ajouter une source de contenu pour exemples.microsoft.com. La règle *.com s’applique à ce site sauf si vous ajoutez une règle d’impact du robot particulière pour exemples.microsoft.com.

Vous pouvez agir en coordination avec les administrateurs des systèmes de recherche qui analysent le contenu de votre organisation afin de définir des règles d’impact du robot en fonction des performances et capacités des serveurs. Pour la plupart des sites externes, cette coordination n’est pas possible. Le fait de demander trop de contenu sur des serveurs externes ou d’effectuer des demandes trop fréquentes peut amener les administrateurs de ces sites à limiter l’accès si les analyses utilisent trop de ressources. Pendant le déploiement initial, définissez des règles d’impact du robot afin d’exercer un impact aussi faible que possible sur les autres serveurs tout en analysant quand même suffisamment de contenu suffisamment souvent pour garantir que l’actualisation de l’index respecte votre contrat de niveau de service. Une fois que la batterie de serveurs est en production, vous pouvez ajuster les règles d’impact du robot en fonction des données figurant dans les journaux d’analyse.

Planifier des règles d’analyse

Les règles d’analyse s’appliquent à toutes les sources de contenu dans l’application de service de recherche. Vous pouvez appliquer des règles d’analyse à une URL particulière ou à un ensemble d’URL dans les buts suivants :

  • Éviter d’analyser du contenu non pertinent en excluant une ou plusieurs URL. Cela permet également de réduire l’utilisation des ressources de serveur et le trafic réseau, et d’augmenter la pertinence des résultats de recherche.

  • Analyser les liens de l’URL sans analyser l’URL. Cette option s’avère utile pour les sites qui comportent des liens de contenu pertinent lorsque la page qui contient ces liens ne contient pas d’informations pertinentes.

  • Permettre à des URL complexes d’être analysées. Cette option oblige le système à analyser les URL qui contiennent un paramètre de requête spécifié à l’aide d’un point d’interrogation. Selon le site, ces URL peuvent ne pas inclure de contenu pertinent. Étant donné que les URL complexes peuvent souvent rediriger vers des sites non pertinents, il est judicieux d’activer cette option uniquement sur les sites dont vous savez que le contenu disponible à partir des URL complexes est pertinent.

  • Permettre au contenu de sites SharePoint d’être analysé en tant que pages HTTP. Cette option permet au système d’analyser des sites SharePoint situés derrière un pare-feu ou de gérer les situations dans lesquelles le site analysé restreint l’accès au service Web utilisé par le robot.

  • Indiquer s’il faut utiliser le compte d’accès au contenu par défaut, un autre compte d’accès au contenu ou un certificat pour analyser l’URL spécifiée.

Parce que l’analyse de contenu consomme les ressources et la bande passante, il convient d’inclure une petite quantité de contenu que vous savez pertinente plutôt qu’une grande quantité de contenu susceptible de ne pas l’être. À l’issue du déploiement initial, vous pouvez consulter les journaux de requête et d’analyse afin d’ajuster les sources de contenu et les règles d’analyse pour accroître la pertinence et inclure davantage de contenu.

Planifier les paramètres de recherche gérés au niveau de la batterie de serveurs

Plusieurs paramètres gérés au niveau de la batterie de serveurs agissent sur la manière d’analyser le contenu. Examinez les paramètres de recherche suivants lors de la planification de l’analyse :

  • Adresse de messagerie du contact : L’analyse de contenu a des répercussions sur les ressources des serveurs analysés. Avant de pouvoir analyser du contenu, vous devez fournir, dans les paramètres de configuration, l’adresse de messagerie de la personne de votre organisation que les administrateurs peuvent contacter si l’analyse a un effet négatif sur leurs serveurs. Cette adresse de messagerie apparaît dans les journaux des administrateurs des serveurs analysés afin qu’ils puissent contacter quelqu’un si l’impact de l’analyse sur les performances et la bande passante est trop important ou si d’autres problèmes surgissent.

    L’adresse de messagerie du contact doit appartenir à une personne qui possède les compétences et la disponibilité nécessaires afin de répondre rapidement aux demandes. Vous pouvez également utiliser un alias de liste de distribution étroitement surveillé en tant qu’adresse de messagerie du contact. Que le contenu analysé soit stocké en interne au sein de l’organisation ou pas, une réponse rapide est primordiale.

  • Paramètres du serveur proxy : Vous pouvez choisir d’utiliser un serveur proxy pour analyser du contenu. Le serveur proxy à utiliser dépend de la topologie de votre déploiement Search Server 2010 et de l’architecture des autres serveurs de votre organisation. Il est probable que vous deviez utiliser un serveur proxy pour analyser du contenu Internet. Pour plus d’informations sur la manière de configurer les paramètres du serveur proxy pour la recherche, voir Configurer les paramètres de serveur proxy au niveau de la batterie de serveurs (Search Server 2010 Express) et Configurer les paramètres de serveur proxy pour la recherche (Search Server 2010).

  • Paramètres de délai d’expiration : Les paramètres de délai d’expiration sont utilisés pour limiter le temps d’attente du système de recherche pendant la connexion à d’autres services.

  • Paramètre SSL : Le paramètre Secure Sockets Layer (SSL) détermine si le certificat SSL doit correspondre exactement pour analyser le contenu.

Planifier la fédération

La recherche fédérée consiste à interroger simultanément plusieurs ressources Web ou bases de données afin de générer une page de résultats de recherche unique pour les utilisateurs finals. Lorsque vous ajoutez un emplacement fédéré, les utilisateurs peuvent rechercher et récupérer du contenu qui n’a pas été analysé par les serveurs du système local. Les emplacements fédérés permettent d’envoyer des requêtes à des moteurs de recherche distants et à des flux. Par conséquent, le système présente les résultats aux utilisateurs finals comme si le contenu fédéré faisait partie du contenu analysé.

Search Server 2010 prend en charge les types suivants d’emplacements fédérés :

  • Index de recherche sur ce serveur. Vous pouvez utiliser tout site local ou distant de votre organisation qui dispose d’un serveur exécutant Search Server 2010 en tant qu’emplacement fédéré. Par exemple, imaginez qu’un site SharePoint situé sur un serveur Ressources humaines d’une entreprise soit la seule source d’informations de contact sur les employés disponible. Même si le site ne fait pas partie de votre étendue d’analyse, vous pouvez configurer un emplacement fédéré pour lui afin que les utilisateurs qui lancent une recherche à partir de votre site Centre de recherche puissent récupérer les résultats d’informations de contact sur les employés qu’ils sont autorisés à voir. Les conditions suivantes s’appliquent :

    1. L’emplacement est défini sur Index de recherche sur ce serveur.

    2. Aucun modèle de requête n’est requis. Search Server 2010 utilise le modèle objet pour interroger un emplacement.

    3. L’authentification de serveur par défaut est utilisée.

    4. Les requêtes de recherche avancées ne sont pas prises en charge.

  • OpenSearch 1.0 ou 1.1. Vous pouvez utiliser tout site Web public qui prend en charge la norme OpenSearch en tant qu’emplacement fédéré. Par exemple, un tel emplacement peut être un moteur de recherche Internet comme Bing, ou une page de résultats de recherche qui prend en charge les protocoles RSS ou Atom. Imaginez par exemple que vous voulez que les utilisateurs qui recherchent sur vos sites internes des informations de recherches techniques brevetées puissent également voir d’autres informations de recherche associées provenant de sites Web publics. En configurant un emplacement fédéré pour une requête de recherche Bing, les résultats de recherche Web sont automatiquement inclus pour les utilisateurs. Les conditions suivantes s’appliquent :

    1. Il est possible d’envoyer des requêtes vers un moteur de recherche sous forme d’URL, telle que http://www.exemple.com/search.aspx?q=TEST.

    2. Les résultats de recherche sont renvoyés au format RSS, Atom ou dans un autre format XML structuré.

    3. Les fonctionnalités d’emplacement, les modèles de requête et les éléments de réponse font partie d’un fichier de description OpenSearch (.osdx) associé à l’emplacement.

    4. Les extensions d’OpenSearch propres à Search Server 2010 prennent en charge la capacité d’inclure des déclencheurs et la capacité d’associer du code XSL aux résultats de recherche.

    5. Le choix des métadonnées à afficher dans les résultats de recherche est déterminé par l’emplacement OpenSearch.

    Pour plus d’informations sur OpenSearch, voir https://www.opensearch.org (éventuellement en anglais).

Lorsqu’une requête de recherche est envoyée à un emplacement fédéré, elle est envoyée sous forme de paramètres d’URL dans un format appelé modèle de requête. Le système met en forme et rend les résultats en langage XML pour les utilisateurs du site Centre de recherche. Le format XML s’affiche dans un composant WebPart dans la page de résultats de recherche sous forme de texte lisible. Vous pouvez ajouter et configurer des composants WebPart dans la page de résultats de recherche sous la forme de composants WebPart Résultats de recherche fédérés, Meilleurs résultats fédérés ou Résultats principaux. Par défaut, la page de résultats de recherche contient trois composants WebPart Résultats de recherche fédérés.

Réfléchissez aux questions suivantes pour déterminer si vous souhaitez présenter des résultats de recherche fédérés aux utilisateurs :

  1. Voulez-vous afficher des résultats personnalisés pour des recherches particulières ? Pour veiller à ce que l’emplacement fédéré renvoie des résultats qui correspondent aux requêtes spécifiques, vous pouvez utiliser des règles de déclencheur. Lorsque vous créez une règle de déclencheur pour un emplacement fédéré, le composant WebPart associé à cet emplacement affiche des résultats uniquement pour les requêtes utilisateur qui correspondent au modèle ou préfixe que vous spécifiez.

  2. Pouvez-vous utiliser une URL pour spécifier les résultats de recherche à récupérer pour une requête ? Pour créer un emplacement fédéré, vous devez spécifier un modèle de requête, lequel combine l’URL et les paramètres requis pour envoyer une requête de recherche et renvoyer les résultats au format XML. Lorsque vous ajoutez ces informations au champ Modèle de requête de la page Ajouter un emplacement fédéré, vous devez mettre la chaîne en forme correctement (comme indiqué dans l’exemple de la page Ajouter un emplacement fédéré), sans quoi le fournisseur de résultats de recherche ne renvoie aucun résultat.

  3. Les utilisateurs peuvent-ils accéder aux liens fournis par l’emplacement fédéré ? Si votre organisation octroie uniquement un accès limité aux ressources Internet, l’utilisation d’un moteur de recherche Internet en tant qu’emplacement fédéré risque de frustrer les utilisateurs car ils ne seront pas en mesure d’afficher certains résultats de recherche.

  4. L’authentification est-elle requise ? Si l’emplacement fédéré requiert une authentification, vous devez fournir les informations d’identification correctes. De nombreux emplacements fédérés, tels que les moteurs de recherche Internet, ne requièrent pas d’informations d’identification.

Planifier les types d’authentification pour la fédération

Plusieurs types d’authentification des utilisateurs, d’informations d’identification par utilisateur et communes, sont disponibles pour la recherche fédérée. Cependant, ayez conscience que la collecte d’informations d’identification requiert une extension de composant WebPart pour les types d’authentification non-Kerberos dans le cadre de l’authentification par utilisateur. Dans la section des informations sur l’authentification et les informations d’identification de la définition de l’emplacement, vous spécifiez le type d’authentification de l’emplacement fédéré. Celui-ci peut être l’un des suivants :

  • Anonyme

    Aucune informations d’identification n’est requise pour se connecter à l’emplacement fédéré.

  • Commune

    Chaque connexion utilise le même ensemble d’informations d’identification pour se connecter à l’emplacement fédéré.

  • Par utilisateur

    Les informations d’identification de l’utilisateur qui a envoyé la requête de recherche sont utilisées pour se connecter à l’emplacement fédéré.

Pour les types d’authentification commune et par utilisateur, vous devez également spécifier l’un des protocoles d’authentification suivants :

  • De base

    L’authentification de base fait partie de la spécification HTTP et la plupart des navigateurs la prennent en charge.

    Note de sécuritéSecurity Note
    Les navigateurs Web qui utilisent l’authentification de base transmettent des mots de passe non chiffrés. En surveillant les communications sur le réseau, un utilisateur malveillant peut utiliser des outils publiquement disponibles pour intercepter et décoder ces mots de passe. Par conséquent, nous ne recommandons pas l’authentification de base sauf si vous êtes sûr que la connexion est sécurisée, notamment avec une ligne dédiée ou une connexion SSL (Secure Sockets Layer).
  • Digest

    L’authentification Digest repose sur le protocole HTTP 1.1 comme indiqué dans la spécification RFC 2617 du site Web World Wide Web Consortium (W3C). Étant donné que l’authentification Digest requiert une conformité HTTP 1.1, certains navigateurs ne la prennent pas en charge. Si un navigateur non compatible avec le protocole HTTP 1.1 demande un fichier lorsque l’authentification Digest est activée, la demande est rejetée car l’authentification Digest n’est pas prise en charge par le client. Vous pouvez utiliser l’authentification Digest uniquement dans des domaines Windows. Elle fonctionne avec des comptes de domaine Windows Server 2008, Windows Server 2003 et Microsoft Windows 2000 Server uniquement et peut nécessiter que les comptes stockent les mots de passe sous forme de texte brut chiffré.

  • NTLM

    Les enregistrements d’utilisateur sont stockés dans la base de données du Gestionnaire des comptes de sécurité (SAM) ou dans la base de données Active Directory. Chaque compte d’utilisateur est associé à deux mots de passe : le mot de passe compatible LAN Manager et le mot de passe Windows. Chaque mot de passe est chiffré et stocké dans la base de données SAM ou dans la base de données Active Directory.

  • Kerberos (type d’authentification par utilisateur uniquement)

    À l’aide du protocole Kerberos, une partie située à l’une ou l’autre des extrémités de la connexion réseau peut vérifier que la partie située à l’autre extrémité est bien l’entité qu’elle prétend être. Bien que l’authentification NTLM permette aux serveurs de vérifier les identités de leurs clients, elle ne permet pas aux clients de vérifier l’identité d’un serveur, ni à un serveur de vérifier l’identité d’un autre serveur. L’authentification NTLM est conçue pour un environnement réseau dans lequel les serveurs sont supposés être approuvés.

  • Basée sur les formulaires

    Un cookie d’authentification basée sur les formulaires n’est rien d’autre qu’un conteneur de ticket d’authentification. Chaque demande transmet le ticket sous forme de valeur du cookie et le ticket est utilisé sur le serveur pour identifier un utilisateur authentifié. Cependant, l’authentification basée sur les formulaires sans cookie transmet le ticket dans l’URL dans un format chiffré. Cette authentification est utilisée parce que les navigateurs clients peuvent éventuellement bloquer les cookies. Cette fonctionnalité est introduite dans Microsoft .NET Framework 2.0.

Si vous utilisez l’authentification par revendications dans votre environnement, vérifiez que l’authentification Windows est également activée sur toutes les sources de contenu à analyser. Pour plus d’informations sur les méthodes d’authentification dans SharePoint Server 2010, voir Planifier des méthodes d’authentification (SharePoint Server 2010).