Planifier l’analyse du contenu (Office SharePoint Server)
Mise à jour : 2009-02-26
Dans cet article :
À propos de l’analyse et de l’indexation du contenu
Identification des sources de contenu que vous voulez analyser
Planification des sources de contenu
Planification de l’authentification
Planification des gestionnaires de protocole
Planification de l’impact de l’analyse
Planification des règles d’analyse
Planification des paramètres de recherche gérés au niveau de la batterie de serveurs
Indexation de contenu dans différentes langues
Feuille
L'objectif de cet article est d'aider les administrateurs des services de recherche à comprendre comment Microsoft Office SharePoint Server 2007 analyse et indexe le contenu et à analyser le contenu.
Avant que les utilisateurs finaux puissent employer la fonctionnalité de recherche de contenu d’entreprise d’Office SharePoint Server 2007 pour rechercher du contenu, vous devez d’abord analyser le contenu à mettre à la disposition des requêtes des utilisateurs.
Dans cet article, un contenu peut être défini comme un élément qui peut être analysé, tel qu’une page Web, un document Microsoft Office Word, des données métiers ou un fichier de message électronique.
Lors de la planification de l’analyse de contenu, vous devez vous poser les questions suivantes :
Où est situé physiquement le contenu que vous souhaitez analyser ?
Une partie du contenu que vous souhaitez analyser est-elle stockée dans différents types de sources, tels que des partages de fichiers, des sites SharePoint, des sites Web ou d’autres endroits ?
Voulez-vous analyser tout le contenu dans des sources spécifiques ou seulement une partie de celui-ci ?
Quels sont les types des fichiers qui constituent le contenu que vous souhaitez analyser ?
À quel moment et à quelle fréquence faut-il analyser le contenu ?
Comment ce contenu est-il sécurisé ?
Utilisez les informations de cet article pour trouver plus facilement les réponses à ces questions et pour prendre les décisions de planification nécessaires quant au contenu que vous souhaitez analyser, et comment et quand vous voulez l’analyser.
Aux endroits clés de cet article, vous êtes invité à remplir une section d’une feuille de travail qui se rapporte aux informations que vous avez lues. Vous pouvez enregistrer vos décisions sur la feuille de travail au fil de votre progression dans cet article ou bien toutes vos décisions en même temps à la fin de cet article. Dans les deux cas, une feuille de travail complétée sera une ressource précieuse lors du déploiement de votre solution de recherche.
Remarque : |
---|
Cet article décrit le processus de planification pour l’analyse et l’indexation du contenu dans un seul index. Si, pendant que vous planifiez l’analyse de votre contenu, vous décidez d’utiliser un index de contenu supplémentaire, notez vos décisions de planification pour chaque fournisseur de services partagés (SSP, Shared Service Provider) sur une feuille de calcul séparée. |
Office SharePoint Server 2007 inclut le service Office SharePoint Server Search, qui sert à analyser et à indexer le contenu. Ce service fait partie d’un fournisseur de services partagés et tout le contenu analysé à l’aide d’un fournisseur de services partagés particulier est indexé dans un seul index. Pour plus d’informations sur le choix du nombre de fournisseurs de services partagés à utiliser pour indexer le contenu, voir Planifier des fournisseurs de services partagés.
À propos de l’analyse et de l’indexation du contenu
L’analyse et l’indexation du contenu sont le processus par lequel le système accède au contenu et analyse ce contenu ainsi que ses propriétés, parfois appelées métadonnées, pour créer un index du contenu qui servira à fournir des réponses aux requêtes de recherche.
Le résultat d’une analyse correcte de contenu est que les fichiers ou les éléments de contenu individuels que vous voulez rendre disponibles aux requêtes de recherche sont accessibles et lus par l’analyseur. Les mots clés et les métadonnées pour ces fichiers sont stockés dans l’index de contenu, parfois appelé simplement « index ». L’index est constitué des mots clés qui sont stockés dans le système de fichiers du serveur d’index, et des métadonnées qui sont stockées dans la base de données de recherche. Le système gère un mappage entre les mots clés, les métadonnées associées aux éléments individuels du contenu à partir duquel les mots clés ont été analysés, et l’URL de la source à partir de laquelle le contenu a été analysé.
Remarque : |
---|
L’analyseur ne modifie en rien les fichiers sur les serveurs hôtes. Au lieu de cela, ces fichiers font simplement l’objet d’un accès en lecture, et le texte et les métadonnées pour ces fichiers sont envoyés sur le serveur d’index pour y être indexés. Cependant, étant donné que l’analyseur lit le contenu sur le serveur hôte, des serveurs hébergeant certaines sources de contenu sont susceptibles de mettre à jour la date du dernier accès sur les fichiers qui ont été analysés. |
Identification des sources de contenu que vous voulez analyser
Le plus souvent, les besoins de votre organisation peuvent nécessiter seulement une analyse de tout le contenu des sites SharePoint de la batterie de serveurs de l’organisation. Dans ce cas, il peut être inutile d’identifier les sources de contenu que vous voulez analyser, car toutes les collections de sites d’une batterie de serveurs peuvent être analysées avec la source de contenu par défaut. Pour plus d’informations sur la source de contenu par défaut, voir Planification des sources de contenu plus loin dans cet article.
De nombreuses organisations doivent également analyser du contenu externe à la batterie de serveurs, tel que des partages de fichiers ou des sites Web sur Internet. Office SharePoint Server 2007 peut analyser et indexer le contenu hébergé sur d’autres batteries de serveurs Windows SharePoint Services ou Office SharePoint Server, les sites Web, les partages de fichiers, les dossiers publics Microsoft Exchange, les serveurs IBM Lotus Notes et les données métiers stockées dans des bases de données. Ceci augmente considérablement la quantité de contenu qui peut être disponible pour les requêtes de recherche.
Cependant, dans de nombreux cas, vous ne souhaiterez pas analyser chaque collection de sites de votre batterie de serveurs car le contenu stocké dans certaines collections de sites peut ne pas être pertinent dans les résultats de la recherche. Dans ce cas, vous devez effectuer l’une des opérations suivantes, ou les deux :
Notez les collections de sites que vous ne voulez pas analyser. Si vous décidez d’utiliser la source de contenu par défaut, vous devez vous assurer que les adresses de démarrage pour les collections de sites que vous ne souhaitez pas analyser ne figurent pas dans la source de contenu par défaut.
Notez les adresses de démarrage individuelles des collections de sites que vous voulez analyser. Si vous décidez de créer des sources de contenu supplémentaires à utiliser pour analyser ce contenu, vous devez connaître ces adresses de démarrage. Pour plus d'informations sur les cas d’utilisation d’une ou de plusieurs sources de contenu, consultez la section Planification des sources de contenu, plus loin dans cet article.
Mise à jour d’infrastructure pour les produits serveur de Microsoft Office étant installée, il existe deux façons de traiter les requêtes de recherche afin de retourner les résultats de la recherche aux utilisateurs. Vous pouvez interroger l'index de contenu du serveur de recherche ou utiliser la recherche fédérée.
Conseil : |
---|
Notez que le Mise à jour d’infrastructure pour les produits serveur de Microsoft Office fournit Office SharePoint Server 2007 avec la fonction de recherche fédérée apparue pour la première fois dans Search Server 2008. |
Chaque approche possède ses avantages. Pour une comparaison de ces deux approches du traitement des requêtes de recherche, voir Présentation de la recherche fédérée (en anglais) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x40C) (en anglais). Pour obtenir la liste et une brève description des articles sur l'utilisation de la fédération, voir Utilisation du service de fédération (Office SharePoint Server). Pour plus d'informations sur la mise à jour des infrastructures Microsoft Office Servers, voir Installer la mise à jour d’infrastructure pour les serveurs Microsoft Office (Office SharePoint Server 2007).
Planification des sources de contenu
Avant de pouvoir analyser du contenu, vous devez d’abord déterminer où il se trouve et quels sont les types des serveurs où il est hébergé. Une fois ces informations collectées, un administrateur de services partagés peut créer une ou plusieurs sources de contenu qui sont utilisées pour analyser ce contenu. Ces sources de contenu fournissent les informations suivantes à l’analyseur lors d’une analyse :
Type de contenu que vous souhaitez analyser : par exemple, un site SharePoint ou un partage de fichiers.
Adresse de démarrage à laquelle l’analyse doit commencer.
Comportement à utiliser lors de l’analyse : par exemple, la profondeur de l’analyse à partir de l’adresse de démarrage ou le nombre de tronçons de serveur autorisés.
Planification de l’analyse.
Remarque : |
---|
L’analyse de contenu à l’aide d’une source de contenu particulière est parfois appelée « analyse de la source de contenu ». |
Cette section vous aide à planifier les sources de contenu nécessaires à votre organisation.
La source de contenu par défaut est appelée Sites Office SharePoint Server locaux. Les administrateurs de services partagés peuvent utiliser cette source de contenu pour analyser et indexer tous les contenus de toutes les applications Web associées aux fournisseurs de services partagés. Par défaut, Office SharePoint Server 2007 ajoute à la source de contenu par défaut l’adresse de démarrage (dans ce cas, une URL) du site de plus haut niveau de chaque collection de sites créé dans l’application Web qui utilise le même fournisseur de services partagés.
Pour certaines organisations, la simple utilisation de la source de contenu par défaut pour analyser tous les sites dans leurs collections de sites satisfait leurs besoins en matière de recherche. Toutefois, de nombreuses entreprises ont besoin de sources de contenu supplémentaires.
Les raisons pour créer des sources de contenu supplémentaires peuvent correspondre aux nécessités suivantes :
Analyser différents types de contenu.
Analyser certains contenus selon des planifications différentes de celles appliquées à d’autres contenus.
Limiter ou augmenter la quantité du contenu qui est analysé.
Les administrateurs de services partagés peuvent créer jusqu’à 500 sources de contenu dans chaque fournisseur de services partagés et chaque source de contenu peut comporter jusqu’à 500 adresses de démarrage. Pour conserver l’administration aussi simple que possible, vous devez créer seulement les sources de contenu dont vous avez réellement besoin.
Analyse de différents types de contenu
Vous pouvez analyser un seul type de contenu par source de contenu. Autrement dit, vous pouvez créer une source de contenu qui contient des URL pour des sites SharePoint et une autre source qui contient des URL pour des partages de fichiers, mais vous ne pouvez pas créer une source de contenu contenant des URL à la fois vers des sites SharePoint et vers des partages de fichiers. Le tableau suivant répertorie les types de sources de contenu qui peuvent être configurés.
Ce type de source de contenu | Inclut ce type de contenu |
---|---|
Sites SharePoint |
Sites SharePoint de la même batterie de serveurs ou de différentes batteries Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou Sites SharePoint de Microsoft Office SharePoint Portal Server 2003 ou batteries de serveurs Microsoft Windows SharePoint Services 2.0 Notes Contrairement à l’analyse de sites SharePoint sur Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou , le robot ne peut pas analyser automatiquement tous les sous-sites d’une collection de sites à partir des versions antérieures des produits et des technologies SharePoint. Par conséquent, lors de l’analyse de sites SharePoint de versions antérieures, vous devez spécifier l’URL de chaque site de niveau supérieur et de chaque sous-site que vous souhaitez analyser. Les sites répertoriés dans l’annuaire de sites des batteries de serveurs Microsoft Office SharePoint Portal Server 2003 sont analysés lorsque le site portail est analysé. Pour plus d’informations sur l’annuaire de sites, voir À propos de l’annuaire de sites (en anglais) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x40C) (en anglais) . |
Sites Web |
Autre contenu Web de votre organisation non trouvé dans les sites SharePoint Contenu sur des sites Web sur Internet |
Partages de fichiers |
Contenu sur des partages de fichiers au sein de votre organisation. |
Dossiers publics Exchange |
Contenu Microsoft Exchange Server |
Lotus Notes |
Messages électroniques stockés dans des bases de données Lotus Notes Notes Contrairement à tous les autres types de source de contenu, l’option de source de contenu Lotus Notes n’apparaît pas dans l’interface utilisateur tant que vous n’avez pas installé et configuré les logiciels prérequis appropriés. Pour plus d’informations, voir Configurer le service Office SharePoint Server Search pour analyser Lotus Notes (Office SharePoint Server 2007). |
Données métiers |
Données métiers stockées dans les applications métiers |
Planifier des sources de contenu pour des données métiers
Les sources de contenu de données métiers nécessitent que les applications qui hébergent les données soient d’abord enregistrées dans le catalogue de données métiers. Vous devez créer une ou plusieurs sources distinctes de types de source de données métiers pour analyser les données métiers. Vous pouvez créer une source de contenu pour analyser toutes les applications inscrites dans le catalogue de données métiers ou créer des sources de contenu distinctes pour analyser les applications inscrites dans le catalogue de données métiers.
Très souvent, les personnes qui planifient l’intégration des données métiers dans vos collections de sites ne sont pas celles qui s’occupent du processus global de planification du contenu. Il est donc recommandé d’inclure les administrateurs de vos applications métiers dans les équipes chargées de la planification du contenu. En effet, ils pourront vous conseiller sur la marche à suivre pour intégrer leurs données dans vos autres contenus et les présenter de manière efficace dans vos collections de sites.
Pour plus d’informations sur la planification de la recherche de données métiers, voir Planifier la recherche de données métiers.
Analyse de contenu selon différentes planifications
Les administrateurs de services partagés doivent souvent décider si certains contenus sont analysés plus fréquemment que d’autres. Plus le volume de contenu que vous analysez est grand, plus il est probable que vous analysez des contenus provenant de différentes sources. Ces différentes sources peuvent ou non être du même type et être hébergées sur des serveurs plus ou moins rapides.
Ces facteurs rendent plus probable la nécessité de sources de contenu supplémentaires pour analyser ces différentes sources de contenu à des moments différents.
Les principales raisons pour lesquelles des contenus sont analysés selon différentes planifications sont les suivantes :
Pour tenir compte des périodes d’indisponibilité et des périodes d’utilisation maximale.
Pour analyser plus fréquemment le contenu qui est mis à jour le plus souvent.
Pour analyser séparément le contenu hébergé sur des serveurs plus lents et sur des serveurs plus rapides.
Dans de nombreux cas, il n’est pas possible de connaître toutes ces informations tant qu’Office SharePoint Server 2007 n’est pas déployé et qu’il n’a pas fonctionné pendant quelque temps. Certaines de ces décisions seront donc prises pendant la phase de fonctionnement. Il est cependant judicieux de prendre en compte ces facteurs lors de la planification, afin de déterminer les planifications des analyses sur la base des informations disponibles.
Les deux sections suivantes fournissent davantage d’informations sur l’analyse de contenu selon différentes planifications.
Périodes d’indisponibilité et périodes d’utilisation maximale
Tenez compte des périodes d’indisponibilité et des périodes d’utilisation maximale des serveurs qui hébergent le contenu que vous souhaitez analyser. Par exemple, si vous analysez du contenu hébergé par plusieurs serveurs différents en dehors de votre batterie de serveurs, il est probable que ces serveurs seraient sauvegardés à des moments différents et que leurs périodes d’utilisation maximale soient différentes. L’administration des serveurs situés en dehors de votre batterie de serveurs est généralement hors de votre contrôle. Par conséquent, il est recommandé de coordonner vos analyses avec les administrateurs des serveurs qui hébergent le contenu à analyser, de façon à ne pas essayer d’analyser le contenu sur leurs serveurs au cours d’une période d’indisponibilité ou d’une période d’utilisation maximale.
Un scénario courant implique qu’il y ait du contenu échappant au contrôle de votre organisation et qui est lié au contenu de vos sites SharePoint. Vous pouvez ajouter les adresses de démarrage pour ce contenu à une source de contenu existante ou bien créer une nouvelle source de contenu pour le contenu externe. Étant donné que la disponibilité des sites externes peut varier considérablement, il est utile d’ajouter des sources de contenu distinctes pour les différents contenus externes. De cette manière, les sources de contenu pour le contenu externe peuvent être analysées à des moments différents de ceux des autres sources de contenu. Vous pouvez ensuite mettre à jour le contenu externe selon une planification d’analyse qui prend en compte la disponibilité de chaque site.
Contenu fréquemment mis à jour
Lors de la planification des analyses, prenez en compte le fait que généralement, certaines sources de contenu sont mises à jour plus fréquemment que d’autres. Par exemple, si vous savez que du contenu sur certaines collections de sites ou certaines sources externes est mis à jour seulement le vendredi, ce serait un gaspillage de ressources que d’analyser ce contenu plus fréquemment qu’une fois par semaine. Votre batterie de serveurs peut cependant contenir d’autres collections de sites qui sont mises à jour en permanence du lundi au vendredi, mais généralement pas les samedis et les dimanches. Dans ce cas, vous pouvez les analyser plusieurs fois chaque jour de la semaine, mais seulement une ou deux fois pendant les week-ends.
La façon dont le contenu est stocké dans les collections de sites de votre environnement peut vous guider dans la création de sources de contenu supplémentaires pour chacune de vos collections de sites dans chacune de vos applications Web. Par exemple, si une collection de sites stocke uniquement des informations archivées, il peut être inutile d’analyser ce contenu aussi fréquemment qu’une collection de sites qui stocke du contenu fréquemment mis à jour. Dans ce cas, vous pouvez analyser ces deux collections de sites à l’aide de sources de contenu différentes, afin qu’elles puissent être analysées selon des planifications différentes, sans analyser les sites d’archive aussi souvent que les autres contenus.
Planifications d’analyse complète et incrémentielle
Les administrateurs de services partagés peuvent configurer les planifications d’analyse de manière indépendante pour chaque source de contenu. Pour chaque source de contenu, ils peuvent spécifier un horaire pour effectuer des analyses complètes et un horaire distinct pour effectuer des analyses incrémentielles. Notez que vous devez exécuter une analyse complète pour une source de contenu particulière avant de pouvoir exécuter une analyse incrémentielle. Si vous choisissez une analyse incrémentielle pour du contenu qui n’a pas encore été analysé, le système effectue une analyse complète.
Remarque : |
---|
Dans la mesure où une analyse complète analyse tout le contenu que le robot rencontre et auquel il dispose au moins d’un accès en lecture, que ce contenu ait ou non été précédemment analysé, une analyse complète peut prendre beaucoup plus de temps qu’une analyse incrémentielle. |
Il est recommandé de prévoir des planifications d’analyse en considérant la disponibilité, les performances et la bande passante des serveurs qui exécutent le service de recherche et des serveurs hébergeant le contenu analysé.
Lorsque vous planifiez des analyses, tenez compte des recommandations suivantes :
Regroupez les adresses de démarrage des sources de contenu sur la base d’une disponibilité similaire, avec une utilisation globale des ressources acceptable sur les serveurs hébergeant le contenu.
Planifiez des analyses incrémentielles pour chaque source de contenu à des moments où les serveurs qui hébergent le contenu sont disponibles et lorsque la demande de ressources sur le serveur est faible.
Étalez les analyses dans le temps afin de répartir la charge des serveurs de la batterie.
Planifiez des analyses complètes seulement lorsque c’est nécessaire pour les raisons indiquées dans la section suivante. Il est recommandé d’effectuer des analyses complètes moins fréquemment que des analyses incrémentielles.
Planifiez les modifications liées à l’administration et requérant une analyse complète un peu avant les moments prévus pour les analyses complètes. Par exemple, il est recommandé de planifier la création de la règle d’analyse avant l’analyse complète planifiée suivante, de sorte qu’une analyse complète supplémentaire ne soit pas nécessaire.
Basez les analyses simultanées sur la capacité du serveur d’index. Il est recommandé d’échelonner les planifications d’analyse de façon à ce que le serveur d’index n’effectue pas d’analyses avec plusieurs sources de contenu en même temps. Pour de meilleures performances, il est préférable d’échelonner les planifications d’analyse des sources de contenu. Les performances du serveur d’index et des serveurs hébergeant le contenu déterminent dans quelle mesure des analyses peuvent être effectuées simultanément. Une stratégie de planification des analyses peut être développée dans le temps, dans la mesure où vous connaîtrez de mieux en mieux les durées d’analyse habituelles de chaque source de contenu.
Raisons pour effectuer une analyse complète
Les raisons pour qu’un administrateur de fournisseurs de services partagés effectue une analyse complète sont les suivantes :
Un ou plusieurs correctifs logiciels ou Service Packs ont été installés sur des serveurs de la batterie. Pour plus d’informations, voir les instructions pour le correctif logiciel ou pour le Service Pack.
Un administrateur de fournisseurs de services partagés a ajouté une nouvelle propriété gérée.
Pour réindexer des pages ASPX sur des sites Windows SharePoint Services 3.0 ou Office SharePoint Server 2007.
Remarque : L’analyseur ne peut pas détecter si des pages ASPX sur des sites Windows SharePoint Services 3.0 ou Office SharePoint Server 2007 ont été modifiées. De ce fait, les analyses incrémentielles ne réindexent pas les vues ou les pages d’accueil lorsque des éléments de liste individuels sont supprimés. Il est recommandé d’effectuer régulièrement des analyses complètes des sites contenant des fichiers ASPX pour que ces pages soient réindexées.
Pour résoudre les échecs consécutifs des analyses incrémentielles. Dans de rares cas, si une analyse incrémentielle échoue cent fois de suite à n’importe quel niveau d’un référentiel, le serveur d’index supprime le contenu affecté de l’index.
Des règles d’analyse ont été ajoutées, supprimées ou modifiées.
Pour réparer un index endommagé.
L'administrateur des services de recherche a créé un ou plusieurs mappages des noms du serveur.
Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.
Le système effectue une analyse complète même si une analyse incrémentielle est demandée dans les circonstances suivantes :
Un administrateur de fournisseurs de services partagés a arrêté l’analyse précédente.
Une base de données de contenu a été restaurée à partir de la sauvegarde.
Remarque : Si vous exécutez la Mise à jour d’infrastructure pour les produits serveur de Microsoft Office, vous pouvez utiliser l’opération de restauration de l’outil en ligne de commande stsadm pour déterminer si une restauration de la base de données de contenu provoque une analyse complète.
Un administrateur de batterie de serveurs a détaché et rattaché une base de données de contenu.
Une analyse complète du site n’a jamais été effectuée.
Le journal des modifications ne contient pas d'entrées pour les adresses en cours d'analyse. Sans entrées dans le journal de modification des éléments en cours d'analyse, les analyses incrémentielles ne peuvent pas avoir lieu.
Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.
Pour réparer un index endommagé
Selon la gravité de la corruption, le système peut tenter d’effectuer une analyse complète si une corruption est détectée dans l’index.
Vous pouvez adapter les planifications après le déploiement initial, selon les performances et la capacité des serveurs de la batterie et des serveurs hébergeant le contenu.
Action de feuille |
---|
Enregistrez vos décisions à propos des sources de contenu pour le déploiement initial dans les tableaux de la section Sources de contenu de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Limitation ou augmentation de la quantité de contenu analysé.
Pour chaque source de contenu, vous pouvez sélectionner l’étendue de l’analyse des adresses de démarrage de cette source de contenu. Vous spécifiez aussi le comportement de l’analyse, parfois appelé « paramètres d’analyse ». Les options disponibles pour une source de contenu particulière varient selon le type de source de contenu que vous sélectionnez. Cependant, la plupart des options déterminent le nombre de niveaux de profondeur de la hiérarchie qui sont analysés pour chaque adresse de démarrage figurant dans la source de contenu. Notez que ce comportement est appliqué à toutes les adresses de démarrage d’une source de contenu spécifique. Si vous devez analyser certains sites à des niveaux plus profonds, vous pouvez créer d’autres sources de contenu incluant ces sites.
Les options disponibles dans les propriétés de chaque source de contenu varient en fonction du type de source de contenu sélectionné. Le tableau suivant décrit les options des paramètres d’analyse pour chaque type de source de contenu.
Type de source de contenu | Options des paramètres d’analyse |
---|---|
Sites SharePoint |
Tous les éléments sous le nom d’hôte pour chaque adresse de démarrage Seulement le site SharePoint de chaque adresse de démarrage |
Sites Web |
Seulement dans le serveur de chaque adresse de démarrage Seulement la première page de chaque adresse de démarrage Personnalisé. Spécifie la profondeur de page et le nombre de tronçons de serveur. Notes Le paramètre par défaut pour cette option est une profondeur de page et de tronçons de serveur illimités. |
Partages de fichiers |
Le dossier et tous les sous-dossiers de chaque adresse de démarrage Seulement le dossier de chaque adresse de démarrage |
Dossiers publics Exchange |
Le dossier et tous les sous-dossiers de chaque adresse de démarrage Seulement le dossier de chaque adresse de démarrage |
Données métiers |
Analyse de l’ensemble du catalogue de données métiers Analyse d’applications sélectionnées |
Comme le tableau précédent le montre, les administrateurs de services partagés peuvent utiliser les options des paramètres d’analyse pour limiter ou augmenter la quantité de contenu qui est analysée.
Le tableau suivant décrit les pratiques recommandées lors de la configuration des options des paramètres d’analyse.
Pour ce type de source de contenu | Si ceci s’applique | Utilisez cette option de paramètre d’analyse |
---|---|---|
Sites SharePoint |
Vous souhaitez inclure le contenu du site lui-même. -ou- Vous ne souhaitez pas inclure le contenu disponible sur les sous-sites, ou vous souhaitez les analyser selon une planification différente. |
Analyser seulement le site SharePoint de chaque adresse de démarrage |
Sites SharePoint |
Vous souhaitez inclure le contenu du site lui-même. -ou- Vous souhaitez analyser tout le contenu sous l’adresse de démarrage selon la même planification. |
Analyser tout sous le nom d’hôte pour chaque adresse de démarrage |
Sites Web |
Le contenu du site lui-même est pertinent. -ou- Le contenu disponible sur les sites liés n’est pas susceptible d’être pertinent. |
Analyser seulement sur le serveur de chaque adresse de démarrage |
Sites Web |
Le contenu pertinent se trouve sur la première page seulement. |
Analyser seulement la première page de chaque adresse de démarrage |
Sites Web |
Vous souhaitez limiter la profondeur d’analyse des liens sur les adresses de démarrage. |
Personnalisé. Spécifie le nombre de pages en profondeur et le nombre de tronçons de serveur à analyser Notes Il est recommandé de démarrer avec un nombre peu élevé sur un site où les liens sont nombreux car la spécification de plus de trois pages de profondeur ou de plus de trois tronçons de serveur peut aboutir à analyser tout le réseau Internet. |
Partages de fichiers Dossiers publics Exchange |
Le contenu disponible dans les sous-dossiers n’est pas susceptible d’être pertinent. |
Analyser le dossier de chaque adresse de démarrage uniquement |
Partages de fichiers Dossiers publics Exchange |
Le contenu des sous-dossiers est susceptible d’être pertinent. |
Analyser le dossier et tous les sous-dossiers de chaque adresse de démarrage uniquement |
Données métiers |
Toutes les applications inscrites dans le catalogue de données métiers contiennent un contenu pertinent. |
Analyse de l’ensemble du catalogue de données métiers |
Données métiers |
Toutes les applications inscrites dans le catalogue de données métiers ne contiennent pas un contenu pertinent. -ou- Vous souhaitez analyser certaines applications selon une autre planification. |
Analyse d’applications sélectionnées |
Planification des inclusions de types de fichiers et des composants IFilter
Le contenu est analysé uniquement si l’extension de nom de fichier appropriée est incluse dans la liste des inclusions de types de fichiers et si un composant IFilter est installé sur le serveur d’index et prend en charge ces types de fichiers. Plusieurs types de fichiers sont inclus automatiquement lors de l’installation initiale. Lorsque vous planifiez des sources de contenu dans votre déploiement initial, déterminez si le contenu que vous souhaitez analyser utilise des types de fichiers qui ne sont pas inclus. Si c’est le cas, vous devez ajouter ces types de fichiers sur la page Gérer les types de fichiers lors du déploiement et veiller à ce qu'un composant IFilter soit installé et enregistré pour prendre en charge ce type de fichier.
Office SharePoint Server 2007 fournit plusieurs composants IFilter, d’autres sont disponibles auprès de Microsoft et d'autres fournisseurs. Pour plus d'informations sur l'installation et l'inscription de composants IFilter supplémentaires disponibles auprès de Microsoft, voir Enregistrement de Microsoft Filter Pack avec SharePoint Server 2007 et Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x40C). Si nécessaire, les développeurs peuvent créer des composants IFilter pour de nouveaux types de fichiers.
En revanche, si vous souhaitez exclure certains types de fichiers de l’analyse, vous pouvez supprimer l’extension de nom de fichier pour ce type de fichier dans la liste des inclusions de types de fichiers. Ceci exclut de l’analyse les noms des fichiers qui ont cette extension.
Le tableau suivant répertorie les types de fichiers pris en charge par les composants IFilter qui sont installés par défaut, ainsi que les types de fichiers qui sont activés par défaut sur la page Gérer les types de fichiers.
Extension de nom de fichier | Prise en charge du composant IFilter par défaut | Inclusions de types de fichiers par défaut |
---|---|---|
ascx |
Oui |
Oui |
asm |
Oui |
Non |
asp |
Oui |
Oui |
aspx |
Oui |
Oui |
bat |
Oui |
Non |
c |
Oui |
Non |
cmd |
Oui |
Non |
cpp |
Oui |
Non |
css |
Oui |
Non |
cxx |
Oui |
Non |
def |
Oui |
Non |
dic |
Oui |
Non |
doc |
Oui |
Oui |
docm |
Oui |
Oui |
docx |
Oui |
Oui |
dot |
Oui |
Oui |
eml |
Oui |
Oui |
exch |
Non |
Oui |
h |
Oui |
Non |
hhc |
Oui |
Non |
hht |
Oui |
Non |
hpp |
Oui |
Non |
hta |
Oui |
Non |
htm |
Oui |
Oui |
html |
Oui |
Oui |
htw |
Oui |
Non |
htx |
Oui |
Non |
jhtml |
Non |
Oui |
jsp |
Non |
Oui |
lnk |
Oui |
Non |
mht |
Oui |
Oui |
mhtml |
Oui |
Oui |
mpx |
Oui |
Non |
msg |
Oui |
Oui |
mspx |
Non |
Oui |
nsf |
Non |
Oui |
odc |
Oui |
Oui |
one |
Non |
Non |
php |
Non |
Oui |
pot |
Oui |
Non |
pps |
Oui |
Non |
ppt |
Oui |
Oui |
pptm |
Oui |
Oui |
pptx |
Oui |
Oui |
pub |
Oui |
Oui |
stm |
Oui |
Non |
tif |
Oui |
Oui |
tiff |
Non |
Oui |
trf |
Oui |
Non |
txt |
Oui |
Oui |
url |
Non |
Oui |
vdx |
Non |
Oui |
vsd |
Non |
Oui |
vss |
Non |
Oui |
vst |
Non |
Oui |
vsx |
Non |
Oui |
vtx |
Non |
Oui |
xlb |
Oui |
Non |
xlc |
Oui |
Non |
xls |
Oui |
Oui |
xlsm |
Oui |
Oui |
xlsx |
Oui |
Oui |
xlt |
Oui |
Non |
xml |
Oui |
Oui |
Composants IFilter et Microsoft Office OneNote
Aucun composant IFilter n'est fourni pour l’extension de nom de fichier.one utilisée par Microsoft Office OneNote 2007. Si vous souhaitez que les utilisateurs puissent rechercher du contenu dans des fichiers Office OneNote, vous devez installer le composant IFilter pour OneNote. Pour cela, vous devez installer l’application cliente Microsoft Office OneNote sur le serveur d’index.
Installer l'application cliente Microsoft Office OneNote 2007 sur le serveur d'index.
Le composant IFilter pour Office OneNote 2007 peut analyser les fichiers Office OneNote 2003 et Office OneNote 2007. Le composant IFilter pour Office OneNote 2003 peut analyser uniquement des fichiers Office OneNote 2003. Pour plus d'informations, voir Installer et inscrire le composant IFilter OneNote (Office SharePoint Server 2007).
Installer et inscrire le pack Filtre de Microsoft.
Il est possible d'utiliser le composant OneNote IFilter fourni par ce pack pour analyser uniquement des fichiers Office OneNote 2007. Pour plus d'informations, voir Enregistrement de Microsoft Filter Pack avec SharePoint Server 2007 et Search Server 2008.
Action de feuille de calcul |
---|
Notez vos décisions sur les inclusions de types de fichiers et les composants IFilter pour votre déploiement initial dans la section Inclusions de types de fichiers et composants IFilter de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Limitation ou exclusion de contenu à l’aide de règles d’analyse
Lorsque vous ajoutez une adresse de démarrage à une source de contenu et que vous acceptez le comportement par défaut, tous les sous-sites ou les dossiers qui se trouvent sous cette adresse de démarrage sont analysés, sauf si vous les excluez à l’aide d’une ou de plusieurs règles d’analyse.
Pour plus d’informations sur les règles d’analyse, voir Planification des règles d’analyse plus loin dans cet article.
Autres considérations sur la planification de sources de contenu
Vous ne pouvez pas analyser les mêmes adresses à l’aide de plusieurs sources de contenu. Par exemple, si vous utilisez une source de contenu particulière pour analyser une collection de sites et tous ses sous-sites, vous ne pouvez pas utiliser une autre source de contenu pour analyser un de ces sous-sites séparément selon un calendrier différent. Pour tenir compte de cette restriction, il peut être nécessaire d’analyser certains de ces sites séparément. Imaginons le scénario suivant :
L’administrateur de fournisseurs de services partagés de Contoso souhaite analyser http://contoso/, qui contient les sous-sites http://contoso//sites/site1 et http://contoso//sites/site2. Il souhaite analyser http://contoso//sites/site2 selon une planification différente de celle des autres sites. Pour ce faire, il ajoute les adresses http://contoso/ et http://contoso//sites/site1 à une source de contenu et sélectionne le paramètre Analyser seulement le site SharePoint de chaque adresse de démarrage. Ensuite, il ajoute http://contoso//sites/site2 à une autre source de contenu et spécifie une planification différente pour cette source de contenu.
En plus des planifications d’analyse, vous devez prendre en compte d’autres éléments lors de la planification des sources de contenu. Par exemple, la décision de regrouper des adresses de démarrage dans une même source de contenu ou de créer des sources de contenu supplémentaires pour analyser ces adresses de démarrage dépend en grande partie de considérations relatives à l’administration. Les administrateurs apportent régulièrement des modifications qui nécessitent la mise à jour complète d’une source de contenu spécifique. Les modifications apportées à une source de contenu nécessitent une analyse complète de cette source de contenu. Pour faciliter l’administration, organisez les sources de contenu de sorte que la mise à jour des sources de contenu, des règles d’analyse et de l’analyse de contenu soit pratique pour les administrateurs.
Synthèse sur les sources de contenu
Tenez compte des éléments suivants lors de la planification des sources de contenu :
Une source de contenu particulière peut être utilisée pour analyser seulement l’un des types de contenu suivants : sites SharePoint, sites Web autres que des sites SharePoint, partages de fichiers, dossiers publics Exchange, bases de données Lotus Notes et données métiers.
Les administrateurs de services partagés peuvent créer jusqu’à 500 sources de contenu dans chaque fournisseur de services partagés et chaque source de contenu peut comporter jusqu’à 500 adresses de démarrage. Pour conserver l’administration aussi simple que possible, vous devez créer seulement les sources de contenu dont vous avez absolument besoin.
Chaque URL dans une source de contenu particulière doit être du même type de source de contenu.
Pour une source de contenu particulière, vous pouvez choisir la profondeur de l’analyse à partir des adresses de démarrage. Ces paramètres de configuration s’appliquent à toutes les adresses de démarrage dans la source de contenu. Les choix disponibles portent sur les différences de profondeur d’analyse à partir des adresses de démarrage en fonction du type de source de contenu qui est sélectionné.
Vous pouvez planifier le moment où il est nécessaire d'effectuer une analyse complète ou une analyse incrémentielle pour toute la source de contenu. Pour plus d’informations sur la planification des analyses, voir « Planifications des analyses complètes et incrémentielles » plus loin dans cette rubrique.
Les administrateurs de services partagés peuvent modifier la source de contenu par défaut, créer des sources de contenu supplémentaires pour analyser d’autres contenus, ou les deux. Par exemple, ils peuvent configurer la source de contenu par défaut pour analyser également du contenu sur une autre ferme de serveurs ou ils peuvent créer une nouvelle source de contenu pour analyser d’autres contenus.
Pour analyser efficacement tout le contenu requis par votre organisation, utilisez autant de sources de contenu que nécessaire pour les types de sources que vous souhaitez analyser et pour la fréquence à laquelle vous prévoyez de les analyser.
Planification de l’authentification
Lorsque l’analyseur accède aux adresses de démarrage qui sont répertoriées dans les sources de contenu, il doit être authentifié par les serveurs qui hébergent ce contenu et être autorisé à y accéder. Cela signifie que le compte de domaine utilisé par l’analyseur doit disposer au moins de l’autorisation de lecture du contenu.
Le compte d’accès au contenu par défaut est le compte qui est utilisé par défaut lors de l’analyse des sources de contenu. Ce compte est spécifié par l’administrateur de services partagés. Vous pouvez aussi utiliser des règles d’analyse pour spécifier un compte d’accès de contenu différent à utiliser lors de l’analyse d’un contenu particulier. Que vous utilisiez le compte d’accès au contenu par défaut ou un autre compte d’accès au contenu spécifié par une règle d’analyse, le compte d’accès au contenu utilisé doit avoir accès en lecture à tout le contenu analysé, sans quoi le contenu n’est pas analysé et n’est pas disponible pour les requêtes.
Il est recommandé de sélectionner un compte d’accès au contenu par défaut qui a l’accès le plus large à la majeure partie de votre contenu analysé ; utilisez d’autres comptes d’accès au contenu seulement lorsque des considérations relatives à la sécurité nécessitent des comptes d’accès au contenu distincts. Pour plus d’informations sur la création de comptes d’accès au contenu distincts pour analyser du contenu qui ne peut pas être lu à l’aide du compte d’accès au contenu par défaut, voir Planification des règles d’analyse plus loin dans cet article.
Pour chaque source de contenu que vous prévoyez, identifiez les adresses de démarrage qui ne sont pas accessibles par le compte d’accès au contenu par défaut et prévoyez d’ajouter des règles d’analyse pour les modèles d’URL qui couvrent ces adresses de démarrage.
Remarque : |
---|
Assurez-vous que le compte de domaine utilisé pour le compte d’accès au contenu par défaut ou pour tout autre compte d’accès au contenu n’est pas le même compte de domaine que celui qui est utilisé par un pool d’applications associé à n’importe quelle application Web analysée. Cela peut en effet aboutir à l’analyse et à l’indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l’historique) de sites SharePoint. |
Pour plus d’informations sur les considérations de planification pour les comptes d’accès au contenu, voir Planification des règles d’analyse plus loin dans cet article.
Action de feuille de calcul |
---|
Notez le compte d’accès au contenu par défaut que l’analyseur utilisera lors de l’analyse de contenu dans la section Compte d’accès au contenu par défaut de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Une autre considération importante est que l’analyseur doit utiliser la même méthode d’authentification que le serveur hôte. Par défaut, l’analyseur tente de s’authentifier à l’aide de l’authentification NTLM. Vous pouvez configurer l’analyseur pour qu’il utilise si nécessaire une autre méthode d’authentification. Pour plus d’informations, voir la rubrique relative aux conditions d’authentification nécessaires pour l’analyse du contenu dans Planifier des méthodes d’authentification (Office SharePoint Server).
Planification des gestionnaires de protocole
Tout le contenu analysé requiert l’utilisation d’un gestionnaire de protocole pour accéder à ce contenu. Office SharePoint Server 2007 fournit des gestionnaires pour tous les protocoles Internet courants. Toutefois, si vous souhaitez analyser un contenu nécessitant un gestionnaire de protocole qui n’est pas installé avec Office SharePoint Server 2007, vous devez installer le gestionnaire de protocole tiers ou personnalisé avant de pouvoir analyser ce contenu.
Le tableau suivant indique les gestionnaires de protocole installés par défaut.
Gestionnaire de protocole | Élément(s) analysé(s) |
---|---|
Bdc |
Catalogue de données métiers |
Bdc2 |
URL du catalogue de données métiers (protocole interne) |
Fichier |
Partages de fichiers |
http |
Sites Web |
https |
Sites Web sur SSL (Secure Sockets Layer) |
Remarques |
Bases de données Lotus Notes |
Rb |
Dossiers publics Exchange |
Rbs |
Dossiers publics Exchange sur SSL |
Sps |
Profils des personnes à partir des batteries de serveurs Windows SharePoint Services 2.0 |
Sps3 |
Analyses de profils de personnes de batteries de serveurs Windows SharePoint Services 3.0 uniquement |
Sps3s |
Analyses de profils de personnes à partir de batteries de serveurs Windows SharePoint Services 3.0 uniquement sur SSL |
Spsimport |
Importation de profils de personnes |
Spss |
Importation de profils de personnes à partir de batteries de serveurs Windows SharePoint Services 2.0 sur SSL |
Sts |
URL racines Windows SharePoint Services 3.0 (protocole interne) |
Sts2 |
Sites Windows SharePoint Services 2.0 |
Sts2s |
Sites Windows SharePoint Services 2.0 sur SSL |
Sts3 |
Sites Windows SharePoint Services 3.0 |
Sts3s |
Sites Windows SharePoint Services 3.0 sur SSL |
Action de feuille |
---|
Notez vos décisions sur les gestionnaires de protocole pour votre déploiement initial dans la section Gestionnaires de protocole de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Planification de l’impact de l’analyse
L’analyse du contenu peut considérablement réduire les performances des serveurs qui hébergent le contenu. L’impact que cela a sur un serveur particulier varie en fonction de la charge que le serveur hôte supporte et du niveau suffisant ou non des ressources du serveur (en particulier du processeur et de la mémoire vive) pour respecter les accords de niveau de service en utilisation normale ou maximale.
Les règles d’impact de l’analyseur permettent aux administrateurs de batteries de serveurs de gérer l’impact de l’analyseur sur les serveurs à analyser. Pour chaque règle d’impact de l’analyseur, vous pouvez spécifier une URL unique ou utiliser des caractères génériques dans le chemin d’accès de l’URL pour inclure un bloc d’URL auxquelles la règle s’applique. Vous pouvez ensuite spécifier le nombre de demandes de pages simultanément adressées à l’URL spécifiée ou choisir de demander un seul document à la fois et attendre un certain nombre de secondes entre les demandes.
Les règles d’impact de l’analyseur réduisent ou augmentent la vitesse à laquelle l’analyseur demande le contenu à une adresse de démarrage spécifique ou à une plage d’adresses de démarrage (parfois appelée « nom de site »), indépendamment de la source de contenu utilisée pour analyser ces adresses. Le tableau suivant répertorie les caractères génériques que vous pouvez utiliser dans le nom de site lors de l’ajout d’une règle.
Caractère générique à utiliser | Résultat |
---|---|
* comme nom de site |
Applique la règle à tous les sites. |
*.* comme nom de site |
Applique la règle aux sites dont le nom comporte des points. |
*.*nom_du_site*.com comme nom de site |
Applique la règle à tous les sites du domaine *nom_du_site*.com (par exemple *.adventure-works.com). |
*.*nom_de_domaine_du_plus_haut_niveau* comme nom de site |
Applique la règle à tous les sites se terminant par un nom de domaine du plus haut niveau spécifique (par exemple *.com ou *.net). |
? |
Remplace un seul caractère dans une règle. Par exemple, *.adventure-works?.com s’applique à tous les sites des domaines adventure-works1.com, adventure-works2.com, etc. |
Vous pouvez créer une règle d’impact de l’analyseur qui s’applique à tous les sites dans un domaine de plus haut niveau particulier. Ainsi, *.com s’applique à tous les sites Internet avec des adresses qui se terminent par. com. Par exemple, un administrateur d’un site portail peut ajouter une source de contenu pour exemples.microsoft.com. La règle pour *.com s’applique à ce site, sauf si vous ajoutez une règle d’impact de l’analyseur spécifiquement pour exemples.microsoft.com.
Pour le contenu existant au sein de votre organisation et qui serait analysé par d’autres administrateurs, vous pouvez vous coordonner avec ces administrateurs pour définir des règles d’impact de l’analyseur basées sur les performances et la capacité des serveurs. Pour les sites plus extérieurs, cette coordination n’est pas possible. Le fait de demander trop de contenu sur des serveurs externes ou d’effectuer des demandes trop fréquemment peut entraîner la limitation de vos accès ultérieurs par les administrateurs de ces sites si vos analyses utilisent trop de ressources ou trop de bande passante. Par conséquent, la pratique recommandée consiste à effectuer les analyses selon un rythme plus lent. De cette manière, vous pouvez réduire le risque de perdre vos accès pour analyser le contenu pertinent.
Lors du déploiement initial, définissez les règles d’impact de l’analyseur pour alléger la charge sur les autres serveurs tout en analysant le contenu selon une fréquence suffisante pour garantir l’actualité du contenu analysé.
Au cours de la phase de fonctionnement, vous pouvez adapter au fur et à mesure les règles d’impact sur la base de votre expérience et des journaux d’analyse.
Action de feuille de calcul |
---|
Notez vos décisions sur les règles d’impact de l’analyseur pour votre déploiement initial dans la section Règles d’impact de l’analyseur de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Planification des règles d’analyse
Les règles d’analyse s’appliquent à une URL particulière ou à un ensemble spécifique d’URL représenté(e) par des caractères génériques (également appelé(e) « chemin d’accès affecté par la règle »). Vous utilisez des règles d’analyse pour atteindre les objectifs suivants :
Éviter l’analyse de contenu non pertinent en excluant une ou plusieurs URL. Cela permet également de réduire l’utilisation des ressources serveur et du trafic réseau, et d’accroître la pertinence des résultats de la recherche.
Analyser des liens sur l’URL sans analyser l’URL elle-même. Cette option est utile pour les sites avec des liens vers du contenu pertinent lorsque la page contenant les liens ne contient pas d’informations pertinentes.
Permettre l’analyse d’URL complexes. Cette option analyse les URL qui contiennent un paramètre de requête spécifié avec un point d’interrogation. En fonction du site, ces URL peuvent ou non inclure du contenu pertinent. Étant donné que les URL complexes peuvent souvent rediriger vers des sites non pertinents, il est judicieux d’activer cette option seulement sur des sites où le contenu disponible à partir d’URL complexes est connu comme étant non pertinent.
Permettre à du contenu sur des sites SharePoint d’être analysé en tant que pages HTTP. Cette option permet au serveur d’index d’analyser des sites SharePoint qui sont derrière un pare-feu ou dans des scénarios où le site en cours d’analyse limite l’accès au service Web utilisé par l’analyseur.
Spécifier s’il faut utiliser le compte d’accès au contenu par défaut, un autre compte d’accès au contenu ou un certificat client pour l’analyse de l’URL spécifiée.
Remarque : |
---|
Les règles d’analyse s’appliquent en même temps à toutes les sources de contenu du fournisseur de services partagés. |
Souvent, la majeure partie du contenu d’une adresse d’un site particulier est pertinent, mais ce n’est éventuellement pas le cas d’un sous-site spécifique ou d’une plage de sites situés sous l’adresse de ce site. En sélectionnant une combinaison ciblée d’URL pour lesquelles ils créent des règles d’analyse qui excluent les éléments non nécessaires, les administrateurs de services partagés peuvent optimiser la pertinence du contenu de l’index tout en minimisant l’impact sur les performances de l’analyse et la taille des bases de données de la recherche. La création de règles d’analyse pour exclure des URL est particulièrement utile lors de la planification des adresses de démarrage pour du contenu externe, pour lequel l’impact sur l’utilisation des ressources échappe au contrôle des personnes de votre organisation.
Lorsque vous créez une règle d’analyse, vous pouvez utiliser des caractères génériques standard dans le chemin d’accès. Par exemple :
http://serveur1/dossier* contient toutes les ressources Web ayant une URL commençant par http://serveur1/dossier.
*://*.txt inclut chaque document avec l’extension de fichier .txt.
Étant donné que l’analyse de contenu consomme des ressources et de la bande passante, il est préférable d’inclure un volume de contenu moins important, mais pertinent, plutôt qu’un volume plus important de contenu, mais qui risque d’être non pertinent. Après le déploiement initial, vous pouvez examiner les fichiers journaux des requêtes et des analyses, et adapter en conséquence les sources de contenu et les règles d’analyse pour les rendre plus pertinentes et inclure davantage de contenu.
Spécification d’un autre compte d’accès au contenu
Pour les règles d’analyse qui incluent du contenu, les administrateurs ont la possibilité de modifier le compte d’accès au contenu pour la règle. Le compte d’accès au contenu par défaut est utilisé à moins qu’un autre compte soit spécifié dans une règle d’analyse. La raison principale pour utiliser un autre compte d’accès au contenu pour une règle d’analyse est que le compte d’accès au contenu par défaut n’a pas accès à toutes les adresses de démarrage. Pour ces adresses, vous pouvez créer une règle d’analyse et spécifier un compte qui y a accès.
Remarque : |
---|
Assurez-vous que le compte de domaine utilisé pour le compte d’accès au contenu par défaut ou pour tout autre compte d’accès au contenu n’est pas le même compte de domaine que celui qui est utilisé par un pool d’applications associé à n’importe quelle application Web analysée. Cela peut en effet aboutir à l’analyse et à l’indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l’historique) de sites SharePoint. |
Action de feuille |
---|
Notez vos décisions sur les règles d’analyse pour votre déploiement initial dans la section Règles d’analyse de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Planification des paramètres de recherche gérés au niveau de la batterie de serveurs
En plus des paramètres qui sont configurés au niveau du fournisseur de services partagés, plusieurs paramètres qui sont gérés au niveau de la batterie de serveurs affectent la façon dont le contenu est analysé. Prenez en compte les paramètres de recherche suivants (gérés au niveau de la batterie de serveurs) lors de la planification de l’analyse :
Adresse de messagerie du contact : l’analyse de contenu affecte les ressources des serveurs qui sont analysés. Avant de pouvoir analyser du contenu, vous devez fournir dans les paramètres de configuration l’adresse de messagerie de la personne de votre organisation que les administrateurs peuvent contacter dans le cas où l’analyse dégrade de façon trop importante les performances de leurs serveurs. Cette adresse de messagerie apparaît dans les journaux destinés aux administrateurs des serveurs analysés, pour leur permettre de contacter quelqu’un si l’impact de l’analyse sur les performances et sur la bande passante est trop grand, ou si d’autres problèmes se produisent.
L’adresse de messagerie du contact doit être celle d’une personne qui a les connaissances et la disponibilité nécessaires pour répondre rapidement aux demandes. Vous pouvez aussi utiliser un alias de liste de distribution spécialement surveillée en tant qu’adresse de messagerie du contact. Que le contenu analysé soit stocké ou non au sein de l’organisation, un temps de réponse rapide est important.
Paramètres du serveur proxy : vous pouvez choisir d’utiliser un serveur proxy lors de l’analyse de contenu. Le serveur proxy à utiliser dépend de la topologie de votre déploiement d’Office SharePoint Server 2007 et de l’architecture des autres serveurs de votre organisation.
Paramètres d’expiration de délai : les paramètres d’expiration de délai sont utilisés pour limiter le temps d’attente du serveur de recherche lors de la connexion à d’autres services.
Paramètre SSL : le paramètre SSL (Secure Sockets Layer) détermine si le certificat SSL doit correspondre exactement au contenu analysé.
Action de feuille |
---|
Notez vos décisions sur les paramètres de recherche de niveau batterie de serveurs pour votre déploiement initial dans la section Paramètres de recherche de niveau batterie de serveurs de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Indexation de contenu dans différentes langues
Lors de l'analyse de contenu, l'analyseur détermine chaque mot individuel dans le contenu détecté. Les langues dont les mots sont séparés par des espaces facilitent la distinction des mots par l'analyseur. Dans les autres langues, la détection des frontières entre les mots peut s'avérer plus complexe.
Office SharePoint Server 2007 fournit des analyseurs lexicaux et des générateurs de formes dérivées par défaut pour aider à analyser et à indexer le contenu dans un grand nombre de langues. Les analyseurs lexicaux recherchent les frontières entre les mots dans des données indexées en texte intégral, tandis que les générateurs de formes dérivées conjuguent les verbes.
Si vous analysez des langues figurant dans le tableau ci-dessous, Office SharePoint Server 2007 utilise automatiquement l’analyseur lexical et le générateur de formes dérivées appropriés pour cette langue. Un astérisque (*) indique que la fonctionnalité des formes dérivées est activée par défaut.
Langue prise en charge par défaut | Langue prise en charge par défaut |
---|---|
Arabe |
Lituanien* |
Bengali |
Malais |
Bulgare* |
Malayalam* |
Catalan |
Marathi |
Croate |
Norvégien (Bokmaal) |
Tchèque* |
Polonais* |
Danois |
Portugais |
Néerlandais |
Portugais (Brésil) |
Anglais |
Pendjabi |
Finnois* |
Roumain* |
Français* |
Russe* |
Allemand* |
Serbe (Cyrillique)* |
Grec* |
Serbe (Latin)* |
Gujarati |
Slovaque* |
Hébreu |
Slovène* |
Hindi |
Espagnol* |
Hongrois* |
Suédois |
Islandais* |
Tamoul* |
Indonésien |
Telugu* |
Italien |
Thaï |
Japonais |
Turc* |
Kannada* |
Ukrainien* |
Coréen |
Ourdou* |
Letton* |
Vietnamien |
Lorsque l'analyseur indexe le contenu d'une langue qui n'est pas prise en charge, le séparateur neutre est utilisé. S'il ne permet pas d'obtenir le résultat escompté, vous pouvez essayer des solutions tierces, qui utilisent Office SharePoint Server 2007.
À titre de recommandation, veillez à installer l’analyseur lexical et le générateur de formes dérivées appropriés à chaque langue que vous devez prendre en charge. Vous devez les installer sur tous les serveurs qui exécutent le service Office SharePoint Server Search.
Pour plus d’informations sur les analyseurs lexicaux et les générateurs de formes dérivées, voir Planifier des sites multilingues.
Action de feuille |
---|
Notez vos décisions sur les analyseurs lexicaux et les générateurs de formes dérivées pour votre déploiement initial dans la section correspondante de la feuille de planification de l’analyse du contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais) . |
Feuille
Si vous ne l’avez pas déjà fait, notez vos décisions de planification sur les sources de contenu et les autres décisions sur l’analyse de contenu dans la feuille de travail suivante :
- Feuille relative à la planification de l’analyse de contenu (en anglais) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x40C) (en anglais)
Si vous décidez de ne créer que certaines des sources de contenu et des règles d’analyse planifiées lors du déploiement et de la configuration initiaux, vous pouvez utiliser cette feuille de travail dans le cadre des opérations ultérieures.
Télécharger ce livre
Cette rubrique est incluse dans le livre à télécharger suivant pour une lecture et une impression plus faciles :
Vous trouverez la liste complète des livres disponibles sur Livres à télécharger pour Office SharePoint Server 2007.