Begrenzen oder Erhöhen des Volumens der zu crawlenden Inhalte (Office SharePoint Server)

Artikel
06/12/2012

Während des Crawlens müssen Sie typischerweise die Inhaltsmenge ändern, die Sie gerade crawlen. Beispielsweise können folgende Schritte notwendig sein:

Sie müssen das Crawlen bestimmter Websites innerhalb eines bestimmten Namespaces einstellen, der durch eine vorhandene Inhaltsquelle definiert wird.
Sie müssen Websites in einer anderen Tiefe crawlen.
Sie müssen die Anzahl der zu crawlenden Dateitypen ändern, d. h. Dateitypen crawlen, die bisher nicht gecrawlt wurden, bestimmte Dateitypen nicht mehr crawlen, die bisher gecrawlt wurden, oder beides.

Je nach den sich ändernden Anforderungen Ihrer Organisation müssen Sie vielleicht auch ganz neue Inhaltsquellen crawlen. Weitere Informationen zum Crawlen ganz neuer Inhaltsquellen finden Sie unter Informationen zu Inhaltsquellen (Office SharePoint Server 2007).

Sie können die Inhaltsmenge, die gecrawlt wird, vergrößern oder beschränken, indem Sie Folgendes verwenden:

Crawleinstellungen in den Inhaltsquellen Sie können beispielsweise festlegen, dass nur die Startadressen, die in einer bestimmten Inhaltsquelle angegeben sind, gecrawlt werden, oder Sie legen fest, wie viele Ebenen tief (von diesen Startadressen aus) im Namespace gecrawlt wird und wie viele Serverwechsel zulässig sind. Beachten Sie, dass die innerhalb einer Inhaltsquelle verfügbaren Optionen zum Angeben der zu crawlenden Inhaltsmenge je nach Inhaltsquellentyp verschieden sind.
Dateitypeinschlüsse Sie können festlegen, welche Dateitypen gecrawlt werden sollen.
Crawlregeln Anhand von Crawlregeln können Sie alle Elemente auf einem gegebenen Pfad von dem Crawlvorgang ausschließen. Damit können Sie auf effiziente Weise festlegen, dass Unterwebsites, die nicht indiziert werden sollen, nicht zusammen mit einer zu crawlenden übergeordneten Website gecrawlt werden. Sie können Crawlregeln auch verwenden, um die zu crawlende Inhaltsmenge zu vergrößern, z. B. beim Crawlen von komplexen URLs für einen gegebenen Pfad.

Crawleinstellungen

Für jede Inhaltsquelle können Sie auswählen, wie umfassend die Startadressen in dieser Inhaltsquelle gecrawlt werden sollen. Sie geben auch das Crawlverhalten an, das auch als Crawleinstellungen bezeichnet wird. Die Optionen, die Sie für eine bestimmte Inhaltsquelle auswählen können, variieren je nach ausgewähltem Inhaltsquellentyp. Die meisten Optionen bestimmen jedoch, wie viele Ebenen der Hierarchie von jeder in der Inhaltsquelle aufgeführten Startadresse aus gecrawlt werden. Beachten Sie, dass dieses Verhalten auf alle Startadressen in einer bestimmten Inhaltsquelle angewendet wird.

Die in den Eigenschaften für jede Inhaltsquelle verfügbaren Optionen variieren abhängig vom ausgewählten Inhaltsquellentyp. In der folgenden Tabelle werden die Optionen der Crawleinstellungen für jeden Inhaltsquellentyp beschrieben.

Inhaltsquellentyp	Optionen für Crawleinstellungen
SharePoint-Websites	Alle Websites unter dem Hostnamen für jede Startadresse crawlen Nur die SharePoint-Website für jede Startadresse crawlen
Websites	Nur innerhalb des Servers jeder Startadresse crawlen Nur die erste Seite jeder Startadresse crawlen Benutzerdefiniert – Geben Sie die Seitentiefe und die Serverwechsel an Hinweis Die Standardeinstellung für diese Option sind unbegrenzte Seitentiefen und Serverwechsel.
Dateifreigaben	Der Ordner und alle Unterordner jeder Startadresse Nur der Ordner jeder Startadresse
Öffentliche Exchange-Ordner	Der Ordner und alle Unterordner jeder Startadresse Nur der Ordner jeder Startadresse
Geschäftsdaten	Gesamten Geschäftsdatenkatalog crawlen Ausgewählte Anwendungen crawlen

Wie in der obigen Tabelle gezeigt wird, können Administratoren gemeinsamer Dienste die Optionen für die Crawleinstellungen verwenden, um die Menge des gecrawlten Inhalts einzuschränken oder zu erhöhen.

In der folgenden Tabelle werden Empfehlungen zum Konfigurieren der Optionen für Crawleinstellungen beschrieben.

Inhaltsquellentyp	Ziel	Option für die Crawleinstellung
SharePoint-Websites	Sie möchten den Inhalt einer bestimmten Websitesammlung nach einem anderen Zeitplan crawlen als die anderen Websitesammlungen.	Nur die SharePoint-Website für jede Startadresse crawlen Hinweis Diese Option nimmt eine beliebige URL an, wobei der Crawl auf der auf der obersten Ebene befindlichen Website der Websitesammlung beginnt, die mit der eingegebenen URL angegeben wird. Wenn Sie beispielsweise http://contoso/sites/sales/car eingeben, aber http://contoso/sites/sales die Website auf der obersten Ebene innerhalb der Websitesammlung ist, werden die Websitesammlung http://contoso/sites/sales und alle ihre Unterwebsites gecrawlt.
SharePoint-Websites	Sie möchten den gesamten Inhalt aller Websitesammlungen in einer bestimmten Webanwendung nach demselben Zeitplan crawlen.	Alle Websites unter dem Hostnamen für jede Startadresse crawlen Hinweis Diese Option nimmt nur Hostnamen als Startadressen an, z. B. http://contoso. Wenn Sie diese Option verwenden, können Sie nicht die URL einer Unterwebsite eingeben, etwa http://contoso/sites/sales.
Websites	Der Inhalt auf der Website selbst ist relevant. - oder - Der auf verknüpften Websites verfügbare Inhalt ist wahrscheinlich nicht relevant.	Nur innerhalb des Servers jeder Startadresse crawlen
Websites	Relevanter Inhalt befindet sich nur auf der ersten Seite.	Nur die erste Seite jeder Startadresse crawlen
Websites	Sie möchten die Tiefe beschränken, in der die Links auf den Startadressen gecrawlt werden.	Benutzerdefiniert – Geben Sie die Seitentiefe und die Serverwechsel an Hinweis Es wird empfohlen, mit einer kleinen Anzahl auf einer stark vernetzten Website zu beginnen, da möglicherweise das gesamte Internet gecrawlt wird, wenn mehr als drei Seiten Tiefe oder mehr als drei Serverwechsel angegeben werden. Hinweis Sie können darüber hinaus eine oder mehrere Crawlregeln verwenden, um den zu crawlenden Inhalt festzulegen. Weitere Informationen hierzu finden Sie unter Verwenden von Crawlregeln zum Bestimmen der zu crawlenden Inhalte (Office SharePoint Server 2007).
Dateifreigaben Öffentliche Exchange-Ordner	Der in den Unterordnern verfügbare Inhalt ist wahrscheinlich nicht relevant.	Nur den Ordner jeder Startadresse
Dateifreigaben Öffentliche Exchange-Ordner	Der Inhalt in den Unterordnern ist wahrscheinlich relevant.	Ordner und Unterordner jeder Startadresse
Geschäftsdaten	Alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevanten Inhalt.	Gesamten Geschäftsdatenkatalog crawlen
Geschäftsdaten	Nicht alle im Geschäftsdatenkatalog registrierten Anwendungen enthalten relevanten Inhalt. - oder - Sie möchten einige Anwendungen nach einem anderen Zeitplan crawlen.	Ausgewählte Anwendungen crawlen

Dateitypeinschlüsse und IFilters

Inhalt wird nur gecrawlt, wenn die entsprechende Dateinamenerweiterung in der Liste der Dateitypeinschlüsse enthalten und ein IFilter auf dem Indexserver installiert ist, der diese Dateitypen unterstützt. Mehrere Dateitypen sind automatisch bei der Erstinstallation enthalten. Durch Analysieren der Abfrageprotokolle können Sie feststellen, welche Dateitypen Inhalt enthalten, in dem die Endbenutzer Abfragen ausführen möchten. Möglicherweise stellt sich dabei heraus, dass ein Dateityp gecrawlt werden muss, der derzeit nicht in den Crawlvorgang einbezogen ist, oder dass bestimmte Dateitypen von dem Crawlvorgang ausgeschlossen werden sollten.

Wenn Sie der Liste der Dateitypeinschlüsse Dateitypen hinzufügen, müssen Sie auch sicherstellen, dass ein IFilter vorhanden ist, mit dem der betreffende Dateityp während des Crawlens analysiert werden kann. Ist kein solcher IFilter installiert, wird der Inhalt der Dateien dieses Typs nicht indiziert und ist daher nicht durchsuchbar. Allerdings werden die Metadatendateien dieses Dateityps gecrawlt und sind durchsuchbar. Wenn Sie beispielsweise der Liste der Dateitypeinschlüsse den Dateityp PDF hinzufügen, aber keinen IFilter für den Dateityp PDF installieren, wird der Inhalt von PDF-Dateien nicht indiziert, aber die Metadaten von PDF-Dateien werden indiziert.

Microsoft Office SharePoint Server 2007 bietet mehrere IFilters, und weitere Filter sind über Microsoft und Drittanbieter verfügbar. Gegebenenfalls können Softwareentwickler IFilters für neue Dateitypen erstellen. Informationen zum Installieren und Registrieren von zusätzlichen IFilters von Microsoft bei Microsoft Office SharePoint Server 2007 finden Sie unter Registrieren von Microsoft Filter Pack bei SharePoint Server 2007 und Search Server 2008 (möglicherweise maschinelle Übersetzung) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x407). Weitere Informationen zu IFilters, auch zu solchen von Drittanbietern, finden sie unter Finterzentrale (in englischer Sprache) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x407).

Eine Liste der Dateitypen, die von den standardmäßig installierten IFilters unterstützt werden, und der Dateitypen, die standardmäßig für das Crawlen aktiviert sind, finden Sie in der Referenz zu Dateitypen und IFilter (Office SharePoint Server).

Begrenzen oder Ausschließen von Inhalt mithilfe von Crawlregeln

Sie können entweder vorhandene Crawlregeln bearbeiten oder neue Crawlregeln erstellen, um alle Elemente für einen bestimmten Pfad auszuschließen oder bestimmte Elemente einzubeziehen.

Hinweis

Beim Hinzufügen einer Startadresse zu einer Inhaltsquelle und dem Akzeptieren des Standardverhaltens werden alle Unterwebsites oder Ordner unterhalb dieser Startadresse gecrawlt, sofern Sie diese nicht mithilfe einer oder mehrerer Crawlregeln ausschließen.

Crawlregeln gelten für eine bestimmte URL oder eine durch Platzhalter angegebene Gruppe von URLs. (Diese URL wird auch als der von der Regel betroffene Pfad bezeichnet.) Sie verwenden Crawlregeln für die folgenden Aktionen:

Das Crawlen weniger relevanten Inhalts durch Ausschließen einer oder mehrerer URLs vermeiden. Dadurch werden auch die Verwendung von Serverressourcen und der Netzwerkverkehr reduziert und die Relevanz von Suchergebnissen erhöht.
Hyperlinks in der URL crawlen, ohne die URL selbst zu crawlen. Diese Option ist bei Websites nützlich, die Hyperlinks mit relevantem Inhalt enthalten, wenn die ursprüngliche Seite, die die Hyperlinks enthält, keine relevanten Informationen enthält oder Endbenutzern auf Suchergebnisseiten nicht verfügbar gemacht werden soll.
Komplexe URLs crawlen lassen. Mit dieser Option werden URLs gecrawlt, die einen Abfrageparameter mit einem Fragezeichen enthalten. Je nach Website schließen diese URLs möglicherweise relevanten Inhalt ein. Da komplexe URLs häufig auf weniger relevante Websites umleiten, empfiehlt es sich, diese Option nur für Websites zu aktivieren, bei denen der über komplexe URLs verfügbare Inhalt bekanntermaßen relevant ist.

Hinweis

Diese Option hat beim Crawlen von SharePoint-Websites keinerlei Auswirkungen, da Microsoft Office SharePoint Server 2007 den gesamten Inhalt aufzählt, wenn SharePoint-Websites gecrawlt werden.

Hinweis

Crawlregeln werden gleichzeitig auf alle Inhaltsquellen im SSP angewendet.

Häufig ist der Großteil des Inhalts für eine bestimmte Websiteadresse relevant, nicht aber eine bestimmte Unterwebsite oder ein Websitebereich unterhalb dieser Websiteadresse. Durch Auswählen einer gezielten Kombination aus URLs, für die Crawlregeln erstellt werden, die nicht benötigte Elemente ausschließen, können Administratoren für gemeinsame Dienste die Relevanz des Inhalts in der Indexdatei maximieren und gleichzeitig die Auswirkungen auf die Crawlperformance und die Größe der Suchdatenbanken minimieren. Das Erstellen von Crawlregeln zum Ausschließen bestimmter URLs ist besonders beim Planen der Startadressen für externen Inhalt nützlich, da hierbei die Auswirkungen auf die Ressourcenverwendung nicht von Ihrer Organisation gesteuert werden können.

Beim Erstellen einer Crawlregel können Sie für den Pfad standardmäßige Platzhalterzeichen verwenden, beispielsweise:

http://server1/ordner* schließt alle Webressourcen mit einer URL ein, die mit http://server1/ordner beginnt.
*://*.txt umfasst alle Dokumente mit der Dateinamenerweiterung TXT.

Das das Crawlen von Inhalt Ressourcen und Bandbreite beansprucht, empfiehlt es sich, eine kleinere Inhaltsmenge einzubeziehen, deren Relevanz Ihnen bekannt ist. Nach der Erstbereitstellung können Sie die Abfrage und die Crawlprotokolle überarbeiten und dementsprechend Inhaltsquellen und Crawlregeln so anpassen, dass deren Relevanz erhöht und mehr Inhalt einbezogen wird.

Zum Beschränken oder Vergrößern der zu crawlenden Inhaltsmenge können Sie die folgenden Schritte ausführen:

Begrenzen oder Erhöhen des Volumens der zu crawlenden Inhalte (Office SharePoint Server)

Crawleinstellungen

Dateitypeinschlüsse und IFilters

Begrenzen oder Ausschließen von Inhalt mithilfe von Crawlregeln

Zusätzliche Ressourcen