サイト分析を使用した Web サイトのクロール

2024-03-13

IIS サイト分析は、検索エンジンクローラー用にサイトのコンテンツ、構造、URL を最適化することを目的とした Web サイト分析に使用できる IIS 検索エンジン最適化ツールキット内のツールです。さらに、このツールを使用すると、サイトのユーザーエクスペリエンスに悪影響を与えるサイトコンテンツの一般的な問題を検出して修正できます。 IIS サイト分析ツールには、公開されているすべてのサイトリンクとリソースをクロールし、サイト分析に使用されるコンテンツをダウンロードするスパイダーが含まれています。

Web サイトのクロール

Web サイト分析の最初の手順は、サイトによって公開されているすべてのリソースと URL をクロールすることです。新しいサイト分析を作成するとき、この処理を IIS サイト分析ツールが行います。 IIS サイト分析ツールで Web サイトをクロールし、分析用のデータを収集するには、次の手順に従います。

[スタート] > [プログラムファイル] > [IIS 7.0 拡張機能] の順に移動して SEO ツールを起動し、[検索エンジン最適化 (SEO) ツールキット] アイコンをクリックします。
[接続] ペインでサーバーノードを選択します。 SEO のメインページが自動的に開きます。
[サイト分析] セクション内の [新しい分析の作成] タスクリンクをクリックします。
[新しい分析] ダイアログボックスで、分析レポートを一意に識別する名前を入力します。また、クローラーを開始する URL を入力します。

[接続] ペインでサーバーノードが選択されているため (サーバー上の特定の Web サイトを選択するのではなく)、インターネット上でパブリックにアクセスできる任意の Web サイトをクロールできます。 [新しい分析] ダイアログボックスの詳細については、「スパイダーの設定」セクションを参照してください。
すべてのパラメーターを指定したら、[OK] をクリックして分析を開始します。

分析中に次の 2 つの数値がレポートされます。
- [スタート] - スパイダーによってクロールおよびダウンロードされたリンクの合計数です。
- [リンクの合計数] - Web サイトのクロール中に見つかったリンクの合計数です。

Note

スパイダーは常にクライアントコンピューター上で実行されます。リモート IIS サーバーに接続して新しい分析を開始すると、スパイダーは、そのリモート IIS サーバーに接続されているローカルコンピューター上の IIS マネージャープロセス (InetMgr.exe) 内でホストされます。収集されたすべてのデータとキャッシュされた Web コンテンツは、そのローカルクライアントファイルシステムに保持されます。

Web サイトのクロールと分析が完了すると、サイト分析レポートの [概要] ビューが表示されます。 SEO およびコンテンツ固有の問題に関してサイトを分析する方法については、サイト分析レポートの使用方法に関する記事を参照してください。

スパイダーの設定

新しい分析を開始するときに指定できるその他のパラメーターは次のとおりです。

リンクの最大数 - この設定は、クロール中に Web サイトから処理およびダウンロードされる一意のリンクの数を制御します。リンクとは、ハイパーリンク、画像ファイルへの参照、css ファイル、javascript ファイルなど、ページのマークアップ内で使用される任意の URL を指します。この数を増やすと、レポートファイルのサイズが増え、クロールプロセスの実行時間が長くなります。
Maximum Download Size per Link (リンクあたりの最大ダウンロードサイズ) - この設定は、リンクごとにダウンロードされるコンテンツのサイズをキロバイト単位で制御します。この数を増やすと、サイト分析によってローカルファイルシステム上に格納されるキャッシュコンテンツのサイズが大きくなります。
Ignore 'nofollow' attribute ('nofollow' 属性を無視) - 'nofollow' 属性と 'nofollow' メタタグは、そのページ内の特定のハイパーリンクまたはすべてのハイパーリンクに従わないように検索エンジンクローラーに指示するために使用されます。これは、ブログコメントのスパムに対する保護の手段です。サイト上のページでこの属性を使用すると、それらのページのハイパーリンクの処理や分析はサイト分析中に行われません。画像、css、javascript ファイルなどのリソースへのリンクは引き続き処理されることに注意してください。この属性を使用するハイパーリンクも分析する必要がある場合は、'nofollow' 属性とメタタグを無視するためにこの設定を使用します。
Ignore 'noindex' meta tag ('noindex' メタタグを無視) - 'noindex' タグは、ページのコンテンツにインデックスを付けないように検索エンジンクローラーに指示するために使用されます。サイト上のページでこのメタタグを使用すると、それらのページのコンテンツの違反は検索されなくなります。この属性を使用するページも分析する必要がある場合は、'noindex' メタタグを無視するためにこの設定を使用します。
外部リンク - このドロップダウンリストは、Web サイトにサブドメインがある場合や、サイト内の特定のディレクトリに対して分析を実行する場合に使用できます。この設定は、サブドメインやサブディレクトリを外部リンクとして扱うか、内部リンクとして扱うかを制御します。

さらに、[アクション] ペインで [FeatureSettings の編集] を選択することで、スパイダーに対して次の一般的な設定を指定できます。

同時要求の最大数 - この設定は、スパイダーによる同時要求の数を制御します。
レポートディレクトリ - クロールされたすべてのデータとキャッシュされた Web サイトコンテンツが格納されるローカルファイルシステム上のディレクトリを指定します。

IIS サイト分析スパイダーのブロック

IIS サイト分析スパイダーのすべての HTTP 要求では、HTTP ヘッダーの "user-agent" が次のように設定されています。

"iisbot/1.0 (+http://www.iis.net/iisbot.html)"

IIS サイト分析スパイダーはロボット排除プロトコルに完全に準拠しています。つまり、Robots.txt ファイルを使用することで、IIS サイト分析スパイダーが Web サイトをクロールしないようにすることができます。これを使用して、他者が自分の Web サイトに対して IIS サイト分析を実行できないようにすることができます。

IIS サイト分析スパイダーが Web サイトをクロールしないようにするには、サイトのルートディレクトリにある Robots.txt ファイルの末尾に次の行を追加します。

User-Agent: iisbot
Disallow: /

まとめ

これで、IIS サイト分析ツールで Web サイトをクロールし、サイトのコンテンツと構造に関するデータを収集するための設定が完了しました。サイト分析レポートを使用して収集されたデータの分析方法については、「サイト分析レポートの使用」を参照してください。

次の方法で共有

サイト分析を使用した Web サイトのクロール

Web サイトのクロール

スパイダーの設定

IIS サイト分析スパイダーのブロック

まとめ

フィードバック

その他のリソース