エンタープライズ Web サイト Microsoft Graph コネクタ

エンタープライズ Web サイト Microsoft Graph コネクタを使用すると、organizationが会社所有の Web サイトの記事やコンテンツのインデックスを作成できます。 コネクタを構成し、Web サイトからコンテンツを同期すると、エンド ユーザーは任意の Microsoft Search クライアントからそのコンテンツを検索できます。

注:

一般的なコネクタのセットアップ手順については、Microsoft 365 管理センターの記事の「Microsoft Graph コネクタのセットアップ」を参照してください。

この記事は、Enterprise Web サイト コネクタを構成、実行、監視するすべてのユーザーを対象とします。 一般的なセットアップ プロセスを補完し、Enterprise Web サイト コネクタにのみ適用される手順を示します。 この記事には、 トラブルシューティングに関する情報も含まれています。

手順 1: Microsoft 365 管理センターにコネクタを追加する

Enterprise Web サイト コネクタを追加する

(詳細については、一般的な セットアップ手順 を参照してください)

手順 2: 接続に名前を指定する

以下の属性を指定します。

  • Name (必須)
  • 接続 ID (必須)
  • 説明 (省略可能)
  • チェック ボックスの選択 (必須)

接続 ID によって、コネクタの暗黙的なプロパティが作成されます。 一意である必要があり、最大 32 文字の英数字のみを含めることができます。 ID を変更するには、[詳細設定] に移動します。

手順 3. 接続設定を構成する

データ ソースに接続するには、Web サイトのルート URL を入力し、結果にカスタムの縦書きを選択します。 この情報を完了したら、[テスト接続] を選択して設定を確認します。

Web サイトの URL

クロールする Web サイトのルートを指定します。 エンタープライズ Web サイト コネクタは、この URL を出発点として使用し、クロールのためにこの URL のすべてのリンクに従います。

注:

1 つの接続で最大 50 個の異なるサイト URL のインデックスを作成できます。 [URL] フィールドに、サイト URL をコンマ (,) で区切って入力します。 たとえば、「 https://www.contoso.com,https://www.contosoelectronics.com 」のように入力します。

クロールにサイトマップを使用する

選択すると、コネクタはサイトマップに一覧表示されている URL のみをクロールします。 これにより、後の手順で増分クロールを構成することもできます。 選択されていない場合、またはサイト マップが見つからない場合、コネクタはサイトのルート URL で見つかったすべてのリンクのディープ クロールを実行します。

動的サイト構成

Web サイトに動的コンテンツ (Confluence や Unily などのコンテンツ管理システムに存在する Web ページなど) が含まれている場合は、動的クローラーを有効にすることができます。 有効にするには、[ 動的サイトのクロールを有効にする] を選択します。 クローラーは、クロールを開始する前に動的コンテンツがレンダリングされるのを待ちます。

Enterprise Web コネクタの [接続設定] ウィンドウのスクリーンショット。

[チェック] ボックスに加えて、次の 3 つのオプション フィールドを使用できます。

  1. DOM Ready: コンテンツが完全にレンダリングされ、クロールを開始する必要があることを示すシグナルとしてクローラーが使用する DOM 要素を入力します。
  2. 追加するヘッダー: 特定の Web URL を送信するときにクローラーに含める必要がある HTTP ヘッダーを指定します。 Web サイトごとに複数のヘッダーを設定できます。 認証トークンの値を含めることをお勧めします。
  3. スキップするヘッダー: 動的クロール要求から除外する必要がある不要なヘッダーを指定します。

ヘッダーは、次の構文で追加する必要があります。 {"Root-URL":["TKey=TValue"]}

例: {"https://www.contoso.com":["Token=Value","Type=Value2"]}

注:

動的クロールは、エージェント クロール モードでのみサポートされます。

クロール モード: クラウドまたはオンプレミス

クロール モードは、インデックスを作成する Web サイトの種類 (クラウドまたはオンプレミス) を決定します。 クラウド Web サイトの場合は、クロール モードとして [ クラウド ] を選択します。

また、コネクタでオンプレミス Web サイトのクロールがサポートされるようになりました。 オンプレミスのデータにアクセスするには、まずコネクタ エージェントをインストールして構成する必要があります。 詳細については、「 Microsoft Graph コネクタ エージェント」を参照してください。

オンプレミスの Web サイトでは、クロール モードとして [エージェント ] を選択し、[ オンプレミス エージェント ] フィールドで、前にインストールして構成した Graph コネクタ エージェントを選択します。

認証

認証 は必要ありません

Basic では 、ユーザー名とパスワードが必要です。

Microsoft Entra IDを使用するOAuth 2.0 には、リソース ID、クライアント ID、およびクライアント シークレットが必要です。

リソース ID、クライアント ID、クライアント シークレットの値は、Web サイトのMicrosoft Entra ID ベースの認証のセットアップ方法によって異なります。

  1. アプリケーションを ID プロバイダーとクライアント アプリの両方として使用して Web サイトにアクセスする場合、クライアント ID とリソース ID はアプリのアプリケーション ID になり、クライアント シークレットはアプリで生成したシークレットになります。

    クライアント アプリが構成されたら、アプリの [証明書 & シークレット ] セクションに移動して、新しいクライアント シークレットを作成します。 ページに表示されているクライアント シークレットの値をコピーします。これは、もう一度表示されないためです。

    次のスクリーンショットでは、独自にアプリを作成している場合に、クライアント ID、クライアント シークレットを取得し、アプリを設定する手順を確認できます。

    • [ブランド化] セクションの設定を表示します。

      ブランド化ページの [設定] セクションを示す画像。

    • [認証] セクションの設定を表示します。

      認証ページの [設定] セクションを示す画像。

      注:

      Web サイトでリダイレクト URI に上記のルートを指定する必要はありません。 認証に Azure によって送信されたユーザー トークンを Web サイトで使用する場合にのみ、ルートを作成する必要があります。

    • [ 要点 ] セクションのクライアント ID の表示:

      essentials セクションのクライアント ID を示す画像。

    • [証明書 & シークレット] セクションでクライアント シークレットを 表示します。

      クライアント シークレットを示す画像。

  2. アプリケーションをリソースとして Web サイトの ID プロバイダーとして使用し、Web サイトにアクセスするための別のアプリケーションを使用している場合、クライアント ID は 2 番目のアプリのアプリケーション ID になり、クライアント シークレットは 2 番目のアプリで構成されたシークレットになります。 ただし、リソース ID は最初のアプリの ID になります。

    このアプリケーションでクライアント シークレットを構成する必要はありませんが、[アプリ ロール] セクション にアプリ ロールを追加する必要があります。これは後でクライアント アプリケーションに割り当てられます。 アプリ ロールを追加する方法については、画像を参照してください。

    • 新しいアプリ ロールの作成:

      アプリ ロールを作成するオプションを示す画像。

    • 新しいアプリ ロールの編集:

      アプリ ロールを編集するセクションを示す画像。

      リソース アプリを構成したら、クライアント アプリを作成し、クライアント アプリの API アクセス許可で上記で構成したアプリ ロールを追加して、リソース アプリにアクセスするためのアクセス許可を付与します。

      注:

      クライアント アプリにアクセス許可を付与する方法については、「 クイック スタート: Web API にアクセスするようにクライアント アプリケーションを構成する」を参照してください。

    次のスクリーンショットは、クライアント アプリにアクセス許可を付与するセクションを示しています。

    • アクセス許可の追加:

      アクセス許可を追加するオプションを示す画像。

    • アクセス許可の選択:

      API を選択するセクションを示す画像。

    • アクセス許可の追加:

      選択したアクセス許可を示す画像。

    アクセス許可が割り当てられたら、[証明書 & シークレット] セクションに移動して、このアプリケーションの新しいクライアント シークレットを作成する必要があります。 ページに表示されるクライアント シークレットの値をコピーします。この値は再び表示されません。 このアプリのアプリケーション ID をクライアント ID として使用し、このアプリのシークレットをクライアント シークレットとして使用し、最初のアプリのアプリケーション ID をリソース ID として使用します。

SiteMinder には、適切に書式設定された URL、 https://custom_siteminder_hostname/smapi/rest/createsmsession、ユーザー名、およびパスワードが必要です。

Windows 認証はエージェント モードでのみ使用できます。 ユーザー名、ドメイン、パスワードが必要です。 [ユーザー名] フィールドに、domain\ username または username@domainのいずれかの形式でユーザー名とドメインを指定する必要があります。 [パスワード] フィールドに パスワード を入力する必要があります。 Windows 認証の場合、指定されたユーザー名は、エージェントがインストールされているサーバーの管理者である必要もあります。

手順 4: メタ タグ設定

コネクタは、ルート URL に含まれる可能性があるメタ タグをフェッチして表示します。 クロールに含めるタグを選択できます。

作成者、ロケール、およびその他のタグが選択されたメタ タグ設定。

選択したメタ タグを使用して、カスタム プロパティを作成できます。 また、[スキーマ] ページでは、さらに管理できます (クエリ可能、検索可能、取得可能、絞り込み可能)。

手順 5: カスタム プロパティ設定

インデックス付きデータをエンリッチするには、選択したメタ タグまたはコネクタの既定のプロパティのカスタム プロパティを作成します。

Team メタデータのルールを使用して設定されたカスタム プロパティ。

カスタム プロパティを追加するには:

  1. プロパティ名を入力します。 この名前は、このコネクタの検索結果に表示されます。
  2. 値の場合は、[Static] または [String/Regex Mapping]\(文字列/正規表現マッピング\) を選択します。 このコネクタのすべての検索結果には、静的な値が含まれます。 文字列/正規表現の値は、追加するルールによって異なります。
  3. [ 値の編集] を選択します
  4. 静的な値を選択した場合は、表示する文字列を入力します。
  5. 文字列/正規表現の値を選択した場合:
    • [ 式の追加 ] セクションの [プロパティ ] の一覧で、一覧から既定のプロパティまたはメタ タグを選択します。
    • [ サンプル値] に、表示される可能性のある値の種類を表す文字列を入力します。 このサンプルは、ルールをプレビューするときに使用されます。
    • [ 式] に正規表現を入力して、検索結果に表示するプロパティ値の部分を定義します。 最大 3 つの式を追加できます。 正規表現の詳細については、「 .NET 正規表現 」を参照するか、Web で正規表現式リファレンス ガイドを検索してください。
    • [ 数式の作成 ] セクションで、式から抽出された値を結合する数式を入力します。

手順 6: 除外する URL を追加する (オプションのクロール制限)

ページがクロールされないようにするには、robots.txt ファイルでページを禁止するか、除外リストに追加する方法の 2 つの方法があります。

robots.txt のサポート

コネクタは、ルート サイトの robots.txt ファイルがあるかどうかを確認します。 存在する場合は、そのファイル内の指示に従って尊重されます。 コネクタがサイト上の特定のページまたはディレクトリをクロールしないようにする場合は、robots.txt ファイルの "許可しない" 宣言にページまたはディレクトリを含めます。

除外する URL を追加する

必要に応じて 、除外リスト を作成して、コンテンツが機密性が高い場合やクロールする価値がない場合にクロールから一部の URL を除外できます。 除外リストを作成するには、ルート URL を参照します。 構成プロセス中に、除外された URL を一覧に追加できます。

手順 7: プロパティ ラベルを割り当てる

各ラベルにソース プロパティを割り当てるには、オプションのメニューからを選択します。 この手順は必須ではありませんが、一部のプロパティ ラベルを使用すると、検索の関連性が向上し、エンド ユーザーの検索結果がより正確になります。

手順 8: スキーマを管理する

[ スキーマの管理 ] 画面で、既定またはカスタム プロパティに関連付けられているスキーマ属性 ( [クエリ]、[ 検索]、[ 取得]、[ 絞り込み] の各オプション) を変更し、省略可能なエイリアスを追加して、[ コンテンツ ] プロパティを選択できます。

手順 9: 検索アクセス許可を管理する

Enterprise Web サイト コネクタでは、 Everyone に表示される検索アクセス許可のみがサポートされます。 インデックス付きデータは検索結果に表示され、organization内のすべてのユーザーに表示されます。

手順 10: 更新スケジュールを設定する

Enterprise Web サイト コネクタでは、フル クロールと増分クロールがサポートされています。 増分クロールは、サイトマップ クロールを有効にして設定された接続に対してのみサポートされます。 クロール用のサイトマップは、手順 3 で選択できます。

増分更新間隔中に、最後の増分更新以降に変更された URL のみがクロールされます。 完全な更新間隔で、コネクタはすべての Web サイトのコンテンツを再クロールします。 完全更新の場合は、コネクタがクロールを完了するのに十分な時間を確保するために、1 週間から 2 週間の長い更新スケジュール間隔を設定することをお勧めします。 スケジュールされた更新をお勧めします。

手順 11: 接続を確認する

一般的な セットアップ手順に従います。

トラブルシューティング

Web サイトのコンテンツを読み取ると、クロールでソース エラーが発生する可能性があります。これは、以下の詳細なエラー コードによって表されます。 エラーの種類の詳細については、接続を選択した後、 エラーの詳細 ページに移動します。 エラー コードを選択すると、より詳細なエラーが表示されます。 詳細については、「 接続の監視」 も参照してください。

詳細なエラー コード エラー メッセージ
6001 インデックス作成を試みられているサイトに到達できない
6005 robots.txt 構成に従って、インデックス作成を試行しているソース ページが によってブロックされました。
6008 DNS を解決できない
6009 すべてのクライアント側エラー (HTTP 404、408 を除く) については、HTTP 4xx エラー コードに関するページを参照してください。
6013 インデックス作成を試みようとしているソース ページが見つかりませんでした。 (HTTP 404 エラー)
6018 ソース ページが応答せず、要求がタイムアウトしました。(HTTP 408 エラー)
6021 インデックス作成を試行しているソース ページには、ページにテキスト コンテンツがありません。
6023 インデックス作成を試みられているソース ページはサポートされていません (HTML ページではありません)
6024 インデックス作成を試みられているソース ページにサポートされていないコンテンツがあります。
  • エラー 6001 から 6013 は、ネットワークの問題が原因でデータ ソースに到達できない場合、またはデータ ソース自体が削除、移動、または名前変更されたときに発生します。 指定されたデータ ソースの詳細がまだ有効かどうかを確認します。
  • エラー 6021 から 6024 は、データ ソースにページにテキスト以外のコンテンツが含まれている場合、またはページが HTML でない場合に発生します。 データ ソースを確認し、除外リストにこのページを追加するか、エラーを無視します。