Copilot のセマンティック インデックス
セマンティック インデックスは、 Microsoft Graph のコンテンツから生成されます。 これは、ユーザー クエリに対するコンテキストに関連する応答の生成を支援するために使用されます。 これにより、組織は何十億ものベクトル (特徴や属性の数学的表現) を検索し、関連する結果を返すことができます。 Microsoft Graph 全体の機能強化と組み合わせることで、セマンティック インデックスを使用すると、organization内の関連情報に接続できます。 これは、 セキュリティ、コンプライアンス、プライバシーに対する Microsoft の包括的なアプローチに基づいて構築されており、テナント内のすべての組織の境界を尊重します。
インデックスとは
データのインデックス作成の概念は、Microsoft 365 で十分に確立されています。 インデックス作成は、Microsoft 365 サービスが Microsoft 365 テナントが存在する Microsoft Graph の膨大な量のデータにアクセスする重要な方法の 1 つです。 インデックス作成を使用すると、テナント内のほとんどの Microsoft 365 アプリケーションからのコンテンツやシグナルなど、Microsoft Graph の検索結果がユーザーに表示されます。 これにより、コンテンツとネットワーク内のユーザーの間の接続に基づいて、検索結果がパーソナライズされ、昇格されます。
Microsoft Graph でのデータとの対話は、キーワード (keyword)照合、パーソナル化、ソーシャル マッチングに基づいています。 キーワード検索クエリは、Microsoft Graph のインデックスに対してクエリを実行します。これは、ドキュメントまたはドキュメントのセット内の場所にマップされます。 Microsoft 365 では、Microsoft Graph を使用して、ユーザーとその近いネットワークに対する追加シグナルに関する知識に基づいて、最も関連性の高いコンテンツをランク付けします。 これは、Microsoft 365 のパーソナル化とソーシャル マッチングと呼ばれ、organization内のコンテンツに対するクエリの関連性を高めます。 Microsoft Graph のテナント データへのアクセスは、ロールベースのアクセス制御によって制御されます。 組織は常に、Microsoft 365 管理センターの検索およびインテリジェンス ポータルを使用して Microsoft Search 機能を制御しています。
セマンティック インデックスがデータの管理にどのように役立つか
セマンティック インデックスは、キーワード、個人の好み、ソーシャル接続に基づいて関連するコンテンツを検索できる Microsoft 365 の機能を強化します。 これは、ベクター化されたインデックスを作成することによって行います。 ベクターは、単語、画像ピクセル、またはその他のデータ ポイントの数値表現です。 ベクトルは、類似度を表すために近接して配置された近い数値で配置またはマップされます。 ベクトルは多次元空間に格納され、意味的に類似したデータ ポイントがベクター空間にクラスター化され、Microsoft 365 は"完全一致" を超える広範な検索クエリセットを処理できます。
実際には、これは、Microsoft 365 Copilotなどの Microsoft 365 サービスが次のことを行うことができることを意味します。
- さまざまな形式の単語 (技術、テクノロジ、テクノロジなど) 間の関係を理解する。アメリカ合衆国、アメリカ合衆国、米国、アメリカの米国;犬、猫、ペット)。
- シノニムをキャプチャして、文、スニペット、ドキュメント、会議の意図など、検索可能な情報の量を拡張します。
- クエリまたはサンプル コンテンツに関連する資産を特定します。
次の図は、テキスト (ベクター化されたインデックスで使用される数値ではなく) を使用して、データ ポイント間の類似性の例を示しています。
セマンティック インデックスを使用すると、ベクター距離または類似性に基づいてデータの高速かつ正確な類似性検索と取得が可能になります。 つまり、完全一致または定義済みの条件に基づいてクエリを実行するために従来の字句メソッドを使用するだけでなく、セマンティック インデックスは、セマンティックまたはコンテキストの意味に基づいて最も類似したデータまたは関連するデータを見つけることができます。
機能
次のセマンティック インデックス機能は、検索結果を強化する以上の機能を備えています。これらは連携して、データの理解、情報の迅速な検索、生産性の向上に役立ちます。 ユーザーは、Microsoft 365 Copilot統合を使用して、セマンティック インデックスを最初に操作できます。 有料のMicrosoft 365 Copilot ライセンスを持つユーザーのセマンティック インデックスを生成します。 各機能のしくみの詳細を次に示します。
グラフベースのチャットを使用した Microsoft Copilot
セマンティック インデックスを使用すると、クエリの意図を理解し、Microsoft Copilot プロンプトに追加情報を追加することで、Graph ベースのチャットでMicrosoft Copilot内の結果を表示できます。 関連性の高い情報は、Microsoft Graph とセマンティック インデックスで取得され、大きな言語モデル (LLM) に推論の詳細が提供されます。 たとえば、同僚がベンダーの設計作業を称賛するメールを見つけるMicrosoft Copilotがあるとします。 セマンティック インデックスには、検索領域を広げ、最適な結果を得るために、検索に近い単語 (例: 省略、興奮、驚き) が含まれます。 この作業はすべてバックグラウンドで行われ、複雑さを追加することなく、Microsoft Copilotで検索する結果に関連性を追加します。
セマンティック インデックスのしくみ
セマンティック インデックスは、Microsoft 365 アプリ、SharePoint Online、およびMicrosoft TeamsのMicrosoft Copilotと検索結果を強化します。 これは、Microsoft によって自動的に有効になるオンライン データの強化された検索エクスペリエンスと概念的理解をサポートします。
現在、セマンティック インデックスはテナント レベルで作成されます。 これは、テキスト ベースの SharePoint Online ファイルから生成されたorganization全体のインデックスであり、サイトの継承を介して 2 人以上がアクセスできます。 ただし、ユーザーがロールベースのアクセス制御によって制御されるコンテンツに既にアクセスできる場合にのみ、結果がユーザーに表示されます。 さらに、SharePoint Online サイトは検索可能なままである必要があります。 時間の中で、ユーザー レベルのインデックス コンテンツも生成します。 これにより、日常のタスクを実行するユーザーがアクセスできる作業セットの個人用インデックスが追加されます。 これには、メール、メンションドキュメント、コメントや共有など、作成または操作するテキスト ベースのコンテンツが含まれます。
次のセクションでは、各インデックスを有効にする方法、Microsoft 365 Copilotのデータ フローでセマンティック インデックスを使用する方法、各インデックスで処理できるファイルの種類、および各インデックスが更新を処理する方法について説明します。
有効化
すべてのMicrosoft 365 Copilot顧客は、テナント レベルのセマンティック インデックスを持つようになりました。 インデックス作成プロセスでは、管理上の関与は必要ありません。
データ フロー
セマンティック インデックスは、Microsoft Graph と対話して、ユーザーにインデックス内の情報へのアクセスを提供します。 次の図は、Microsoft 365 Copilotを使用した要求に対するデータフローのしくみを示しています。
Microsoft 365 アプリからのユーザー プロンプトは Copilot (1) に送信され、Copilot は処理のために Microsoft Graph とセマンティック インデックスにアクセスします (2)。 Copilot は、変更されたプロンプトを大きな言語モデル (3) に送信し、LLM 応答 (4) を受け取り、後処理のために Microsoft Graph とセマンティック インデックスにアクセスします (5)。 その後、Copilot は応答とアプリ コマンドを Microsoft 365 アプリに送信します。 すべての要求は HTTPS によって暗号化され、顧客データは保存時に暗号化されたままになります。
サポートされているコンテンツ タイプ
セマンティック インデックスでは、次の表に示すユーザー メールボックスとファイルの種類のインデックス作成がサポートされており、時間の経過と共により多くの種類のファイルがサポートされています。 テーブルには、ユーザー レベルのインデックスとテナント レベルのインデックスでサポートされているファイルの種類の一覧が含まれています。
コンテンツ/ファイルの種類 | ユーザー レベル | テナントのレベル |
---|---|---|
ユーザー メールボックス | サポート | 該当なし |
委任されたメールボックス | 非サポート | 該当なし |
共有メールボックス | 非サポート | 該当なし |
アーカイブされたメールボックス データ | 非サポート | 該当なし |
アーカイブされた SharePoint データ | サポート対象外 | 非サポート |
ドキュメントのWord (doc/docx) | サポート | サポート |
PowerPoint (pptx) | サポート | サポート |
PDF ファイル | サポート | サポート |
Web ページ (aspx) | サポート | サポート |
OneNote ファイル (1) | サポート | サポート |
Graph コネクタ のデータ | 該当なし | サポート |
インデックスの更新
セマンティック インデックスが初めて顧客のインデックス作成を完了すると、ユーザーによって作成されたドキュメントは、ユーザーのメールボックスでほぼリアルタイムでインデックスが作成されます。 サイトの継承によって 2 人以上のユーザーがアクセスできる SharePoint Online サイトに追加された新しいドキュメントは、毎日インデックスが作成されます。 インデックス付きユーザーとテナント レベルのドキュメントが更新されると、変更はすぐにインデックスが作成されます。
管理
Microsoft 365 管理センターを使用してセマンティック インデックスを準備および管理するためのオプションのアクティビティを管理者に提供します。 セマンティック インデックスを有効にするために管理上の関与は必要ありません。サービスは Microsoft によって自動的に有効になります。 セマンティック インデックスは Microsoft 365 Search の機能強化であり、無効にすることはできません。
管理者は、 SharePoint でファイル コラボレーションを計画および展開し、SharePointモダン エクスペリエンスでアクセス許可を共有するための考慮事項を確認することで、セマンティック インデックスの準備と管理を選択できます。 管理者は、Microsoft Purview データ損失防止 (DLP) でのデータの除外に関する考慮事項を確認することで、セマンティック インデックスからファイルを除外することを選択できます。 DLP ソリューションが存在しない場合、管理者は SharePoint Online サイトをテナント レベルのインデックスから除外できます。
SharePoint Online サイトを除外する
Microsoft Purview データ損失防止を持たない組織が、SharePoint Online サイトのデータを Microsoft Search によってインデックス付けしないようにしたい場合があります。 これらの手順は、給与、人事、財務情報などの機密データに対してのみ考慮する必要があります。 SharePoint Online サイトを除外するには、次の手順に従います。
- 適切な管理者権限を持つサイトを参照します。
- ドロップダウン メニューから [設定] を選択し、[ サイト情報 ] を選択します。
- [ すべてのサイト設定を表示] を選択して、[サイトの設定] ページを表示します。
- [検索] カテゴリの [検索とオフラインの可用性] を選択し、[このサイトを検索結果に表示することを許可する] で [いいえ] を選択して、Microsoft Search とセマンティック インデックス検索の両方から除外します。 これは、複数のサイトに対して PowerShell で実行することもできます。
Microsoft Search とセマンティック インデックスでは、テナント レベルのインデックスからの SharePoint オンライン コンテンツの除外のみがサポートされます。 Microsoft Search のみまたはセマンティック インデックスから結果を除外するオプションはありません。アクションは両方に同時に適用されます。
項目分析情報の構成
Microsoft 365 管理センターの [検索とインテリジェンス] ページで、Item insights が既定で有効になっています。 ユーザーまたはアイテムの分析情報をオフにすると、配布グループや組織のグラフから派生した関連ユーザーが結果に含まれないので、Microsoft Search とセマンティック インデックスのエクスペリエンスが低下します。
People分析情報は、Microsoft 365 でのパブリック コラボレーション作業に基づいて、ユーザーに関連するユーザーの一覧を提供します。 パブリック コラボレーションには、パブリック配布グループのメンバーと、組織のグラフに接続されている個人が含まれます。
アイテム分析情報を使用すると、Microsoft 365 での共同作業に基づいて、organizationのユーザーに対する推奨事項を得ることができます。 これらの推奨事項には、ドキュメントやその他の種類のコンテンツが含まれますが、これらに限定されず、ユーザー カード (連絡先)、Delve、Microsoft 365 アプリ、Microsoft Copilot結果、その他の場所に表示されます。
Item insights と People Insights の両方で、ユーザー自身のデータに基づくパーソナル化機能はカバーされません。
サード パーティの情報の組み込み
Copilot コネクタを使用すると、組織のデータやコンテンツを外部ソースから Microsoft Graph に取り込み、そこでセマンティック インデックスに取り込むことができます。 Microsoft では、コンテンツのアクセス制御を維持しながら、すべての Graph コネクタ データにインデックスを作成します。 これにより、Microsoft 365 生産性アプリと広範な Microsoft エコシステムで検索できるコンテンツ ソースの種類が拡張され、コネクタ コンテンツがテキストリッチな場合に最適に機能します。 サード パーティのデータは、オンプレミスまたはパブリック クラウドまたはプライベート クラウドでホストできます。この情報は Microsoft Graph によって使用されます。この情報は、セマンティック インデックスに取り込んで、Microsoft 365 とorganizationのサード パーティコンテンツ全体のすべてのコンテキストをorganizationに提供するのに役立ちます。 Microsoft 365 EnterpriseとMicrosoft 365 Copilotのグラフ コネクタ ライセンス要件の詳細については、「ライセンスの要件と価格」を参照してください。
プライバシー、コンプライアンス、セキュリティ
Microsoft 365 テナント内のアクセス許可モデルは、ユーザー、グループ、テナント間でデータが意図せず漏洩しないようにするのに役立ちます。 セマンティック インデックスは、他の Microsoft 365 サービスで使用されるデータ アクセスに対して同じ基になるコントロールを使用して、各個人がアクセスできるデータのみを示します。 セマンティック インデックスでは、ユーザー ID ベースのアクセス境界が適用されるため、接地プロセスは現在のユーザーがアクセスを許可されているコンテンツにのみアクセスします。 詳細については、 Microsoft のプライバシー ポリシーとサービスに関するドキュメントを参照してください。
Microsoft 365 Copilot は、一般データ保護規則 (GDPR) や欧州連合 (EU) のデータ境界など、Microsoft 365 の法人顧客に対する既存のプライバシー、セキュリティ、コンプライアンスの義務に準拠しています。 セマンティック インデックスを介してアクセスされるプロンプト、応答、データは、Microsoft 365 Copilotで使用されるものも含め、基礎 LLM のトレーニングには使用されません。 詳細については、「Microsoft 365 Copilotのデータ、プライバシー、セキュリティ」を参照してください。
ストレージと処理
セマンティック インデックスによって生成されたデータは、会社のテナント内に残り、セキュリティ、コンプライアンス、ID、およびプライバシー ポリシーとプロセスに準拠します。 セマンティック インデックスは、ユーザーが既にアクセス許可を持ち、ストレージ クォータに影響しないコンテンツでのみ機能します。
ユーザー レベルのインデックス情報は、ユーザーのメールボックスがある場所に格納されます。 一方、テナント レベルのインデックス情報は、分離された保護された顧客のテナント コンテナーに格納されます。 このコンテナーは、SharePoint サイトが配置されているリージョンにあります。これは、ホーム リージョンまたはテナント管理者によって指定された別のリージョンにすることができます。欧州連合データ境界 (EUDB) 内のお客様の場合、インデックスは EU/EFTA ベースのデータセンターに格納されます。 他の顧客の処理は、テナント リージョンまたは米国で行うことができます。 複数地域の組織では、すべての地理的境界が尊重されます。 リージョン内データは、各リージョンに格納および処理されます。
Microsoft Purview カスタマー キー (BYOK) のサポート
セマンティック インデックスは、環境内で BYOK を有効にしている企業に対して独自のキー (BYOK) のサポートを提供します。 Microsoft は、BYOK 対応のお客様のセマンティック インデックスを管理上の関与なしに自動的に有効にします。
情報保護
検索のコンテキストでは、情報保護機能を使用してセマンティック インデックスからデータを除外する他の方法はありません。 セマンティック インデックスは Microsoft Search からセキュリティとプライバシーの設定を継承し、サード パーティのコネクタから取り込まれたデータには、他の Microsoft 365 データと同じストレージと保護が提供されます。 追加の情報保護オプションを調査している組織の場合、Microsoft 365 には Microsoft 365 アプリに組み込みの機能が用意されています。 アドオン製品は、管理者がデータの最小化と過共有の削減を通じて組織のデータを保護するのに役立ちます。 次のセクションでは、組織が参照するためにのみ使用できるオプションについて説明します。
データの最小化
データの最小化により、organizationがアクセスする可能性がある使用可能なデータの量が減ります。 コンプライアンスや規制の要件にはコンテンツの保持と削除が必要なことがよくありますが、ビジネス価値を持たなくなったコンテンツを削除すると、リスクと責任を管理することもできます。 Microsoft Purview データ ライフサイクル管理は、個別にライセンスが付与され、大規模な管理のアイテム保持ポリシーで不要になったコンテンツや、例外ときめ細かい制御の保持ラベルを削除するために使用できます。
オーバーシェアリングを減らす
組織は長い間、Microsoft 365 管理センターと SharePoint Online の既存のコントロールを使用して、Microsoft 365 でのオーバーシェアリングを減らすためのアクションを実行できました。 セマンティック インデックスはコンテンツへのアクセス許可を変更せず、ユーザーが同僚と情報を共有する方法の原則を変更しない点に注意することが重要です。 たとえば、セマンティック インデックスでは、テナント レベル インデックスのorganization部分のすべてのユーザーと連携するリンクでコンテンツが共有されることはありません。 アクセスできるリンクを選択したユーザーのみが、ユーザー インデックスに情報を追加します。 組織は、情報保護オプションを調べるとき、次の点を考慮することをお勧めします。
セキュリティで保護されたファイルコラボレーションを計画 する – ファイルコラボレーションの計画と展開 に関するページを参照して、ユーザーに安全で生産的なファイルコラボレーション環境を運用するための推奨プラクティスの詳細を理解します。
リストを減らすためにデータへのユーザー アクセスのサイズを適切に設定する - SharePoint Online サイトの除外リストを継承し、リアルタイムでアクセス制御チェックを実行することで、オーバーシェアを減らします。 組織は、 Syntex SharePoint Advanced Management アドオン を使用して、これらのアクセス許可を管理および管理することを検討できます。
秘密度ラベルを使用する - コンテンツの過共有を減らすもう 1 つの方法は、Microsoft Purview 情報保護を使用して秘密度ラベルを適用することです。これにより、秘密度に基づいてデータを分類し、暗号化やコンテンツ マーケティングなどの保護を適用できます。 秘密度ラベルは、検索トリミングにも含まれます (つまり、フィルター処理と、視覚的なマーキングとアクセス制限に使用されるアプリケーション側ルールでサポートされます)。
アクセスの制限 – Microsoft Purview データ損失防止はMicrosoft 365 E5で使用でき、過共有として報告されたドキュメントへのアクセスをさかのぼって一時的に制限するために使用できます。 Microsoft 365 E5 ライセンスを持っていない組織は、90 日間の Microsoft Purview ソリューション試用版を使用して、追加の Purview 機能がデータのセキュリティとコンプライアンスのニーズを管理するのにどのように役立つかを調べることができます。
高度な情報保護ソリューションを展開する方法について詳しくは、 Microsoft Purview を使用して情報保護ソリューションを展開する方法を説明する次の記事をご覧ください。 Microsoft Purview がMicrosoft 365 Copilotのデータ セキュリティとコンプライアンスの要件を強化する方法の詳細については、「Microsoft Purview とのMicrosoft 365 Copilot操作を保護および管理する」を参照してください。
その他のリソース
Microsoft 365、Microsoft Graph、セマンティック インデックスを使用すると、Microsoft 365 データを利用して、検索、チャット、および副操縦をこれまでにない表現力で実現できます。 この表現力は、Microsoft 365 とMicrosoft 365 Copilotを使用して組織のデータを最大限に活用するために、適切な接地データを表示するのに役立ちます。
Microsoft 365 Copilotの詳細については、次のリソースをチェックします。