次の方法で共有


エッジ取得拡張生成 (RAG) とは何ですか?

Edge RAG プレビューは 、Azure Arc 対応 Kubernetes 拡張機能 です。これにより、取得拡張生成 (RAG) を使用して、生成 AI を使用してオンプレミスのデータを検索できます。 RAG は、言語モデルの機能をプライベート データで拡張する業界標準のアーキテクチャです。

Azure Arc で有効になっている Edge RAG プレビューは、顧客がカスタム チャット アシスタントを構築し、プライベート データから分析情報を導き出すために必要なすべてのものをパッケージ化するターンキー ソリューションです。

  • CPU ハードウェアと GPU ハードウェアの両方をサポートしてローカルで実行される GenAI (Generative AI) 言語モデルの選択。
  • 承認されていないアクセスを防ぐための Azure ロールベースのアクセス制御 (RBAC) を使用して、すべてのデータをローカルに保持するターンキー データ インジェストと RAG パイプライン。
  • カスタム チャット ソリューションを検索、評価、デプロイするための、すぐに使用できるプロンプト エンジニアリングおよび評価ツール。
  • ビジネス アプリケーションに統合するための Azure と同等の API と、すぐに開始するための事前パッケージ化された UI。

Edge RAG は、テキストと共にコンテキスト参照として使用される関連する画像を取り込んで取得できますが、ビジュアル言語モデル (VLM) ではないことに注意することが重要です。

Edge RAG は、Azure Arc 対応 Kubernetes on Azure Local (旧称 Azure Stack HCI) インフラストラクチャでサポートされています。

詳細については、 Azure ArcAzure Arc 対応 KubernetesAzure Arc 拡張機能に関するページを参照してください。

Von Bedeutung

Azure Arc で有効になっている Edge RAG プレビューは、現在プレビュー段階です。 ベータ版、プレビュー版、または一般提供としてまだリリースされていない Azure の機能に適用される法律条項については、「Microsoft Azure プレビューの追加使用条件」を参照してください。

顧客のシナリオとユース ケース

製造業、金融サービス、医療、政府、防衛などの業種のお客様向けに、貴重なデータが生成され、ローカルに保存されます。 これは、規制、待機時間、ビジネス継続性、またはリアルタイムで生成された膨大な量のデータが原因で、ハイパースケール クラウドの外部で発生します。 お客様は、生成型 AI アプリケーションを使用して、このオンプレミス データから分析情報を取得したいと考えています。

Edge RAG では、ユーザーが次のようなシナリオでカスタム チャット ボットを使用してオンプレミス データに対してクエリを実行できる Q&A 機能がサポートされています。

  • 政府機関のお客様は、機密性の高いオンプレミス データから分析情報を引き出して、より迅速な意思決定、大規模なデータセットの集計、トレーニング資料の作成などを可能にしたいと考えています。

  • ある地域の銀行は、コンプライアンス チェック、顧客サポート、パーソナライズされたセールス ピッチ生成などのユース ケースの規制上の制約により、オンプレミスに残る必要があるデータを使用したいと考えています。

  • あるグローバルメーカーは、組織のポリシーに準拠するためにローカルに維持する必要があるデータを使用して、解決にかかる時間を短縮し、トラブルシューティングを支援するために工場の現場アシスタントを作成したいと考えています。

Edge RAG を使用する理由

Edge RAG を使用して次の処理を行います。

  • ローカル データに対する AI アプリケーションの開発とデプロイを高速化するターンキー エクスペリエンスを使用して、市場投入までの時間を短縮します。
  • すべてのコンポーネントのライフサイクルとバージョン管理、Azure RBAC の Microsoft Entra 統合など、Microsoft が期待するのと同じ標準のセキュリティ、コンプライアンス、管理性を提供するエンタープライズ品質ソリューションを使用して、運用とエンドツーエンドの管理を簡素化します。
  • クラウド整合性の開発者エクスペリエンスを備えた個別の開発者スキルセットの必要性を取り除く
  • AI テクノロジのリーダーである Microsoft の継続的なイノベーションにより、急速に進化するこの領域を常に活用し、ビジネス価値の提供に引き続き注力します。

重要な概念

Edge RAG の次の主要な概念を確認します。

  • チャンクは 、大きなドキュメントを小さく管理しやすいテキスト ブロック (チャンク) に分割します。

    • チャンク サイズ: チャンクは、大きなドキュメントをより小さな単位に分割し、チャンク サイズ (1000 ~ 2000 文字など) やチャンクの重複 (100 ~ 500 文字など) などの設定で、粒度と連続性を制御します。 チャンクを小さくすると、取得精度は向上しますが、コンテキストが失われる可能性がありますが、チャンクが大きいほど、精度を犠牲にして包括的なコンテキストが保証されます。
    • チャンクの重複: 重複するチャンクは境界を越えてコンテキストを維持しますが、ストレージと計算の要件が増加します。

    最適なチャンク設定は、ユース ケース、分散の精度、効率、パフォーマンスによって異なります。

  • データ インジェスト は、ドキュメントや画像などの外部コンテンツをインポートして準備し、取得に使用するプロセスです。 これには、データのクリーニング、書式設定、整理などの前処理手順が含まれます。

  • 埋め込みモデルは 、テキスト、画像、またはその他のデータを、セマンティックな意味をキャプチャする密な数値ベクトル (埋め込み) に変換します。 これらのベクトルは入力間の関係を表し、類似性の比較とクラスタリングを可能にします。

  • 推論 とは、トレーニング済みのモデルを使用して、新しい入力データに基づいて予測または出力を生成するプロセスを指します。 言語モデルでは、推論には、テキストの入力、質問への回答、概要の生成などのタスクが含まれます。

  • 言語モデル は、人間の言語を理解、生成、操作するためにトレーニングされた AI システムです。 入力に基づいてテキストを予測し、テキスト生成、翻訳、要約、質問の回答などのタスクを有効にします。 たとえば、GPT、Phi、Mistral などがあります。

  • 言語モデルのモデル パラメーターは、テキスト生成中のモデルの動作を定義します。 Top-p、top-N、および temperature は、生成されたテキストのランダム性、多様性、一貫性に影響を与える主要な推論パラメーターです。

    • Top-p: Top-p は、トークンの選択肢の累積確率を考慮して、生成されたテキストの多様性を制御します。 "p" を小さくすると、出力が高確率トークンに制限され、結果の安全性は高くなりますが、結果の多様性が低下します。 top-p 値を大きくすると、創造性とランダム性が向上します。
    • Top-N: Top-N は、Edge RAG のコンテキストで、取得時に使用されます。 ユーザーのクエリを使用してベクター検索を実行する場合は、言語モデルのコンテキストとして提供される "N" ドキュメント チャンクを使用します。
    • 温度: 温度は、トークンの確率をスケーリングすることによって、トークンの選択のランダム性を調整します。 温度が高いほどランダム性が高くなり、出力の多様性は高くなりますが、一貫性が低下する可能性があります。

    含まれる過去のメッセージ、テキストの厳密さ、画像の厳密性など、いくつかの追加のモデル パラメーターについては、「 適切なプロンプトとモデル パラメーターの選択」で説明されています。

  • クエリ は、応答を引き出したり、特定のタスクを実行したりするために言語モデルに提供される入力です。 ユース ケースによっては、質問、プロンプト、または一連の命令を指定できます。

  • 検索拡張生成 (RAG) は、検索システムと生成言語モデルを組み合わせて、外部の知識によって強化された応答を生成します。 データベースまたはドキュメント ストアから関連するコンテキストを取得して、モデルの生成機能を強化し、正確で up-toな日付情報を確保します。

  • 検索モデル:

    • フルテキスト検索 は、キーワード、フレーズ、またはブール型クエリを使用して、指定されたドキュメント内の関連するチャンクを検索することで、ドキュメント内のテキストの本文全体をスキャンして照合する検索方法です。
    • ハイブリッド検索 では、フルテキスト検索 (キーワードベース) とベクター検索 (セマンティック類似性) の両方を組み合わせて、最も関連性の高いドキュメントを取得します。 検索精度を向上させるために、キーワード マッチングの精度とセマンティック理解の深さを使用します。
    • ベクター検索 は、ユーザーのクエリのベクター埋め込みとドキュメントの事前計算済み埋め込みの間のセマンティック類似性を比較することによって、関連するドキュメントを検索する検索方法です。通常は、ベクトル空間内のコサイン類似性またはその他の距離メトリックを使用します。
  • システム プロンプト は、会話またはタスクの開始時に言語モデルに提供される定義済みの指示またはメッセージで、その動作に影響を与えます。 これらのプロンプトは、モデルのロール、トーン、またはタスク固有のコンテキストを定義します。 たとえば、"You're a helpful assistant" や "Provide concise technical explanations" (役に立つアシスタントです)、"簡潔な技術的な説明を提供する" などです。 初期コンテキストを形成することで、システム プロンプトによって、モデルが目的の目標またはペルソナに合わせて応答を生成するようにします。

  • ベクター データベース は、ベクター埋め込みを格納するための特殊なデータベースです。 これは、高次元ベクトルを処理するように設計されており、高速でスケーラブルな類似性検索を可能にします。

  • ベクター化 とは、文トランスフォーマーなどの埋め込みモデルを使用して、テキストを数値表現または埋め込み形式に変換することを意味します。 これらの埋め込みでは、テキストのセマンティックな意味がキャプチャされ、効率的で正確な比較が可能になります。

Azure AI サービスとの比較

Edge RAG はパブリック クラウド外の顧客インフラストラクチャで実行され、お客様は、取得拡張生成 (RAG) を使用してオンプレミスのデータを検索できます。 すべての顧客データと言語モデルを含むデータ プレーンは、ローカルでホストされます。

これに対し、Azure AI Search や Azure AI Foundry などの Azure AI サービスも RAG 機能を提供しますが、ハイパースケールのクラウド リージョンでホストされるため、お客様はデータとアプリケーションを Azure インフラストラクチャに取り込む必要があります。

Edge RAG は、Azure AI Foundry エクスペリエンスに合わせたローカル開発者 UI エクスペリエンスを提供します。

オンプレミスとクラウドのデータ

Edge RAG は、システム メタデータと組織を特定できる情報 (サブスクリプション ID やクラスター名など) のみを Microsoft に送信します。 すべての顧客コンテンツは、常に、顧客によって定義されたネットワーク境界内のオンプレミス インフラストラクチャにとどまります。

ユーザー ロール

Edge RAG ソリューションには、次の 3 つの異なるユーザー ロールがあります。

  • 拡張機能のライフサイクル管理: ユーザーは、Edge RAG Arc 拡張機能のライフサイクルを管理する必要があります。 これには、必要なインフラストラクチャの設定、拡張機能のデプロイ、更新の実行、パフォーマンスの監視、最終的な削除の処理などのタスクが含まれます。 通常、これらの責任は、基になる Azure Local と Azure Kubernetes (AKS) on Azure Local インフラストラクチャにアクセスできる IT 管理者に適用されます。
  • チャット エンドポイントの開発と評価: このワークフローにおけるユーザーの責任には、データ ソースの提供、RAG パイプライン設定のカスタマイズ、カスタム システム プロンプトの提供、チャット ソリューションの評価、監視、更新が含まれます。 この役割は通常、プロンプト エンジニアまたは AI アプリケーション開発者によって実行されます。
  • エンドポイントを使用してオンプレミス データにクエリを実行する: このワークフローのユーザーの責任には、チャット エンドポイントを基幹業務アプリケーションに統合し、チャット インターフェイス (カスタムまたは既定で提供されるインターフェイス) を使用してオンプレミスのデータを照会することが含まれます。