クイックスタート: Azure portal でテキストをベクター化する

2025-06-11

このクイックスタートでは、Azure portal の データのインポートとベクター化 ウィザードを使用して、統合ベクター化の使用を開始します。ウィザードはコンテンツをチャンクし、埋め込みモデルを呼び出して、インデックス作成とクエリ時にチャンクをベクター化します。

このクイックスタートでは、 azure-search-sample-data リポジトリのテキストベースの PDF を使用します。ただし、画像を使用しても、このクイックスタートは完了です。

前提条件

アクティブなサブスクリプションを持つ Azure アカウント。アカウントを無料で作成します。
Azure AI Search サービス。 Basic レベル以上をお勧めします。
サポートされているデータソース。
サポートされている埋め込みモデル。
ウィザードに関する知識。 Azure portal のデータのインポートウィザードを参照してください。

サポートされるデータソース

データのインポートとベクター化ウィザードでは、さまざまな Azure データソースがサポートされています。ただし、このクイックスタートでは、次の表で説明するファイル全体で動作するデータソースについてのみ説明します。

サポートされているデータソース	説明
Azure Blob Storage	このデータソースは、BLOB とテーブルで動作します。標準パフォーマンス (汎用 v2) アカウントを使用する必要があります。アクセス層は、ホット、クール、またはコールドにすることができます。
Azure Data Lake Storage (ADLS) Gen2	これは、階層型名前空間が有効になっている Azure Storage アカウントです。 Data Lake Storage があることを確認するには、[概要] ページの [プロパティ] タブを確認します。
OneLake	このデータソースは現在プレビュー段階です。制限事項とサポートされているショートカットについては、「 OneLake のインデックス作成」を参照してください。

サポートされている埋め込みモデル

統合ベクター化の場合は、Azure AI プラットフォームで次のいずれかの埋め込みモデルを使用する必要があります。デプロイの手順については、後のセクションで説明します。

プロバイダー	サポートされているモデル
Azure AI Foundry モデルの Azure OpenAI^1、2	text-embedding-ada-002 text-embedding-3-small テキスト埋め込み3ラージ
Azure AI サービスのマルチサービスリソース³	テキストと画像の場合: Azure AI Vision マルチモーダル⁴
Azure AI Foundry モデルカタログ	テキストの場合: Cohere-embed-v3-英語 Cohere-embed-v3-多言語画像の場合: Facebook-DinoV2-イメージ-埋め込み-ViT-Base Facebook-DinoV2-イメージ埋め込み-ViT-Giant

¹ Azure OpenAI リソースのエンドポイントには、が必要です。 Azure portal でリソースを作成した場合、このサブドメインはリソースのセットアップ中に自動的に生成されました。

^{Azure AI Foundry ポータル}で作成された 2 つの Azure OpenAI リソース (埋め込みモデルにアクセス可能) はサポートされていません。 Azure Portal で作成された Azure OpenAI リソースのみが、Azure OpenAI Embedding スキルと互換性があります。

³ 課金目的で、 Azure AI マルチサービスリソースを Azure AI Search サービスのスキルセットにアタッチする必要があります。キーレス接続 (プレビュー) を使用してスキルセットを作成しない限り、両方のリソースが同じリージョンに存在する必要があります。

⁴ Azure AI Vision マルチモーダル埋め込みモデルは、一部のリージョンで利用できます。

パブリックエンドポイントの要件

このクイックスタートでは、Azure portal ノードがアクセスできるように、上記のすべてのリソースでパブリックアクセスが有効になっている必要があります。そうでないと、ウィザードは失敗します。ウィザードの実行後、セキュリティのために統合コンポーネントでファイアウォールとプライベートエンドポイントを有効にすることができます。詳細については、インポートウィザードでの接続のセキュリティ保護に関するページを参照してください。

プライベートエンドポイントが既に存在しており、それらを無効にすることができない場合、代替手段は仮想マシン上でスクリプトまたはプログラムからそれぞれのエンドツーエンドフローを実行することです。仮想マシンはプライベートエンドポイントと同じ仮想ネットワーク上にある必要があります。統合ベクター化の Python コードサンプルを次に示します。同じ GitHub リポジトリには、他のプログラミング言語のサンプルがあります。

ロールベースのアクセス

ロールの割り当てと共に Microsoft Entra ID を使用するか、フルアクセス接続文字列でキーベースの認証を使用できます。他のリソースへの Azure AI Search 接続の場合は、ロールの割り当てを推奨します。このクイックスタートでは、ロールを前提としています。

無料の検索サービスでは、Azure AI Search へのロールベースの接続がサポートされます。ただし、Azure Storage または Azure AI Vision への送信接続ではマネージド ID はサポートされていません。このサポート不足には、無料の検索サービスと他の Azure リソース間の接続に対するキーベースの認証が必要です。より安全な接続を実現するには、Basic レベル以上を使用し、ロールを有効にしてマネージド ID を構成します。

推奨されるロールベースのアクセスを構成するには:

検索サービスで、ロールを有効にして、システム割り当てマネージド ID を構成します。
次のロールを自分に割り当てます。
- Search Service サービス貢献者
- 検索インデックスデータ共同作成者
- 検索インデックスデータ閲覧者
データソースプラットフォームと埋め込みモデルプロバイダーで、検索サービスがデータとモデルにアクセスできるようにするロールの割り当てを作成します。サンプルデータの準備と埋め込みモデルの準備を参照してください。

メモ

オプションが利用できないためにウィザードを進めることができない場合は (たとえば、データソースや埋め込みモデルを選択できない場合など)、ロールの割り当てを見直します。エラーメッセージは、モデルまたはデプロイが存在しないことを示します。実際の原因は、検索サービスにアクセスするアクセス許可がないという場合です。

スペースの確認

無料サービスで始める場合は、3 つのインデックス、データソース、スキルセット、インデクサーに制限されます。ベーシックプランでは 15 個に制限されます。このクイックスタートでは、各オブジェクトの 1 つを作成するため、開始する前に追加項目の空きがあることを確認してください。

サンプルデータの準備

このセクションでは、このクイックスタートで使用するコンテンツについて説明します。先に進む前に、ロールベースのアクセスの前提条件を満たしていることを確認してください。

Azure portal にサインインし、Azure Storage アカウントを選択します。
左側のウィンドウで、[ データストレージ>Containers] を選択します。
コンテナーを作成し、このクイックスタートガイドで使用する健康保険 PDF ドキュメントをアップロードします。
ロールを割り当てるには、次の手順を実行します。
1. 左側のウィンドウで、[ アクセス制御 (IAM)] を選択します。
2. [追加>][ロール割り当ての追加] の順に選択します。
3. [ジョブ関数のロール] で、[ストレージ BLOB データ閲覧者] を選択し、[次へ] を選択します。
4. [ メンバー] で [ マネージド ID] を選択し、[ メンバーの選択] を選択します。
5. サブスクリプションと検索サービスのマネージド ID を選択します。
(省略可能)コンテナー内の削除を検索インデックスの削除と同期します。削除検出用にインデクサーを構成するには:
1. ストレージアカウントで論理的な削除を有効にします。ネイティブの論理的な削除を使用している場合、次の手順は必要ありません。
2. インデクサーがスキャンできるカスタムメタデータを追加して、削除対象としてマークされている BLOB を決定します。カスタムプロパティにわかりやすい名前を付けます。たとえば、プロパティに "IsDeleted" という名前を付け、false に設定できます。コンテナー内のすべての BLOB に対してこの手順を繰り返します。 BLOB を削除する場合は、プロパティを true に変更します。詳細については、「 Azure Storage からインデックスを作成するときの変更と削除の検出」を参照してください。

Power BI にサインインし、ワークスペースを作成します。
左側のウィンドウで、新しいワークスペースを選択します。
ワークスペースにロールを割り当てるには:
1. 右上隅にある [ アクセスの管理] を選択します。
2. [ ユーザーまたはグループの追加] を選択します。
3. 検索サービスの名前を入力してください。たとえば、URL が https://my-demo-service.search.windows.netされている場合、サービス名は my-demo-service。
4. ロールを選択します。既定値は Viewer ですが、データを検索インデックスにプルするには 共同作成者 が必要です。
Lakehouse を作成し、サンプルデータをアップロードするには:
1. 左上隅の [ 新しい項目] を選択します。
2. [Lakehouse] タイルを選択します。
3. レイクハウスの名前を入力し、[ 作成] を選択します。
4. Lakehouse の [ ホーム ] タブで、[ ファイルのアップロード] を選択し、このクイックスタートで使用する健康プランのPDFドキュメントをアップロードします。
ブラウザーの上部で、次の形式の lakehouse URL をコピーします: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=power-bi。この URL は、後でデータへの接続で指定します。

埋め込みモデルを準備する

ウィザードでは、Azure OpenAI、Azure AI Vision、または Azure AI Foundry ポータルのモデルカタログからデプロイされた埋め込みモデルを使用できます。先に進む前に、ロールベースのアクセスの前提条件を満たしていることを確認してください。

ウィザードは、text-embedding-ada-002、text-embedding-3-large、text-embedding-3-small をサポートします。内部的には、ウィザードは AzureOpenAIEmbedding スキルを呼び出して Azure OpenAI に接続します。

Azure portal にサインインし、Azure OpenAI リソースを選択します。
ロールを割り当てるには、次の手順を実行します。
1. 左側のウィンドウで、[ アクセス制御 (IAM)] を選択します。
2. [追加>][ロール割り当ての追加] の順に選択します。
3. [職務権限ロール] で、[Cognitive Services OpenAI ユーザー] を選択した後、[次へ] を選択します。
4. [ メンバー] で [ マネージド ID] を選択し、[ メンバーの選択] を選択します。
5. サブスクリプションと検索サービスのマネージド ID を選択します。
埋め込みモデルをデプロイするには:
1. Azure AI Foundry ポータルにサインインし、Azure OpenAI リソースを選択します。
2. 左側のウィンドウで、[ モデルカタログ] を選択します。
3. サポートされている埋め込みモデルをデプロイします。

ウィザードを起動する

ベクトル検索のウィザードを開始するには:

Azure portal にサインインし、Azure AI Search サービスを選択します。
[ 概要 ] ページで、[ データのインポートとベクター化] を選択します。
データソース ( Azure Blob Storage、 ADLS Gen2、または OneLake) を選択します。
RAG を選択します。

データへの接続

次の手順では、検索インデックスに使用するデータソースに接続します。

[ データへの接続 ] ページで、Azure サブスクリプションを指定します。
サンプルデータを提供するストレージアカウントとコンテナーを選択します。
[ サンプルデータの準備] で論理的な削除を有効にし、必要に応じてカスタムメタデータを追加した場合は、[ 削除の追跡を有効にする ] チェックボックスをオンにします。
- その後のインデックス作成の実行では、検索インデックスが更新され、Azure Storage で論理的に削除された BLOB に基づく検索ドキュメントが削除されます。
- BLOB では、ネイティブ BLOB の論理的な削除またはカスタムメタデータを使用した論理的な削除がサポートされています。
- 論理的な削除用に BLOB を構成した場合は、メタデータプロパティの名前と値のペアを指定します。 IsDeleted をお勧めします。 BLOB で IsDeleted が true に設定されている場合、インデクサーは次のインデクサーの実行時に対応する検索ドキュメントを削除します。
ウィザードでは、Azure Storage での設定が有効かどうかはチェックされず、要件が満たされていない場合でもエラーはスローされません。代わりに、削除の検出は機能せず、時間と共に孤立したドキュメントが検索インデックスによって収集される可能性があります。
[ マネージド ID を使用して認証 する] チェックボックスをオンにします。
- マネージド ID の種類として、[ システム割り当て] を選択します。
- この ID には、Azure Storage のストレージ BLOB データ閲覧者ロールが必要です。
- この手順は省略しないでください。ウィザードを Azure Storage に接続できない場合、インデックス作成中に接続エラーが発生します。
[ 次へ] を選択します。

テキストをベクター化する

この手順では、チャンクされたデータをベクター化する埋め込みモデルを指定します。チャンクは組み込まれており、設定を変更できません。有効な設定は次のとおりです。

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"

[テキストのベクター化] ページで、埋め込みモデルのソースを選択します。
- Azure OpenAI
- Azure AI Foundry のモデルカタログ
- Azure AI Vision (Azure AI Search と同じリージョンの Azure AI サービスマルチサービスリソース経由)
Azure サブスクリプションを指定します。
リソースに応じて、次の選択を行います。
- Azure OpenAI の場合は、「埋め込みモデルの準備」でデプロイしたモデルを選択します。
- AI Foundry モデルカタログの場合は、「埋め込みモデルの準備」でデプロイしたモデルを選択します。
- AI Vision マルチモーダル埋め込みの場合は、マルチサービスリソースを選択します。
認証の種類として、[ システム割り当て ID] を選択します。
- ID には、Azure AI サービスのマルチサービスリソースに対する Cognitive Services ユーザー ロールが必要です。
これらのリソースの使用による課金への影響を認めるチェックボックスを選択します。
[ 次へ] を選択します。

画像をベクトル化し、強化する

健康計画のPDFには企業のロゴが含まれていますが、それ以外には画像はありません。サンプルドキュメントを使用している場合は、このステップをスキップできます。

ただし、有用な画像を含むコンテンツを扱う場合は、次の 2 つの方法で AI を適用できます。

カタログまたは Azure AI Vision マルチモーダル埋め込み API でサポートされている画像埋め込みモデルを使用して、画像をベクター化します。
光学式文字認識 (OCR) を使用して、画像内のテキストを認識する。このオプションは、 OCR スキルを呼び出して画像からテキストを読み取ります。

Azure AI Search と Azure AI リソースは、同じリージョンにあるか、キーレス課金接続用に構成されている必要があります。

[ イメージのベクター化 ] ページで、ウィザードで行う接続の種類を指定します。画像のベクター化の場合、ウィザードは Azure AI Foundry ポータルまたは Azure AI Vision で埋め込みモデルに接続できます。
サブスクリプションを指定します。
Azure AI Foundry モデルカタログの場合は、プロジェクトとデプロイを指定します。詳細については、「埋め込みモデルの準備」を参照してください。
(省略可能)スキャンされたドキュメントファイルなどのバイナリ画像を解読し、 OCR を使用してテキストを認識します。
これらのリソースの使用による課金への影響を認めるチェックボックスを選択します。
[ 次へ] を選択します。

セマンティック優先度付けを追加する

[ 詳細設定] ページでは、必要に応じてセマンティックランク付けを追加して、クエリの実行終了時に結果を再ランク付けできます。再ランク付けによって、最も意味的な関連性が高いマッチが上位にきます。

新しいフィールドをマップする

この手順の重要なポイントは次のとおりです。

インデックススキーマは、チャンクされたデータのベクターフィールドと非ベクトルフィールドを提供します。
フィールドを追加することはできますが、生成されたフィールドを削除または変更することはできません。
ドキュメント解析モードでは、チャンク (チャンクごとに 1 つの検索ドキュメント) が作成されます。

[ 詳細設定] ページでは、データソースが最初のパスで取得されないメタデータまたはフィールドを提供すると仮定して、必要に応じて新しいフィールドを追加できます。既定では、ウィザードは次の表で説明するフィールドを生成します。

フィールド	適用対象	説明
chunk_id	テキストと画像ベクトル	生成された文字列フィールド。検索可能、取得可能、並べ替え可能。これはインデックスのドキュメントキーです。
parent_id	テキストベクトル	生成された文字列フィールド。取得可能でフィルター可能。チャンクの作成元である親ドキュメントを識別します。
チャンク	テキストと画像ベクトル	文字列フィールド。データチャンクの人間が判読可能なバージョン。検索可能で取得可能ですが、フィルター可能、ファセット可能、または並べ替え可能ではありません。
タイトル	テキストと画像ベクトル	文字列フィールド。人間が読みやすいドキュメントのタイトル、ページタイトル、またはページ番号。検索可能で取得可能ですが、フィルター可能、ファセット可能、または並べ替え可能ではありません。
テキストベクトル	テキストベクトル	Collection(Edm.single)。チャンクのベクトル表現。検索可能で取得可能ですが、フィルター可能、ファセット可能、または並べ替え可能ではありません。

生成されたフィールドやその属性は変更できませんが、データソースにある場合は、新しいフィールドを追加できます。たとえば、Azure Blob Storage にはメタデータフィールドのコレクションが用意されています。

フィールドの追加を選択します。
使用可能なフィールドからソースフィールドを選択し、インデックスのフィールド名を入力して、既定のデータ型をそのまま使用 (またはオーバーライド) します。

メモ

メタデータフィールドは検索可能ですが、取得可能、フィルター可能、ファセット可能、または並べ替え可能ではありません。
スキーマを元のバージョンに復元する場合は、[リセット] を選択 します。

インデックス作成をスケジュールする

[ 詳細設定] ページでは、インデクサーのオプションの実行スケジュールを指定することもできます。ドロップダウンリストから間隔を選択したら、[ 次へ] を選択します。

ウィザードを終了する

[ 構成の確認 ] ページで、ウィザードで作成するオブジェクトのプレフィックスを指定します。共通のプレフィックスは、整理された状態を保つのに役立ちます。
作成を選択します。

ウィザードによる構成が完了すると、以下のオブジェクトが作成されます。

データソースへの接続。
ベクトルフィールド、ベクターライザー、ベクタープロファイル、およびベクターアルゴリズムを含むインデックス。ウィザードのワークフロー中に既定のインデックスを設計したり、変更したりすることはできません。インデックスは、2024-05-01-preview REST API に準拠しています。
テキスト分割スキルを使ってチャンクするスキルと、ベクター化のための埋め込みスキルを持つ。埋め込みスキルは、 Azure OpenAI 用の AzureOpenAIEmbeddingModel スキルか、Azure AI Foundry モデルカタログの AML スキルのいずれかです。スキルセットには、インデックスプロジェクション構成もあり、データソース内の 1 つのドキュメントのデータを"子"インデックス内の対応するチャンクにマップします。
フィールドマッピングと出力フィールドマッピングを持つインデクサー (該当する場合)。

ヒント

ウィザードで作成されたオブジェクトには、構成可能な JSON 定義があります。これらの定義を表示または変更するには、左側のウィンドウから [検索管理 ] を選択します。ここでは、インデックス、インデクサー、データソース、スキルセットを表示できます。

結果をチェックする

検索エクスプローラーは、テキスト文字列を入力として受け取った後、ベクトルクエリの実行のためにテキストをベクトル化します。

Azure portal で、 Search Management>Indexes に移動し、インデックスを選択します。
[ クエリオプション] を選択し、[ 検索結果のベクター値を非表示にする] を選択します。この手順により、結果が読みやすくなります。
[表示] メニューから JSON ビューを選択し、ベクタークエリのテキストを text ベクタークエリパラメーターに入力できるようにします。

既定のクエリは空の検索 ("*") ですが、一致する数を返すパラメーターが含まれています。これは、テキストクエリとベクトルクエリを並列で実行するハイブリッドクエリです。また、セマンティックランク付けも含まれ、 select ステートメントを使用して結果に返すフィールドを指定します。
```
 {
   "search": "*",
   "count": true,
   "vectorQueries": [
     {
       "kind": "text",
       "text": "*",
       "fields": "text_vector,image_vector"
     }
   ],
   "queryType": "semantic",
   "semanticConfiguration": "my-demo-semantic-configuration",
   "captions": "extractive",
   "answers": "extractive|count-3",
   "queryLanguage": "en-us",
   "select": "chunk_id,text_parent_id,chunk,title,image_parent_id"
 }
```

両方のアスタリスク (*) プレースホルダーを、Which plan has the lowest deductible? などの健康保険プランに関連する質問に置き換えます。

 {
   "search": "Which plan has the lowest deductible?",
   "count": true,
   "vectorQueries": [
     {
       "kind": "text",
       "text": "Which plan has the lowest deductible?",
       "fields": "text_vector,image_vector"
     }
   ],
   "queryType": "semantic",
   "semanticConfiguration": "my-demo-semantic-configuration",
   "captions": "extractive",
   "answers": "extractive|count-3",
   "queryLanguage": "en-us",
   "select": "chunk_id,text_parent_id,chunk,title"
 }

クエリを実行するには、[検索] を選択 します。

各ドキュメントは、元の PDF のチャンクです。 title フィールドは、チャンクがどの PDF からのものであるかを示します。各 chunk は長いです。 1 つをコピーしてテキストエディターに貼り付けると、値全体を読み取ることができます。

特定のドキュメントからのチャンクをすべて表示するには、以下のように特定の PDF 用の title_parent_id フィールドのフィルターを追加します。インデックスの [ フィールド] タブをチェックして、フィールドがフィルター可能であることを確認できます。

{
   "select": "chunk_id,text_parent_id,chunk,title",
   "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "text_vector"
       }
    ]
}

クリーンアップ

Azure AI Search は課金対象のリソースです。今後これが必要ない場合は、課金を防ぐためにサブスクリプションからこれを削除してください。

次のステップ

このクイックスタートでは、統合ベクター化に必要なすべてのオブジェクトを作成する データのインポートとベクター化ウィザードについて説明しました。各手順の詳細については、「 Azure AI Search で統合ベクター化を設定する」を参照してください。