次の方法で共有


Azure Logic Apps の Standard ワークフローのコンテンツを解析またはチャンク化する (プレビュー)

適用対象: Azure Logic Apps (Standard)

重要

この機能はプレビュー段階にあり、「Microsoft Azure プレビューの追加使用条件」が適用されます。

コンテンツをアクションで使用できるようにするために、そのコンテンツをトークン (単語、または文字のチャンク) に変換する、または大きなドキュメントを小さく分割することが必要になることがあります。 たとえば、Azure AI 検索または Azure OpenAI のアクションでは、トークン化された入力が必要であり、処理できるトークンの数が限られています。

このようなシナリオでは、データ操作のアクションであるドキュメントの解析テキストのチャンク化を Standard ロジック アプリ ワークフローで使用します。 これらのアクションはそれぞれ PDF ドキュメント、CSV ファイル、Excel ファイルなどのコンテンツをトークン化された文字列出力に変換した後、その文字列をトークン数に基づいて分割します。 これらの出力を、ワークフロー内の後続のアクションで参照して使用できます。

ヒント

詳細について、Azure Copilot に次のように質問することができます。

  • "AI でのトークンとは何ですか?"
  • "トークン化された入力とは何ですか?"
  • "トークン化された文字列出力とは何ですか?"
  • "AI における構文解析とは何ですか?"
  • "AI におけるチャンキングとは何ですか?"

Azure Copilot を見つけるには、Azure portal のツール バーで、[Copilot] を選択します。

この攻略ガイドでは、ワークフローの中でこれらの操作を追加および設定する方法を示します。

前提条件

  • Azure アカウントとサブスクリプション。 Azure サブスクリプションがない場合は、無料の Azure アカウントにサインアップしてください。

  • 既存のトリガーを持つ Standard ロジック アプリ ワークフロー。ドキュメントの解析テキストのチャンク化の操作は、アクションとしてのみ実行できるからです。 解析またはチャンク化するコンテンツを取得するアクションが、これらのデータ操作の前にあることを確認してください。

ドキュメントの解析

ドキュメントの解析アクションは、コンテンツ (PDF ドキュメント、CSV ファイル、Excel ファイルなど) をトークン化された文字列に変換します。 この例として、HTTP 要求の受信時という名前の要求トリガーで開始するワークフローがあるとします。 このトリガーは、HTTP 要求が別のコンポーネントから、たとえば Azure 関数や別のロジック アプリ ワークフローなどから送られてくるのを待ちます。 この HTTP 要求には、新たにアップロードされたドキュメントの URL が含まれており、このワークフローではこのドキュメントを取得して解析します。 このトリガーの直後にある HTTP アクションによって、HTTP 要求がドキュメントの URL に送信され、ドキュメントの内容がその保存場所から返されます。

他のコンテンツ ソース、たとえば Azure Blob Storage、SharePoint、OneDrive、ファイル システム、FTP などを使用する場合は、これらのソースに対してトリガーを使用できるかどうかを確認できます。 また、これらのソースのコンテンツを取得するためのアクションを使用できるかどうかを確認することもできます。 詳細については、組み込み操作マネージド コネクタに関するページを参照してください。

  1. Azure portal で、Standard ロジック アプリ リソースとワークフローをデザイナーで開きます。

  2. 既存のトリガーとアクションの下で、こちらの一般的な手順に従ってドキュメントの解析という名前のデータ操作アクションをワークフローに追加します

  3. デザイナーで、このドキュメントの解析アクションを選択します。

  4. アクション情報ペインが開いたら、[パラメーター] タブの [ドキュメント コンテンツ] プロパティで、解析するコンテンツを次の手順に従って指定します。

    1. [ドキュメント コンテンツ] ボックスの内側を選択します。

      動的コンテンツ リスト (稲妻のアイコン) と式エディター (関数アイコン) のオプションが表示されます。

      • 先行するアクションからの出力を選択するには、動的コンテンツ リストを選択します。

      • 先行するアクションからの出力を操作する式を作成するには、式エディターを選択します。

      この例では、動的コンテンツ リストを表す稲妻アイコンを選択して次に進みます。

    2. 動的コンテンツ リストが開いたら、先行する操作からのどの出力を使用するかを選択します。

      この例では、ドキュメントの解析アクションで HTTP アクションからの本文出力を参照します。

      Standard ワークフローのデザイナーを示すスクリーンショット。ドキュメントの解析という名前のアクションがあり、動的コンテンツ リストが開いていて、HTTP アクションからの本文という出力が選択されています。

      本文という出力が [ドキュメント コンテンツ] ボックスに表示されるようになりました。

      サンプル ワークフローを示すスクリーンショット。ドキュメントの解析という名前のアクションの中に本文という出力があります。

  5. ドキュメントの解析アクションの下に、トークン化された文字列出力を扱うアクションを追加します。たとえばテキストのチャンク化ですが、これについてはこのガイドで後述します。

ドキュメントの解析 - リファレンス

パラメーター

名前 データ型 説明 なし
ドキュメント コンテンツ <解析するコンテンツ> [任意] 解析するコンテンツ。 なし

出力

Name データの種類 説明
解析結果テキスト 文字列配列 文字列の配列。
解析結果 Object 解析されたテキスト全体が含まれているオブジェクト。

テキストのチャンク化

テキストのチャンク化アクションによって、コンテンツが小さく分割されるので、現在のワークフロー内の後続のアクションで使いやすくなります。 次に示す手順は、ドキュメントの解析セクションの例に基づくものであり、トークン文字列出力を分割します。これは、トークン化された小さなコンテンツ チャンクを必要とする Azure AI 操作で使用するためです。

Note

先行するアクションでチャンキングが使用されていてもテキストのチャンク化アクションに影響することはなく、テキストのチャンク化アクションが、チャンキングを使用する後続のアクションに影響することもありません。

  1. Azure portal で、Standard ロジック アプリ リソースとワークフローをデザイナーで開きます。

  2. ドキュメントの解析アクションの下に、こちらの一般的な手順に従ってテキストのチャンク化という名前のデータ操作アクションを追加します

  3. デザイナーで、テキストのチャンク化アクションを選択します。

  4. [アクション情報] ペインが開いたら、[パラメーター] タブの [チャンキング戦略] プロパティで、チャンキング方法として [TokenSize] を選択します (未選択の場合)。

    戦略 説明
    TokenSize 指定されたコンテンツを、トークン数に基づいて分割します。
  5. 戦略を選択した後に、[テキスト] ボックスの内側を選択して、チャンキング対象のコンテンツを指定します。

    動的コンテンツ リスト (稲妻のアイコン) と式エディター (関数アイコン) のオプションが表示されます。

    • 先行するアクションからの出力を選択するには、動的コンテンツ リストを選択します。

    • 先行するアクションからの出力を操作する式を作成するには、式エディターを選択します。

    この例では、動的コンテンツ リストを表す稲妻アイコンを選択して次に進みます。

    1. 動的コンテンツ リストが開いたら、先行する操作からのどの出力を使用するかを選択します。

      この例では、テキストのチャンク化アクションでドキュメントの解析アクションからの解析結果テキスト出力を参照します。

      Standard ワークフローのデザイナーを示すスクリーンショット。テキストのチャンク化という名前のアクションがあり、動的コンテンツ リストが開いていて、ドキュメントの解析アクションからの出力が選択されています。

      解析結果アクション出力が [テキスト] ボックスに表示されるようになりました。

      サンプル ワークフローを示すスクリーンショット。テキストのチャンク化という名前のアクションの中で、解析結果テキストという出力が選択されています。

  6. テキストのチャンク化アクションの設定を、選択した戦略とシナリオに基づいて完了します。 詳細については、「テキストのチャンク化 - リファレンス」を参照してください。

これで、トークン化された入力を要求して使用する他のアクション (たとえば Azure AI のアクション) を追加するときに、入力のコンテンツが利用しやすい形式に設定されるようになりました。

テキストのチャンク化 - リファレンス

パラメーター

名前 データ型 説明 制限
チャンキング戦略 TokenSize String enum トークン数に基づいてコンテンツを分割します。

既定値: TokenSize
適用なし
テキスト <チャンク化するコンテンツ> [任意] チャンク化するコンテンツ。 制約と構成のリファレンス ガイドを参照
EncodingModel <エンコード方法> String enum 使用するエンコード モデル:

- 既定値: cl100k_base (gpt4、gpt-3.5-turbo、gpt-35-turbo)

- r50k_base (gpt-3)

- p50k_base (gpt-3)

- p50k_edit (gpt-3)

- cl200k_base (gpt-4o)

詳細については、OpenAI のモデルの概要を参照してください。
適用なし
TokenSize <1 チャンクあたりの最大トークン数> Integer コンテンツ チャンク 1 つあたりの最大トークン数。

既定値: なし
最小値: 1
最大値: 8000
PageOverlapLength <重複する文字の数> Integer 前のチャンクの末尾部分の文字のうち、次のチャンクに含まれるものの数。 この設定は、コンテンツをチャンクに分割するときに重要な情報が失われるのを防ぐのに役立ち、チャンク間の連続性とコンテキストが維持されます。

既定値: 0 - 重複する文字は存在しません。
最小値: 0

ヒント

詳細について、Azure Copilot に次のように質問することができます。

  • "チャンキングでの PageOverlapLength とは何ですか?"
  • "Azure AI でのエンコードとは何ですか?"

Azure Copilot を見つけるには、Azure portal のツール バーで、[Copilot] を選択します。

出力

Name データの種類 説明
チャンク化の結果のテキスト アイテム 文字列配列 文字列の配列。
チャンク化の結果のテキスト アイテム Item String 配列内の単一の文字列。
チャンク化の結果 Object チャンク化されたテキスト全体が含まれているオブジェクト。

ワークフローの例

次に示す例には他のアクションも含まれており、任意のソースからデータを取り込む完全なワークフロー パターンがこれらによって作成されます。

完全なサンプル ワークフローを示すスクリーンショット。

Step タスク 基になる操作 説明
1 新しいコンテンツを待つ、または有無を調べます。 HTTP 要求の受信時 スケジュールされた繰り返しに基づいて、または特定のイベントにそれぞれ応答して、新しいデータが到着するまでポーリングまたは待機のいずれかを行うトリガー。 このようなイベントの例としては、特定のストレージ システム (たとえば Azure Blob Storage、SharePoint、OneDrive、ファイル システム、FTP など) への新しいファイルのアップロードがあります。

この例では、要求のトリガー操作は、別のエンドポイントから送信された HTTP または HTTPS 要求を待機します。 要求には、新しくアップロードされたドキュメントの URL が含まれます。
2 コンテンツを取得します。 HTTP トリガー出力からファイル URL を使用してアップロードされたドキュメントを取得する HTTP アクション。
3 ドキュメントの詳細を作成する。 Compose さまざまな項目を連結するデータ操作アクション。

この例では、ドキュメントに関するキーと値の情報を連結します。
4 トークン文字列を作成します。 ドキュメントの解析 このデータ操作アクションは、作成アクションからの出力を使用してトークン化された文字列を生成します。
5 コンテンツ チャンクを作成します。 テキストのチャンク化 コンテンツ チャンクあたりのトークン数に基づいてトークン文字列を分割するデータ操作アクション。
6 トークン化およびチャンク化済みのテキストを JSON に変換します。 Parse JSON このデータ操作アクションは、チャンク化された出力を JSON 配列に変換します。
7 JSON 配列項目を選択する。 Select JSON 配列から複数の項目を選択するデータ操作アクション。
8 埋め込みを生成する。 複数の埋め込みの取得 各 JSON 配列項目の埋め込みを作成する Azure OpenAI アクション。
9 埋め込みとその他の情報を選択する。 Select 埋め込みやその他のドキュメント情報を選択するデータ操作アクション。
10 データのインデックスを作成する。 ドキュメントのインデックスの作成 選択した各埋め込みに基づいてデータのインデックスを作成する Azure AI Search アクション。