キー フレーズ抽出コグニティブ スキル

キー フレーズ抽出スキルは、非構造化テキストを評価し、各レコードに対してキー フレーズのリストを返します。 このスキルでは、Azure Cognitive Services for Language で提供されるキー フレーズ機械学習モデルが使用されます。

この機能は、レコード内の要点をすばやく特定する必要がある場合に便利です。 たとえば、「食べ物はおいしくて、すばらしいスタッフがいた」というテキストを入力すると、 "食べ物" と "すばらしいスタッフ" がサービスによって返されます。

Note

このスキルは Cognitive Services にバインドされており、1 日にインデクサーあたり 20 ドキュメントを超えるトランザクションには課金対象リソースが必要です。 組み込みスキルの実行は、既存の Cognitive Services の従量課金制の価格で課金されます。

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

データ制限

レコードの最大サイズは、String.Length によって測定されるため、50,000 文字にする必要があります。 データをキー フレーズ エクストラクターに送信する前に分割する必要がある場合は、テキスト分割スキルの使用を検討してください。 テキスト分割スキルを使用する場合は、最適なパフォーマンスを得るためにページ長を 5000 に設定します。

スキルのパラメーター

パラメーターの大文字と小文字は区別されます。

入力 説明
defaultLanguageCode (省略可能) 言語を明示的に指定しないドキュメントに適用する言語コード。 既定の言語コードが指定されていない場合、既定の言語コードとして英語 (en) が使用されます。
サポートされる言語の完全な一覧を参照してください。
maxKeyPhraseCount (省略可能) 生成するキー フレーズの最大数。
modelVersion (省略可能) キー フレーズ API を呼び出すときに使用するモデルのバージョンを指定します。 指定しない場合、既定では利用可能な最新のものになります。 必要な場合以外は、この値を指定しないことをお勧めします。

スキルの入力

入力 説明
text 分析されるテキスト。
languageCode レコードの言語を示す文字列。 このパラメーターが指定されていない場合、既定の言語コードがレコードを分析するために使用されます。
サポートされる言語の完全な一覧を参照してください。

スキルの出力

出力 説明
keyPhrases 入力テキストから抽出されたキー フレーズの一覧。 キー フレーズは、重要度順に返されます。

定義例

次のフィールドを持つ SQL レコードを検討してみます。

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

スキル定義は次のようになります。

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

サンプル出力

上記の例では、スキルの出力は "document/myKeyPhrases" と呼ばれる強化されたツリーの新しいノードに書き込まれます。これは、指定した targetName が "document/myKeyPhrases" であるためです。 targetName が指定されていない場合は、"document/keyPhrases" になります。

document/myKeyPhrases

            [
              "world’s glaciers", 
              "huge rivers of ice", 
              "Canadian Rockies", 
              "iconic landscapes",
              "Mount Everest region",
              "Continued warming"
            ]

他のスキルへの入力として、または出力フィールドのマッピングのソースとして、"document/myKeyPhrases" を使用できます。

警告

サポートされていない言語コードを指定すると、警告が生成され、キー フレーズは抽出されません。 テキストが空の場合、警告が生成されます。 テキストが 50,000 文字を超えると、最初の 50,000 文字のみが分析され、警告が発行されます。

関連項目