Когнитивный навык извлечения ключевой фразы

Мақала
09/01/2024

Навык Извлечение ключевой фразы оценивает неструктурированный текст и для каждой записи возвращает список ключевых фраз. Этот навык использует модели машинного обучения ключевых фраз, предоставляемые языком ИИ Azure.

Эта возможность полезна, если необходимо быстро определить основные тезисы в записи. Например, для данного входного текста "Еда была вкусной и были замечательные сотрудники", служба вернет "еда" и "замечательные сотрудники".

Примечание.

Этот навык привязан к службам ИИ Azure и требует оплачиваемого ресурса для транзакций, превышающих 20 документов на индексатор в день. За выполнение встроенных навыков взимается плата за существующие службы ИИ Azure по мере использования.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Ограничения данных

Максимальный размер записи — 50 000 знаков по оценке String.Length. Если вам нужно разбить данные перед отправкой для извлечения ключевой фразы, можно воспользоваться навыком разделения текста. Если вы используете навык разделения текста, задайте длину страницы равным 5000 для оптимальной производительности.

Параметры навыков

Параметры зависят от регистра.

Входные данные	Description
`defaultLanguageCode`	(Необязательно.) Код языка применяется к документам, в которых не указан язык явным образом. Если языковой код по умолчанию не указан, английский (en) используется в качестве языкового кода по умолчанию. Полный список поддерживаемых языков.
`maxKeyPhraseCount`	(Необязательно.) Максимальное количество ключевых фраз для создания.
`modelVersion`	(Необязательно) Указывает версию модели , используемую при вызове API ключевых фраз. По умолчанию используется последняя доступная, если она не указана. Мы рекомендуем не указывать это значение, если это не необходимо.

Входные данные навыков

Входные данные	Description
`text`	Анализируемый текст.
`languageCode`	Строка, указывающая язык записей. Если этот параметр не указан, код языка по умолчанию используется для анализа записей. Полный список поддерживаемых языков.

Выходные данные навыка

Выходные данные	Description
`keyPhrases`	Список ключевых фраз, извлеченных из вводимого текста. Ключевые фразы возвращаются в порядке важности.

Пример определения

Рассмотрим запись SQL, которая содержит следующие поля:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Затем определение навыка может выглядеть следующим образом:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Пример полученных результатов

В предыдущем примере выходные данные навыка записываются на новый узел в обогащенном дереве с именем document/myKeyPhrases, так как это указано targetName . Если не указать targetName, будет использоваться значение document/keyPhrases.

document/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

Вы можете использовать document/myKeyPhrases в качестве входных данных в другие навыки или в качестве источника сопоставления выходных полей.

Предупреждения

Если вы предоставляете неподдерживаемый языковой код, создается предупреждение, и ключевые фразы не извлекаются. Если текст пуст, создается предупреждение. Если размер текста превышает 50 000 символов, будут проанализированы только первые 50 000 символов, и выводится предупреждение.

Бөлісу құралы: