Habilidade cognitiva de Extração de Frases-Chave

A habilidade de Extração de Frases-Chave avalia o texto não estruturado e para cada registro, retorna uma lista de frases-chave. Essa habilidade usa os modelos de machine learning de Frase-chave fornecidos pela Linguagem da IA do Azure Search.

Esse recurso é útil se você precisar identificar rapidamente os principais pontos de estratégias no registro. Por exemplo, texto de entrada especificado “A comida estava deliciosa e a equipe foi maravilhosa”, o serviço retorna “comida” e “equipe maravilhosa”.

Observação

Essa habilidade está associada aos serviços de IA do Azure e requer um recurso faturável para transações que excedem 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço pago conforme o uso dos serviços de IA do Azure existentes.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Limites de dados

O tamanho máximo de um registro deve ser de 50.000 caracteres conforme medido por String.Length. Se você precisar interromper o backup de seus dados antes de enviá-la para o extrator de frases-chave, considere o uso de habilidade de Texto Dividido. Se você usar uma habilidade de divisão de texto, defina o comprimento da página como 5000 para obter o melhor desempenho.

Parâmetros de habilidades

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas Descrição
defaultLanguageCode (opcional) O código de idioma a ser aplicado a documentos que não especifica explicitamente o idioma. Se o código de idioma padrão não for especificado, o inglês (in) será usado como o código de idioma padrão.
Consulte a Lista completa dos idiomas com suporte.
maxKeyPhraseCount (opcional) O número máximo de frases-chave para produzir.
modelVersion (opcional) Especifica a versão do modelo a ser usada ao chamar a API de frase-chave. Ele usa como padrão o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário.

Entradas de habilidades

Entrada Descrição
text O texto a ser analisado.
languageCode Uma cadeia de caracteres que indica o idioma dos registros. Se esse parâmetro não for especificado, o código de idioma padrão será usado para analisar os registros.
Consulte a Lista completa dos idiomas com suporte.

Saídas de habilidades

Saída Descrição
keyPhrases Uma lista de frases-chave extraídas do texto de entrada. As frases-chave são retornadas em ordem de importância.

Definição de exemplo

Considere um registro SQL que tenha os seguintes campos:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Assim, sua definição de habilidade pode ser:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Saída de exemplo

Para o exemplo anterior, a saída da sua habilidade é gravada em um novo nó na árvore enriquecida chamada "document/myKeyPhrases", pois esse é o targetName que especificamos. Se você não especificou um targetName, então ele será "document/keyPhrases".

document/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

Você pode usar "document/myKeyPhrases" como entrada em outras habilidades ou como uma fonte de um mapeamento de campo de saída.

Warnings

Se você fornecer um código de idioma sem suporte, será gerado um erro e as frases-chave não serão extraídas. Se o texto estiver vazio, um aviso será retornado. Se o texto for maior que 50.000 caracteres, somente os primeiros 50.000 caracteres serão analisados e um aviso será emitido.

Confira também