Frase-chave: Extração, habilidade cognitiva

2024-09-01

A habilidade Key Phrase Extraction avalia texto não estruturado e, para cada registro, retorna uma lista de frases-chave. Essa habilidade usa os modelos de aprendizado de máquina de frase-chave fornecidos pela Linguagem de IA do Azure.

Esse recurso é útil se você precisar identificar rapidamente os principais pontos de discussão no registro. Por exemplo, dado o texto de entrada "A comida era deliciosa e havia uma equipe maravilhosa", o serviço retorna "comida" e "equipe maravilhosa".

Nota

Essa habilidade está vinculada aos serviços de IA do Azure e requer um recurso faturável para transações que excedam 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço padrão dos serviços de IA do Azure existentes.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Limites de dados

O tamanho máximo de um registo deve ser de 50 000 carateres, medido por String.Length. Se você precisar dividir seus dados antes de enviá-los para o extrator de frase-chave, considere usar a habilidade Divisão de texto. Se você usar uma habilidade de divisão de texto, defina o comprimento da página como 5000 para obter o melhor desempenho.

Parâmetros de habilidade

Os parâmetros diferenciam maiúsculas de minúsculas.

Entradas	Descrição
`defaultLanguageCode`	(Opcional) O código de idioma a ser aplicado a documentos que não especificam o idioma explicitamente. Se o código de idioma padrão não for especificado, o inglês (en) será usado como o código de idioma padrão. Veja a lista completa de linguagens suportadas.
`maxKeyPhraseCount`	(Opcional) O número máximo de frases-chave a produzir.
`modelVersion`	(Opcional) Especifica a versão do modelo a ser usada ao chamar a API de frase-chave. O padrão é o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário.

Contributos para as competências

Entrada	Descrição
`text`	O texto a ser analisado.
`languageCode`	Uma cadeia de caracteres que indica o idioma dos registros. Se esse parâmetro não for especificado, o código de idioma padrão será usado para analisar os registros. Veja a lista completa de linguagens suportadas.

Resultados em termos de competências

Saída	Descrição
`keyPhrases`	Uma lista de frases-chave extraídas do texto de entrada. As frases-chave são retornadas por ordem de importância.

Definição da amostra

Considere um registro SQL que tenha os seguintes campos:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Então sua definição de habilidade pode ficar assim:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Saída de exemplo

Para o exemplo anterior, a saída de sua habilidade é gravada em um novo nó na árvore enriquecida chamado "document/myKeyPhrases", já que é o targetName que especificamos. Se você não especificar um targetName, então seria "documento/frases-chave".

documento/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

Você pode usar "document/myKeyPhrases" como entrada para outras habilidades ou como fonte de um mapeamento de campo de saída.

Avisos

Se você fornecer um código de idioma não suportado, um aviso será gerado e as frases-chave não serão extraídas. Se o texto estiver vazio, será emitido um aviso. Se o texto tiver mais de 50.000 caracteres, apenas os primeiros 50.000 caracteres serão analisados e um aviso será emitido.