Habilidade cognitiva de Reconhecimento de Entidades (v3)

A habilidade Reconhecimento de Entidade (v3) extrai entidades de diferentes tipos do texto. Essas entidades se enquadram em 14 categorias distintas, que vão desde pessoas e organizações até URLs e números de telefone. Essa habilidade usa os modelos de aprendizado de máquina de Reconhecimento de Entidade Nomeada fornecidos pela Linguagem de IA do Azure.

Nota

Essa habilidade está vinculada aos serviços de IA do Azure e requer um recurso faturável para transações que excedam 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço pré-pago dos serviços de IA do Azure existentes.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Limites de dados

O tamanho máximo de um registo deve ser de 50 000 carateres, medido por String.Length. Se você precisar dividir seus dados antes de enviá-los para a habilidade EntityRecognition, considere usar a habilidade Divisão de texto. Ao usar uma habilidade dividida, defina o comprimento da página como 5000 para obter o melhor desempenho.

Parâmetros de habilidade

Os parâmetros diferenciam maiúsculas de minúsculas e são todos opcionais.

Nome do parâmetro Description
categories Matriz de categorias que devem ser extraídas. Tipos de categorias possíveis: "Person", , , "Quantity""Organization", , , , "personType""ipAddress""phoneNumber""Address""Skill""Event""URL""Product""Location""DateTime""Email". Se nenhuma categoria for fornecida, todos os tipos serão retornados.
defaultLanguageCode Código linguístico do texto de entrada. Se o código de idioma padrão não for especificado, o inglês (en) será usado como o código de idioma padrão.
Veja a lista completa de linguagens suportadas. Nem todas as categorias de entidades são suportadas para todos os idiomas; veja nota abaixo.
minimumPrecision Um valor entre 0 e 1. Se a pontuação de confiança (na saída) for inferior a este valor, a namedEntities entidade não é devolvida. A predefinição é 0.
modelVersion (Opcional) Especifica a versão do modelo a ser usada ao chamar a API de reconhecimento de entidade. O padrão será o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário.

Contributos para as competências

Nome de entrada Description
languageCode Uma cadeia de caracteres que indica o idioma dos registros. Se esse parâmetro não for especificado, o código de idioma padrão será usado para analisar os registros.
Veja a lista completa de linguagens suportadas.
text O texto a analisar.

Resultados em termos de competências

Nota

Nem todas as categorias de entidades são suportadas para todos os idiomas. Consulte Categorias de entidade NER (Reconhecimento de Entidade Nomeada com Suporte) para saber quais categorias de entidade são suportadas para o idioma que você usará.

Nome da saída Description
persons Uma matriz de cadeias de caracteres onde cada cadeia representa o nome de uma pessoa.
locations Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um local.
organizations Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma organização.
quantities Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma quantidade.
dateTimes Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um valor DateTime (como aparece no texto).
urls Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma URL
emails Uma matriz de cadeias de caracteres em que cada cadeia de caracteres representa um e-mail
personTypes Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um PersonType
events Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um evento
products Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um produto
skills Uma matriz de cadeias de caracteres onde cada cadeia representa uma habilidade
addresses Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um endereço
phoneNumbers Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um número de telefone
ipAddresses Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um endereço IP
namedEntities Uma matriz de tipos complexos que contém os seguintes campos:
  • category
  • Subcategoria
  • confidenceScore (Maior valor significa que é mais para ser uma entidade real)
  • comprimento (O comprimento (número de caracteres) desta entidade)
  • offset (O local onde foi encontrado no texto)
  • text (O nome real da entidade tal como aparece no texto)

Definição da amostra

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Entrada de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Saída de exemplo

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Os deslocamentos retornados para entidades na saída dessa habilidade são retornados diretamente das APIs do Serviço de Linguagem, o que significa que, se você estiver usando-os para indexar na cadeia de caracteres original, deverá usar a classe StringInfo no .NET para extrair o conteúdo correto. Para obter mais informações, consulte Suporte multilíngue e a emojis em Recursos do serviço de idiomas.

Casos de alerta

Se o código de idioma do documento não for suportado, um aviso será retornado e nenhuma entidade será extraída.

Consulte também