Habilidade cognitiva de Reconhecimento de Entidade Nomeada (v2)

A habilidade de Reconhecimento de Entidade Nomeada (v2) extrai entidades nomeadas de texto. Entidades disponíveis incluem os tipos person, location, e organization.

Importante

Habilidade de reconhecimento de entidade nomeada (v2) (Microsoft.Skills.Text.NamedEntityRecognitionSkill) foi descontinuada e substituída por Microsoft.Skills.Text.V3.EntityRecognitionSkill. Siga as recomendações nas habilidades preteridas do Azure AI Search para migrar para uma habilidade com suporte.

Observação

À medida que você expande o escopo aumentando a frequência de processamento, adicionando mais documentos ou adicionando mais algoritmos de IA, será necessário anexar um recurso de serviços de IA do Azure faturável. Os encargos são acumulados ao chamar APIs nos serviços de IA do Azure e para extração de imagem como parte do estágio de quebra de documento na Pesquisa de IA do Azure. Não há encargos para extração de texto em documentos. A execução de habilidades internas é cobrada pelo preço pago conforme o uso dos serviços de IA do Azure existentes.

A extração de imagem é uma cobrança extra limitada pelo Azure AI Search, conforme descrito na página de preços. A extração de texto é gratuita.

@odata.type

Microsoft.Skills.Text.NamedEntityRecognitionSkill

Limites de dados

O tamanho máximo de um registro deve ser de 50.000 caracteres conforme medido por String.Length. Se você precisar interromper o backup de seus dados antes de enviá-la para o extrator de frases-chave, considere o uso de habilidade de Texto Dividido. Se você usar uma habilidade de divisão de texto, defina o comprimento da página como 5000 para obter o melhor desempenho.

Parâmetros de habilidades

Os parâmetros diferenciam maiúsculas de minúsculas.

Nome do parâmetro Descrição
Categorias Matriz de categorias que devem ser extraídas. Tipos possíveis de categoria: "Person", "Location", "Organization". Se nenhuma categoria for fornecida, todos os tipos são retornados.
defaultLanguageCode Código de idioma do texto de entrada. Há suporte para vários idiomas: de, en, es, fr, it
minimumPrecision Um número entre 0 e 1. Se a precisão for menor do que esse valor, a entidade não é retornada. O padrão é 0.

Entradas de habilidades

Nome de entrada Descrição
languageCode Opcional. O padrão é "en".
text O texto para analisar.

Saídas de habilidades

Nome de saída Descrição
pessoas Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa o nome de uma pessoa.
Locais Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um local.
organizações Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma organização.
entidades Uma matriz de tipos complexos. Cada tipo complexo inclui os seguintes campos:
  • categoria ("person", "organization", ou "location")
  • valor (nome de entidade real)
  • deslocamento (o local onde ele foi encontrado no texto)
  • confiança (um valor entre 0 e 1 que representa essa confiança de que o valor é uma entidade real)

Definição de exemplo

  {
    "@odata.type": "#Microsoft.Skills.Text.NamedEntityRecognitionSkill",
    "categories": [ "Person", "Location", "Organization"],
    "defaultLanguageCode": "en",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      }
    ]
  }

Entrada de exemplo

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia… Ana Smith is provided as a reference.",
             "languageCode": "en"
           }
      }
    ]
}

Saída de exemplo

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "Joe Romero", "Ana Smith"],
        "locations": ["Chile", "Australia"],
        "organizations":["Microsoft"],
        "entities":  
        [
          {
            "category":"person",
            "value": "Joe Romero",
            "offset": 33,
            "confidence": 0.87
          },
          {
            "category":"person",
            "value": "Ana Smith",
            "offset": 124,
            "confidence": 0.87
          },
          {
            "category":"location",
            "value": "Chile",
            "offset": 88,
            "confidence": 0.99
          },
          {
            "category":"location",
            "value": "Australia",
            "offset": 112,
            "confidence": 0.99
          },
          {
            "category":"organization",
            "value": "Microsoft",
            "offset": 54,
            "confidence": 0.99
          }
        ]
      }
    }
  ]
}

Casos de aviso

Se o código do idioma do documento não for suportado, um aviso será retornado e nenhuma entidade será extraída.

Confira também