Habilidade cognitiva de Reconhecimento de Entidades (v3)
A habilidade Reconhecimento de Entidade (v3) extrai entidades de diferentes tipos do texto. Essas entidades se enquadram em 14 categorias distintas, que vão desde pessoas e organizações até URLs e números de telefone. Essa habilidade usa os modelos de aprendizado de máquina de Reconhecimento de Entidade Nomeada fornecidos pela Linguagem de IA do Azure.
Nota
Essa habilidade está vinculada aos serviços de IA do Azure e requer um recurso faturável para transações que excedam 20 documentos por indexador por dia. A execução de habilidades internas é cobrada pelo preço pré-pago dos serviços de IA do Azure existentes.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
Limites de dados
O tamanho máximo de um registo deve ser de 50 000 carateres, medido por String.Length
. Se você precisar dividir seus dados antes de enviá-los para a habilidade EntityRecognition, considere usar a habilidade Divisão de texto. Ao usar uma habilidade dividida, defina o comprimento da página como 5000 para obter o melhor desempenho.
Parâmetros de habilidade
Os parâmetros diferenciam maiúsculas de minúsculas e são todos opcionais.
Nome do parâmetro | Description |
---|---|
categories |
Matriz de categorias que devem ser extraídas. Tipos de categorias possíveis: "Person" , "Location" , "Organization" , "Quantity" , "DateTime" "Email" "URL" "personType" "Event" , , "Product" , . "Skill" "Address" "phoneNumber" "ipAddress" Se nenhuma categoria for fornecida, todos os tipos serão retornados. |
defaultLanguageCode |
Código linguístico do texto de entrada. Se o código de idioma padrão não for especificado, o inglês (en) será usado como o código de idioma padrão. Veja a lista completa de linguagens suportadas. Nem todas as categorias de entidades são suportadas para todos os idiomas; veja nota abaixo. |
minimumPrecision |
Um valor entre 0 e 1. Se a pontuação de confiança (na saída) for inferior a namedEntities este valor, a entidade não é devolvida. A predefinição é 0. |
modelVersion |
(Opcional) Especifica a versão do modelo a ser usada ao chamar a API de reconhecimento de entidade. O padrão será o mais recente disponível quando não especificado. Recomendamos que você não especifique esse valor, a menos que seja necessário. |
Contributos para as competências
Nome de entrada | Description |
---|---|
languageCode |
Uma cadeia de caracteres que indica o idioma dos registros. Se esse parâmetro não for especificado, o código de idioma padrão será usado para analisar os registros. Veja a lista completa de linguagens suportadas. |
text |
O texto a analisar. |
Resultados em termos de competências
Nota
Nem todas as categorias de entidades são suportadas para todos os idiomas. Consulte Categorias de entidade NER (Reconhecimento de Entidade Nomeada com Suporte) para saber quais categorias de entidade são suportadas para o idioma que você usará.
Nome da saída | Description |
---|---|
persons |
Uma matriz de cadeias de caracteres onde cada cadeia representa o nome de uma pessoa. |
locations |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um local. |
organizations |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma organização. |
quantities |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma quantidade. |
dateTimes |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um valor DateTime (como aparece no texto). |
urls |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa uma URL |
emails |
Uma matriz de cadeias de caracteres em que cada cadeia de caracteres representa um e-mail |
personTypes |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um PersonType |
events |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um evento |
products |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um produto |
skills |
Uma matriz de cadeias de caracteres onde cada cadeia representa uma habilidade |
addresses |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um endereço |
phoneNumbers |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um número de telefone |
ipAddresses |
Uma matriz de cadeias de caracteres onde cada cadeia de caracteres representa um endereço IP |
namedEntities |
Uma matriz de tipos complexos que contém os seguintes campos:
|
Definição da amostra
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
Entrada de exemplo
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Saída de exemplo
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
Os deslocamentos retornados para entidades na saída dessa habilidade são retornados diretamente das APIs do Serviço de Linguagem, o que significa que, se você estiver usando-os para indexar na cadeia de caracteres original, deverá usar a classe StringInfo no .NET para extrair o conteúdo correto. Para obter mais informações, consulte Suporte multilíngue e a emojis em Recursos do serviço de idiomas.
Casos de alerta
Se o código de idioma do documento não for suportado, um aviso será retornado e nenhuma entidade será extraída.