Introdução à análise de texto

Concluído

A Linguagem de IA do Azure faz parte das ofertas dos serviços de IA do Azure, que podem executar um processamento avançado de linguagem natural por meio de textos não estruturados. Os recursos de análise de textos da Linguagem de IA do Azure incluem:

  • O reconhecimento de entidades nomeadas identifica pessoas, locais, eventos e muito mais. Esse recurso também pode ser personalizado para extrair categorias personalizadas.
  • A vinculação de entidades identifica entidades conhecidas junto com um link para a Wikipédia.
  • A detecção de informações de identificação pessoal (PII) identifica informações pessoais confidenciais, incluindo informações de saúde pessoal (PHI).
  • A detecção de idioma identifica o idioma do texto e retorna um código de idioma como "pt" para português.
  • A análise de sentimento e mineração de opinião identificam se o texto é positivo ou negativo.
  • O resumo resume o texto identificando as informações mais importantes.
  • A extração de frases-chave lista os principais conceitos de um texto não estruturado.

Reconhecimento e vinculação de entidades

É possível fornecer texto não estruturado à Linguagem de IA do Azure e ela retornará uma lista de entidades no texto que ela reconhece. Uma entidade é um item de uma categoria ou tipo específicos e, em alguns casos, um subtipo, como os que são mostrados na tabela a seguir.

Tipo SubType Exemplo
Pessoa "Bill Gates", "João"
Localização "Paris", "Nova York"
Organização "Microsoft"
Quantidade Número "6" ou "seis"
Quantidade Percentual "25%" ou "cinquenta por cento"
Quantidade Ordinal "1º" ou "primeiro"
Quantidade Idade "90 dias" ou "30 anos"
Quantidade Moeda "10,99"
Quantidade Dimensão "10 quilômetros", "40 cm"
Quantidade Temperatura "45 graus"
DateTime "04 de fevereiro de 2012, 18h30"
DateTime Data "02 de maio de 2017" ou "02/05/2017"
DateTime Hora "8h" ou "8h00"
DateTime DateRange "de 02 a 05 de maio"
DateTime TimeRange "18h às 19h"
DateTime Duração "1 minuto e 45 segundos"
DateTime Definição "todas as terças-feiras"
URL "https://www.bing.com"
Email "support@microsoft.com"
Número de telefone dos EUA "(312) 555-0176"
Endereço IP "10.0.1.125"

A Linguagem de IA do Azure também será compatível com uma vinculação de entidade para ajudar a remover a ambiguidade de entidades vinculando-as a uma referência específica. Para entidades reconhecidas, o serviço retornará uma URL de um artigo relevante da Wikipédia.

Por exemplo, imagine que você usa a Linguagem de IA do Azure para detectar entidades no seguinte trecho de análise do restaurante:

"Comi em um restaurante em Seattle na semana passada."

Entidade Tipo SubType URL da Wikipédia
Seattle Localização https://en.wikipedia.org/wiki/Seattle
semana passada DateTime DateRange

Detecção de idioma

Use a funcionalidade de detecção de idioma da Linguagem de IA do Azure para identificar o idioma no qual o texto está escrito. Será possível enviar vários documentos por vez para análise. Para cada documento enviado, o serviço irá detectar:

  • O nome do idioma (por exemplo, "inglês").
  • O código do idioma ISO 639-1 (por exemplo, "en").
  • Uma pontuação que indicará um nível de confiança na detecção de idioma.

Considere um cenário no qual você é proprietário e gerencia um restaurante em que os clientes poderão responder a pesquisas e fornecer comentários sobre a comida, o serviço, a equipe e assim por diante. Imagine que você recebeu as seguintes análises dos clientes:

Análise 1: "Um lugar fantástico para almoçar. A sopa estava deliciosa."

Análise 2: "Comida maravillosa y gran servicio."

Análise 3: "The croque monsieur avec frites was terrific. Bon appetit!"

Você pode usar os recursos de análise de texto da Linguagem de IA do Azure para detectar o idioma de cada uma dessas revisões, e pode receber uma resposta com os seguintes resultados:

Documento Nome do idioma Código ISO 6391 Pontuação
Análise 1 Inglês en 1,0
Análise 2 Espanhol es 1,0
Análise 3 Inglês en 0,9

Observe que o idioma detectado na análise 3 é o inglês, apesar do texto conter uma mistura de inglês e francês. O foco do serviço de detecção de idioma será o idioma predominante no texto. O serviço usará um algoritmo para determinar o idioma predominante, como o comprimento das frases ou a quantidade total de texto do idioma em comparação com outros idiomas no texto. O idioma predominante será o valor retornado, juntamente com o código do idioma. A pontuação de confiança poderá ser inferior a 1 como resultado de um texto com uma mistura de idiomas.

Alguns textos poderão ser ambíguos por natureza ou ter um conteúdo com uma mistura de idiomas. Estas situações podem representar um desafio. Um exemplo de conteúdo ambíguo seria no caso de um documento conter textos limitados ou somente pontuações. Por exemplo, usar o serviço Linguagem de IA do Azure para analisar o texto ":-)" resultará em um valor desconhecido para o nome do idioma e o identificador de idioma, além de uma pontuação NaN (usada para indicar que algo não é um número).

Análise de Sentimento e a mineração de opiniões

As funcionalidades de análise de texto na Linguagem de IA do Azure podem avaliar texto e retornar pontuações e rótulos de sentimentos para cada frase. Essa funcionalidade será útil para detectar sentimentos positivos e negativos em mídias sociais, análises dos clientes, fóruns de discussão e muito mais.

A Linguagem de IA do Azure usa um modelo de classificação de aprendizado de máquina predefinido para avaliar o texto. O serviço retorna pontuações de sentimento em três categorias: positivo, neutro e negativo. Em cada uma das categorias, é fornecida uma pontuação entre 0 e 1. As pontuações indicam a probabilidade de o texto fornecido ter um sentimento específico. Um sentimento de documento também é fornecido.

Por exemplo, as seguintes avaliações do restaurante poderiam ser analisadas em busca de sentimentos:

Análise 1: "Fomos jantar neste restaurante ontem à noite e a primeira coisa que percebi foi a educação da equipe. Fomos recebidos com simpatia e encaminhados à nossa mesa imediatamente. A mesa estava limpa, as cadeiras eram confortáveis e a comida estava maravilhosa."

e

Análise 2: "Nossa experiência ao jantar neste restaurante foi uma das piores que já tive. O serviço era lento e a comida horrível. Nunca mais vou comer nesse estabelecimento de novo."

A pontuação de sentimento para a primeira revisão poderia ser: Sentimento do documento: positivo Pontuação positiva: 0,90 : Pontuação neutra: 0,10 Pontuação negativa: 0,00

A segunda revisão poderia retornar a seguinte resposta: Sentimento do documento: negativo Pontuação positiva: 0,00 Pontuação neutra: 0,00 Pontuação negativa: 0,99

Extração de frases-chave

A extração de frase-chave identifica os principais pontos do texto. Considere o cenário do restaurante discutido anteriormente. Se você tiver um grande número de pesquisas, poderá levar bastante tempo para ler todas as revisões. Em vez disso, será possível usar os recursos de extração de frases-chave do serviço de linguagem para resumir os principais pontos.

Será possível receber uma análise como:

"Viemos jantar aqui por causa da comemoração de um aniversário e tivemos uma experiência fantástica. Fomos recebidos por uma recepcionista simpática que nos encaminhou à mesa imediatamente. O ambiente era relaxante, a comida estava incrível e o serviço ótimo. Caso goste de uma boa comida e um serviço atencioso, você deverá conhecer esse lugar."

A extração de frases-chave poderá fornecer algum contexto para essa análise, extraindo as seguintes frases:

  • comemoração de aniversário
  • experiência fantástica
  • recepcionista simpática
  • boa comida
  • serviço atencioso
  • jantar
  • tabela
  • ambiente
  • lugar

Além de usar a análise de sentimento para determinar que essa revisão é positiva, você também pode usar o serviço de frase-chave para identificar elementos importantes da revisão.

Crie um recurso para a Linguagem de IA do Azure

Para usar a Linguagem de IA do Azure em um aplicativo, você deve provisionar um recurso apropriado em sua assinatura do Azure. Você pode' optar por criar um dos seguintes tipos de recursos:

  • Um recurso de Linguagem: escolha esse tipo de recurso se estiver planejando usar somente o serviço de Linguagem de IA do Azure ou quiser gerenciar o acesso e a cobrança do recurso separado dos outros serviços.
  • Um recurso dos serviços de IA do Azure – escolha esse tipo de recurso caso planeje usar a Linguagem de IA do Azure combinada com outros serviços de IA do Azure e queira gerenciar o acesso e a cobrança desses serviços juntos.