Partilhar via


Nota de transparência para análise de sentimento

Importante

Traduções que não sejam em inglês são fornecidas apenas por conveniência. Consulte a EN-US versão deste documento para obter a versão vinculativa.

O que é uma nota de transparência?

Importante

Este artigo pressupõe que você esteja familiarizado com as diretrizes e práticas recomendadas para a Linguagem de IA do Azure. Para obter mais informações, consulte Nota de transparência para a linguagem de IA do Azure.

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que ela é implantada. Criar um sistema adequado ao fim a que se destina requer uma compreensão de como a tecnologia funciona, suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer para influenciar o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar as Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As notas de transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para colocar nossos princípios de IA em prática. Para saber mais, consulte Princípios de IA da Microsoft.

Noções básicas da Análise de Sentimento

Introdução

O recurso Análise de Sentimento da Linguagem de IA do Azure avalia o texto e retorna pontuações e rótulos de sentimento para cada frase. Isso é útil para detetar sentimentos positivos, neutros e negativos nas mídias sociais, avaliações de clientes, fóruns de discussão e outros cenários de produtos e serviços.

Capacidades

Comportamento do sistema

A análise de sentimento fornece rótulos de sentimento (como "negativo", "neutro" e "positivo") com base na pontuação de confiança mais alta encontrada pelo serviço em nível de frase e documento. Esse recurso também retorna pontuações de confiança entre 0 e 1 para cada documento e frase para sentimento positivo, neutro e negativo. Pontuações mais próximas de 1 indicam maior confiança na classificação do rótulo, enquanto pontuações mais baixas indicam menor confiança. Por padrão, o rótulo de sentimento geral é a maior das três pontuações de confiança, no entanto, você pode definir um limite para qualquer uma ou todas as pontuações individuais de confiança de sentimento, dependendo do que funciona melhor para o seu cenário. Para cada documento ou frase, as pontuações previstas associadas aos rótulos (positivo, negativo e neutro) somam 1. Leia mais detalhes sobre rótulos e pontuações de sentimento.

Além disso, o recurso opcional de mineração de opinião retorna aspetos (como os atributos de produtos ou serviços) e suas palavras de opinião associadas. Para cada aspeto, um rótulo de sentimento geral é retornado juntamente com pontuações de confiança para sentimento positivo e negativo. Por exemplo, a frase "O restaurante tinha ótima comida e nosso garçom foi amigável" tem dois aspetos, "comida" e "garçom", e suas palavras de opinião correspondentes são "ótimo" e "amigável". Os dois aspetos recebem, portanto, classificação positivede sentimento, com escores de confiança entre 0 e 1,0. Leia mais detalhes sobre mineração de opinião.

Consulte a resposta JSON para este exemplo.

Casos de uso

A Análise de Sentimento pode ser usada em vários cenários em uma variedade de setores. Eis alguns exemplos:

  • Monitore as tendências de feedback positivo e negativo em agregado. Depois de introduzir um novo produto, um varejista pode usar o serviço de sentimento para monitorar vários meios de comunicação social para menções ao produto e seu sentimento associado. O sentimento de tendência pode ser usado em reuniões de produtos para tomar decisões de negócios sobre o novo produto.
  • Execute a análise de sentimento nos resultados de texto bruto das pesquisas para obter insights para análise e acompanhamento com os participantes (clientes, funcionários, consumidores, etc.). Uma loja com uma política para acompanhar as avaliações negativas dos clientes em 24 horas e as avaliações positivas dentro de uma semana pode usar o serviço de sentimento para categorizar as avaliações para um acompanhamento fácil e oportuno.
  • Ajude a equipe de atendimento ao cliente a melhorar o envolvimento do cliente por meio de insights capturados da análise em tempo real das interações. Extraia insights de chamadas transcritas de atendimento ao cliente para entender melhor as interações cliente-agente e as tendências para melhorar os compromissos com o cliente.

Considerações ao escolher um caso de utilização

  • Evite ações automáticas sem intervenção humana para cenários de alto impacto. Por exemplo, os prémios dos funcionários não devem ser baseados automaticamente nas pontuações de sentimento dos textos de interações com o serviço de apoio ao cliente. Os dados-fonte devem ser sempre revistos sempre que a situação económica, a saúde ou a segurança de uma pessoa sejam afetadas.
  • Considere cuidadosamente cenários fora do domínio de revisão de produtos e serviços. Como o modelo é treinado em avaliações de produtos e serviços, o sistema pode não reconhecer com precisão a linguagem focada no sentimento em outros domínios. Certifique-se sempre de testar o sistema em conjuntos de dados de teste operacionais para garantir que você obtenha o desempenho de que precisa. Seu conjunto de dados de teste operacional deve refletir os dados reais que seu sistema verá em produção com todas as características e variações que você terá quando seu produto for implantado. Dados sintéticos e testes que não refletem seu cenário de ponta a ponta provavelmente não serão suficientes.
  • Considere cuidadosamente cenários que executam ações automáticas para filtrar ou remover conteúdo. Você pode adicionar um ciclo de revisão humana e/ou reclassificar o conteúdo (em vez de filtrá-lo completamente) se o seu objetivo for garantir que o conteúdo atenda aos padrões da sua comunidade.
  • Considerações legais e regulatórias: As organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer serviços e soluções de IA, que podem não ser apropriados para uso em todos os setores ou cenários. Além disso, os serviços ou soluções de IA não são projetados e não podem ser usados de maneiras proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Limitações

Dependendo do cenário e dos dados de entrada, você pode experimentar diferentes níveis de desempenho. As informações a seguir foram criadas para ajudá-lo a entender as limitações do sistema e os principais conceitos sobre desempenho à medida que se aplicam à Análise de Sentimento.

Principais limitações a considerar:

  • O modelo de aprendizado de máquina usado para prever o sentimento foi treinado em avaliações de produtos e serviços. Isso significa que o serviço terá um desempenho mais preciso para cenários semelhantes e menos preciso para cenários fora do escopo das avaliações de produtos e serviços. Por exemplo, as avaliações pessoais podem usar linguagem diferente para descrever o sentimento e, portanto, você pode não obter os resultados ou o desempenho esperados. Uma palavra como "forte" na frase "Shafali era um líder forte" pode não obter um sentimento positivo porque a palavra forte pode não ter um sentimento positivo claro nas avaliações de produtos e serviços.

  • Como o modelo é treinado em avaliações de produtos e serviços, dialetos e idiomas menos representados no conjunto de dados podem ter menor precisão.

  • O modelo não tem compreensão da importância relativa de várias frases que são enviadas juntas. Uma vez que o sentimento geral é uma pontuação agregada simples das frases, a pontuação geral do sentimento pode não concordar com a interpretação de um ser humano, o que levaria em conta o fato de que algumas frases podem ter mais importância na determinação do sentimento geral.

  • O modelo pode não reconhecer o sarcasmo. O contexto, como o tom de voz, a expressão facial, o autor do texto, o público para o texto ou a conversa prévia são muitas vezes importantes para compreender o sentimento. Com o sarcasmo, o contexto adicional é muitas vezes necessário para reconhecer se uma entrada de texto é positiva ou negativa. Dado que o serviço só vê a entrada de texto, classificar o sentimento sarcástico pode ser menos preciso. Por exemplo, isso foi incrível, pode ser positivo ou negativo, dependendo do contexto, tom de voz, expressão facial, autor e público.

  • A magnitude do escore de confiança não reflete a intensidade do sentimento. Baseia-se na confiança do modelo para um determinado sentimento (positivo, neutro, negativo). Portanto, se o seu sistema depende da intensidade do sentimento, considere usar um revisor humano ou lógica de pós-processamento nas pontuações de opinião individuais ou no texto original para ajudar a classificar a intensidade do sentimento.

  • Embora tenhamos feito esforços para reduzir o viés exibido por nossos modelos, as limitações que vêm com os modelos de linguagem, incluindo o potencial para produzir resultados imprecisos, não confiáveis e tendenciosos, aplicam-se ao modelo de Análise de Sentimento de Linguagem de IA do Azure. Esperamos que o modelo tenha alguns falsos negativos e positivos por enquanto, mas estamos ansiosos para coletar feedback dos usuários para ajudar nosso trabalho contínuo para melhorar este serviço.

Práticas recomendadas para melhorar o desempenho do sistema

Como o sentimento é um pouco subjetivo, não é possível fornecer uma estimativa de desempenho universalmente aplicável para o modelo. Em última análise, o desempenho depende de uma série de fatores, como o domínio do assunto, as características do texto processado, o caso de uso do sistema e como as pessoas interpretam a saída do sistema.

Você pode achar que as pontuações de confiança para sentimentos positivos, negativos e neutros diferem de acordo com o seu cenário. Em vez de usar o sentimento geral no nível da frase para o documento ou frase completo, você pode definir um limite para qualquer uma ou todas as pontuações individuais de confiança de sentimento que funcione melhor para o seu cenário. Por exemplo, se for mais importante identificar todos os casos potenciais de sentimento negativo, você pode usar um limite mais baixo no sentimento negativo em vez de olhar para o rótulo de sentimento geral. Isso significa que você pode obter mais falsos positivos (texto neutro ou positivo sendo reconhecido como sentimento negativo), mas menos falsos negativos (texto negativo não reconhecido como sentimento negativo). Por exemplo, você pode querer ler todos os comentários de produtos que tenham algum sentimento negativo potencial para ideias de melhoria do produto. Nesse caso, você pode usar apenas a pontuação de sentimento negativo e definir um limite mais baixo. Isso pode gerar trabalho extra, porque você acabaria lendo algumas avaliações que não são negativas, mas é mais provável que identifique oportunidades de melhoria. Se for mais importante para o seu sistema reconhecer apenas texto negativo verdadeiro, você pode usar um limite mais alto ou usar o rótulo de sentimento geral. Por exemplo, você pode querer responder a avaliações de produtos que são negativas. Se quiser minimizar o trabalho de ler e responder a avaliações negativas, você só pode usar a previsão geral de sentimento e ignorar as pontuações de sentimento individuais. Embora possa haver algum sentimento negativo previsto que você perde, é provável que você receba a maioria das avaliações verdadeiramente negativas. Os valores de limite podem não ter um comportamento consistente em todos os cenários. Portanto, é fundamental que você teste seu sistema com dados reais que ele processará na produção.

Ver também