O que é o resumo de documentos e conversas?

Importante

Uma região de visualização, Sweden Central, apresenta nossas técnicas de ajuste fino LLM mais recentes e em constante evolução, onde todos os recursos de sumarização estão disponíveis. Convidamos os clientes a juntarem-se à nossa comunidade de early adopters preenchendo o formulário de pedido de acesso. O seu valioso feedback é vital para a nossa melhoria contínua.

O resumo da conversa só está disponível usando:

  • API REST
  • Python
  • C#

A sumarização é um dos recursos oferecidos pelo Azure AI Language, uma coleção de algoritmos de aprendizado de máquina e IA na nuvem para desenvolver aplicativos inteligentes que envolvem linguagem escrita. Use este artigo para saber mais sobre esse recurso e como usá-lo em seus aplicativos.

Observe que, embora os serviços sejam rotulados como resumo de documentos e conversas, o resumo de documentos só aceita blocos de texto sem formatação e o resumo de conversa aceitará vários artefatos de fala para que o modelo aprenda mais. Se você quiser processar uma conversa, mas se preocupar apenas com texto, poderá usar o resumo de documentos para esse cenário.

O Resumo Personalizado permite que os usuários criem modelos de IA personalizados para resumir texto não estruturado, como contratos ou romances. Ao criar um projeto de Sumarização Personalizada, os desenvolvedores podem rotular dados iterativamente, treinar, avaliar e melhorar o desempenho do modelo antes de disponibilizá-lo para consumo. A qualidade dos dados rotulados afeta muito o desempenho do modelo. Para simplificar a construção e personalização do seu modelo, o serviço oferece um portal web personalizado que pode ser acessado através do estúdio de idiomas. Você pode facilmente começar com o serviço seguindo as etapas neste início rápido.

Esta documentação contém os seguintes tipos de artigo:

  • Os guias de início rápido são instruções de introdução para guiá-lo ao fazer solicitações ao serviço.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.

A sumarização de documentos usa técnicas de processamento de linguagem natural para gerar um resumo para documentos. Existem duas abordagens gerais para a sumarização automática, ambas suportadas pela API: extrativa e abstrata.

O resumo extrativo extrai frases que representam coletivamente as informações mais importantes ou relevantes dentro do conteúdo original. A sumarização abstrata gera um resumo com frases ou palavras concisas e coerentes que não são simplesmente frases extraídas do documento original. Esses recursos são projetados para encurtar o conteúdo que pode ser considerado muito longo para ler.

Funcionalidades principais

Há dois tipos de resumo de documentos que esta API fornece:

  • Sumarização extrativa: Produz um resumo extraindo frases salientes dentro do documento.
    • Várias frases extraídas: Estas frases transmitem coletivamente a ideia principal do documento. São frases originais extraídas do conteúdo do documento de entrada.
    • Pontuação de classificação: a pontuação de classificação indica o quão relevante uma frase é para o tópico principal de um documento. O resumo de documentos classifica as frases extraídas e você pode determinar se elas são retornadas na ordem em que aparecem ou de acordo com sua classificação.
    • Várias sentenças devolvidas: Determine o número máximo de sentenças a serem devolvidas. Por exemplo, se você solicitar um resumo de três frases, o resumo extrativo retornará as três frases mais bem pontuadas.
    • Informação posicional: A posição inicial e o comprimento das frases extraídas.
  • Sumarização abstrata: Gera um resumo que pode não usar as mesmas palavras que as do documento, mas captura a ideia principal.
    • Textos resumidos: A sumarização abstrata retorna um resumo para cada intervalo de entrada contextual dentro do documento. Um documento longo pode ser segmentado para que vários grupos de textos resumidos possam ser retornados com seu intervalo de entrada contextual.
    • Intervalo de entrada contextual: o intervalo dentro do documento de entrada que foi usado para gerar o texto de resumo.

Como exemplo, considere o seguinte parágrafo do texto:

"Na Microsoft, temos estado em uma busca para avançar a IA além das técnicas existentes, adotando uma abordagem mais holística e centrada no ser humano para aprender e compreender. Como Diretor de Tecnologia dos serviços de IA do Azure, tenho trabalhado com uma equipe de cientistas e engenheiros incríveis para transformar essa busca em realidade. Na minha função, desfruto de uma perspetiva única na visualização da relação entre três atributos da cognição humana: texto monolingue (X), sinais sensoriais áudio ou visuais (Y) e multilingue (Z). Na interseção de todos os três, há magia — o que chamamos de código XYZ, conforme ilustrado na Figura 1 — uma representação conjunta para criar uma IA mais poderosa que pode falar, ouvir, ver e entender melhor os seres humanos. Acreditamos que o código XYZ nos permitirá cumprir nossa visão de longo prazo: aprendizagem de transferência entre domínios, abrangendo modalidades e idiomas. O objetivo é ter modelos pré-treinados que possam aprender conjuntamente representações para apoiar uma ampla gama de tarefas de IA a jusante, da mesma forma que os humanos fazem hoje. Nos últimos cinco anos, alcançamos o desempenho humano em benchmarks em reconhecimento de fala conversacional, tradução automática, resposta a perguntas conversacionais, compreensão de leitura automática e legendagem de imagem. Esses cinco avanços nos forneceram sinais fortes em direção à nossa aspiração mais ambiciosa de produzir um salto nas capacidades de IA, alcançando uma aprendizagem multissensorial e multilíngue que está mais próxima de como os humanos aprendem e entendem. Acredito que o código XYZ conjunto é um componente fundamental dessa aspiração, se fundamentado com fontes de conhecimento externas nas tarefas de IA a jusante."

A solicitação da API de resumo de documentos é processada após o recebimento da solicitação, criando um trabalho para o back-end da API. Se o trabalho for bem-sucedido, a saída da API será retornada. A saída ficará disponível para recuperação por 24 horas. Após esse tempo, a saída é limpa. Devido ao suporte multilíngue e emojis, a resposta pode conter deslocamentos de texto. Consulte como processar compensações para obter mais informações.

Usando o exemplo acima, a API pode retornar as seguintes frases resumidas:

Resumo extrativo:

  • "Na Microsoft, temos estado em uma busca para avançar a IA além das técnicas existentes, adotando uma abordagem mais holística e centrada no ser humano para aprender e compreender."
  • "Acreditamos que o código XYZ nos permitirá cumprir nossa visão de longo prazo: aprendizagem de transferência entre domínios, abrangendo modalidades e idiomas."
  • "O objetivo é ter modelos pré-treinados que possam aprender em conjunto representações para apoiar uma ampla gama de tarefas de IA a jusante, da mesma forma que os humanos fazem hoje."

Resumo abstrato:

  • "A Microsoft está adotando uma abordagem mais holística e centrada no ser humano para aprender e compreender. Acreditamos que o código XYZ nos permitirá cumprir nossa visão de longo prazo: aprendizagem de transferência entre domínios, abrangendo modalidades e idiomas. Nos últimos cinco anos, atingimos o desempenho humano em benchmarks em."

Introdução à sumarização

Para usar o resumo, envie texto bruto não estruturado para análise e manipule a saída da API em seu aplicativo. A análise é realizada no estado em que se encontra, sem personalização adicional ao modelo usado em seus dados. Há duas maneiras de usar o resumo:

Opção de desenvolvimento Description
Estúdio de linguagem O Language Studio é uma plataforma baseada na Web que permite que você tente vincular entidades com exemplos de texto sem uma conta do Azure e seus próprios dados quando você se inscreve. Para obter mais informações, consulte o site do Language Studio ou o início rápido do language studio.
API REST ou biblioteca de cliente (SDK do Azure) Integre o resumo de documentos em seus aplicativos usando a API REST ou a biblioteca de cliente disponível em vários idiomas. Para obter mais informações, consulte o guia de início rápido de resumo.

Requisitos de entrada e limites de serviço

  • A sumarização leva texto bruto não estruturado para análise. Consulte Limites de dados e serviços no guia de instruções para obter mais informações.
  • A sumarização trabalha com uma variedade de linguagens escritas. Consulte o suporte a idiomas para obter mais informações.

Documentação de referência e exemplos de código

À medida que você usa o resumo de documentos em seus aplicativos, consulte a seguinte documentação de referência e exemplos para o Azure AI Language:

Opção de desenvolvimento / linguagem Documentação de referência Amostras
C# Documentação em C# Exemplos de C#
Java Documentação Java Amostras Java
JavaScript Documentação do JavaScript Exemplos de JavaScript
Python Documentação Python Amostras de Python

Responsável IA

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que é implantado. Leia a nota de transparência para resumir para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas. Você também pode ver os seguintes artigos para obter mais informações: