Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
- O Compreensão de Conteúdo de IA do Azure está disponível em versão prévia. As versões preliminares públicas fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Os recursos, abordagens e processos podem mudar ou ter seus recursos limitados antes da GA (disponibilidade geral).
- Para obter mais informações, confiraTermos Complementares de Uso para Versões Prévias do Microsoft Azure.
Os analisadores de áudio habilitam a transcrição e a diarização do áudio conversacional, extraindo campos estruturados, como resumos, sentimentos e tópicos principais. Personalize um modelo de analisador de áudio para suas necessidades empresariais usando o portal do Azure AI Foundry para começar a gerar resultados.
Aqui estão cenários comuns para o processamento de dados de áudio de conversação:
- Tenha insights do cliente por meio de resumo e análise de sentimento.
- Avalie e verifique a qualidade da chamada e a conformidade nos call centers.
- Crie resumos e metadados automatizados para publicação de podcast.
Recursos do analisador de áudio
O Reconhecimento de Conteúdo serve como uma base para soluções de Análise de Fala, habilitando os seguintes recursos para arquivos de áudio:
Extração de conteúdo
A extração de conteúdo de áudio é o processo de transcrever arquivos de áudio. Esse processo inclui a separação de transcrições por orador e pode envolver recursos opcionais, como detecção de função, para atualizar os resultados do orador para funções significativas do orador. Também pode envolver resultados detalhados, incluindo carimbos de data/hora no nível da palavra.
Gerenciamento de idioma
Damos suporte a diferentes opções para lidar com o processamento de idioma durante a transcrição.
A tabela a seguir fornece uma visão geral das opções controladas por meio da configuração de 'localidades':
Configuração de localidade | Tamanho do arquivo | Processamento com suporte | Regiões suportadas | Latência de resultados |
---|---|---|---|---|
automático ou vazio | ≤ 300 MB e/ou ≤ 2 horas | Transcrição multilíngue | de-DE , en-AU , en-CA , en-GB , en-IN , en-US , es-ES , es-MX , fr-CA , fr-FR , hi-IN , it-IT , ja-JP , ko-KR e zh-CN |
Quase em tempo real |
automático ou vazio | > 300 MB e >2 HORAS ≤ 4 horas | Transcrição multilíngue | en-US , es-ES , es-MX , fr-FR , hi-IN , , it-IT , ja-JP , , ko-KR , pt-BR , zh-CN |
Regular |
localidade única | ≤ 1 GB e/ou ≤ 4 horas | Transcrição de idioma único | Todas as localidades com suporte[^1] | • ≤ 300 MB e/ou ≤ 2 horas: quase em tempo real • > 300 MB e >2 HORAS ≤ 4 horas: Regular |
várias localidades | ≤ 1 GB e/ou ≤ 4 horas | Transcrição de idioma único (com base na detecção de idioma) | Todas as localidades com suporte[^1] | • ≤ 300 MB e/ou ≤ 2 horas: quase em tempo real • > 300 MB e >2 HORAS ≤ 4 horas: Regular |
[^1]: O Content Understanding oferece suporte ao conjunto completo de idiomas de conversão de fala para texto do Azure AI Speech. Para idiomas com suporte a transcrições rápidas e arquivos ≤ 300 MB e/ou ≤ 2 horas, o tempo de transcrição é reduzido substancialmente.
Transcrição. Converte áudio conversacional em transcrições que podem ser pesquisadas e analisadas baseadas em texto no formato WebVTT. Campos personalizáveis podem ser gerados a partir de dados de transcrição. Carimbos de data/hora no nível da frase e no nível da palavra estão disponíveis mediante solicitação.
Diarização. Distingue entre os falantes em uma conversa, atribuindo partes da transcrição a falantes específicos.
Detecção de função do falante. Identifica as funções de agente e cliente nos dados de chamada da central de contatos.
Transcrição multilíngue. Gera transcrições multilíngues, aplicando idioma/localidade por frase. Desviando da detecção de idioma, esse recurso é habilitado quando nenhum idioma/localidade é especificado ou o idioma é definido como
auto
.
Observação
Quando a transcrição multilíngue é usada, todos os arquivos com localidades sem suporte produzem um resultado com base na localidade com suporte mais próxima, o que provavelmente está incorreto. Esse resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição, garantindo que você configure localidades ao não usar uma localidade com suporte para transcrição multilíngue!
- Detecção de idioma. Detecta automaticamente o idioma/localidade dominante usado para transcrever o arquivo. Defina vários idiomas/localidades para habilitar a detecção de idiomas.
Extração de campo
A extração de campos permite extrair dados estruturados de arquivos de áudio, como resumos, sentimentos e entidades mencionadas de logs de chamadas. Você pode começar personalizando um modelo de analisador sugerido ou criando um do zero.
Principais benefícios
Recursos de áudio avançados, incluindo:
Extração de dados personalizável. Ajuste a saída às suas necessidades específicas modificando o esquema de campo, permitindo a geração e extração precisas de dados.
Modelos generativos. Utilize modelos de IA generativa para especificar em linguagem natural o conteúdo que você deseja extrair e o serviço gera a saída desejada.
Pré-processamento integrado. Aproveite as etapas integradas de pré-processamento, como transcrição, diarização e detecção de função, fornecendo um contexto avançado para modelos generativos.
Adaptabilidade do cenário. Adapte o serviço aos seus requisitos gerando campos personalizados e extraindo dados relevantes.
Analisadores de áudio predefinidos
Os analisadores predefinidos permitem extrair insights valiosos no conteúdo de áudio sem a necessidade de criar uma configuração do analisador.
Todos os analisadores de áudio geram transcrições no formato WEBVTT padrão, separado por orador.
Observação
Os analisadores predefinidos são definidos para usar a transcrição multilíngue e returnDetails
habilitados.
Os seguintes analisadores predefinidos estão disponíveis:
Análise pós-chamada (prebuilt-callCenter). Analisar gravações de chamada para gerar:
- transcrições de conversa com o resultado de detecção de função do locutor
- resumo da chamada
- chamar sentimento
- cinco principais artigos mencionados
- lista de empresas mencionadas
- lista de pessoas (nome e título/função) mencionada
- lista de categorias de chamadas relevantes
Resultado do exemplo:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Análise de conversa (prebuilt-audioAnalyzer). Analisar gravações para gerar:
- transcrições de conversa
- resumo da conversa
Resultado do exemplo:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioAnalyzer",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Você também pode personalizar analisadores predefinidos para um controle mais refinado da saída definindo campos personalizados. A personalização permite que você use todo o poder dos modelos generativos para extrair insights profundos do áudio. Por exemplo, a personalização permite que você:
- Gere outros insights.
- Controlar o idioma da saída de extração de campo.
- Configure o comportamento de transcrição.
Acelerador de Soluções para Mineração de Conhecimento Conversacional
Para obter um início rápido de ponta a ponta para soluções de Análise de Fala, consulte o Acelerador de solução de mineração de conhecimento de conversa.
Obtenha insights acionáveis de grandes volumes de dados de conversação identificando os principais temas, padrões e relações. Usando o Azure AI Foundry, o Azure AI Content Understanding, o Azure OpenAI no Azure AI Foundry Models e o Azure AI Search, essa solução analisa o diálogo não estruturado e mapeia-o para insights significativos e estruturados.
Recursos como modelagem de tópicos, extração de frases-chave, transcrição de fala em texto e chat interativo permitem que os usuários explorem os dados naturalmente e tome decisões mais rápidas e mais informadas.
Analistas que trabalham com grandes volumes de dados de conversa podem usar essa solução para extrair insights por meio da interação com a linguagem natural. Ele dá suporte a tarefas como identificar tendências de suporte ao cliente, melhorar a qualidade do contact center e descobrir a inteligência operacional, permitindo que as equipes localizem padrões, ajam em comentários e tome decisões informadas mais rapidamente.
Requisitos de entrada
Para obter uma lista detalhada de formatos de áudio com suporte, consulteos limites de serviço e codecs.
Idiomas e regiões com suporte
Para obter uma lista completa de regiões, idiomas e localidades com suporte, consulte o suporte a idiomas e regiões.
Segurança e privacidade de dados
Os desenvolvedores que usam esse serviço devem examinar as políticas da Microsoft sobre os dados do cliente. Para obter mais informações, consulteDados, proteção e privacidade.
Próximas etapas
- Tente processar o conteúdo de áudio no portal do Azure AI Foundry.
- Saiba como analisar o conteúdo de áudio com modelos de analisador.
- Examine exemplos de código: