Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Documentação de referência | Package (PyPi) | Amostras adicionais em GitHub
Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
O Speech SDK para Python está disponível como módulo Python Package Index (PyPI). O Speech SDK para Python é compatível com Windows, Linux e macOS.
- Deve instalar o Visual C++ Redistributable Microsoft para Visual Studio 2015, 2017, 2019 e 2022 para a sua plataforma. Instalar este pacote pela primeira vez pode exigir um reinício.
- No Linux, tens de usar a arquitetura alvo x64.
- Instala uma versão de Python a partir da 3.10 ou posterior. Primeiro, consulte o guia de instalação do SDK para ver se há mais requisitos
- Também deve instalar GStreamer para áudio comprimido.
Definir variáveis ambientais
Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitui a tua chave por uma das chaves do teu recurso. - Para definir a
SPEECH_REGIONvariável ambiente, substitui a tua região por uma das regiões do teu recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.
Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.
- Descarregue ou copie os ficheiros de exemplo scenarios/python/console/captioning/ de GitHub para um diretório local.
- Abra um prompt de comandos no mesmo diretório de
captioning.py. - Execute este comando para instalar o Speech SDK:
pip install azure-cognitiveservices-speech - Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Certifique-se de que os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Certifique-se de que define as
SPEECH_KEYvariáveis de ambiente eSPEECH_REGIONconforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: python captioning.py --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a--keyopção. -
--region REGION: A região de recursos da sua plataforma Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a--regionopção. Exemplos:westus,northeurope
Importante
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--language LANG: Especifique uma língua usando uma das localizações correspondentes suportadas. Isto é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produza resultados offline. Anula--realTime. O modo de saída padrão é offline. -
--realTime: Resultados em tempo real.
A saída em tempo real inclui Recognizing resultados de eventos. A saída offline por defeito é Recognized apenas resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: Quantos MILISSEGUNDOS devem atrasar a visualização de cada legenda para imitar uma experiência em tempo real. Esta opção só se aplica quando usa arealTimebandeira. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000. -
--quiet: Suprimir a saída da consola, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja conceitos de filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Esta opção só se aplica quando usa arealTimebandeira. Para mais informações, consulte Conceitos de obter resultados parciais.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de reconhecimento de fala que criou.
Documentação de referência | Package (NuGet) | Amostras adicionais em GitHub
Neste início rápido, executa-se uma aplicação de consola para criar legendas utilizando a conversão de voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
O Speech SDK está disponível como pacote NuGet e implementa .NET Standard 2.0. Instala o Speech SDK mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para ver se há mais requisitos.
Também deve instalar GStreamer para áudio comprimido.
Definir variáveis ambientais
Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitui a tua chave por uma das chaves do teu recurso. - Para definir a
SPEECH_REGIONvariável ambiente, substitui a tua região por uma das regiões do teu recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.
Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.
- Copie os ficheiros de exemplo scenarios/csharp/dotnetcore/captioning/ de GitHub. Se tiver o Git instalado, abra um prompt de comandos e execute o
git clonecomando para descarregar o repositório de exemplos do Speech SDK.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git - Abre um prompt de comandos e muda para o diretório do projeto.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/ - Constrói o projeto com a CLI .NET.
dotnet build - Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Certifique-se de que os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Certifique-se de que define as
SPEECH_KEYvariáveis de ambiente eSPEECH_REGIONconforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: captioning --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a--keyopção. -
--region REGION: A sua região de recursos do Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a--regionopção. Exemplos:westus,northeurope
Importante
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--language LANG: Especifique uma língua usando uma das localizações correspondentes suportadas. Isto é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produzir resultados offline. Anula--realTime. O modo de saída padrão é offline. -
--realTime: Produzir resultados em tempo real.
A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: Quantos MILISSEGUNDOS adiar a apresentação de cada legenda, para simular uma experiência em tempo real. Esta opção só se aplica quando usa arealTimebandeira. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000. -
--quiet: Suprimir a saída da consola, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, consulte os conceitos do filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Esta opção só se aplica quando usa arealTimebandeira. Para mais informações, consulte Obter resultados parciais .
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.
Documentação de referência | Package (npm) | Exemplos adicionais em GitHub | código-fonte da biblioteca
Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
Antes de poderes fazer qualquer coisa, precisas de instalar o Speech SDK para JavaScript. Se só quiseres o nome do pacote para instalar, executa npm install microsoft-cognitiveservices-speech-sdk. Para instruções de instalação guiada, consulte o guia de instalação do SDK.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.
Copie os ficheiros de exemplo scenarios/javascript/node/captioning/ de GitHub para o diretório do seu projeto.
Abra um prompt de comandos no mesmo diretório de
Captioning.js.Instale o SDK de Fala para JavaScript:
npm install microsoft-cognitiveservices-speech-sdkExecuta a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Substitua
YourSpeechResoureKeycom a sua chave de recurso de Fala, e substituaYourServiceRegionpela sua região de recurso de Fala, comowestusounortheurope. Certifique-se de que os caminhos especificados por--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Nota
O Speech SDK para JavaScript não suporta áudio comprimido de entrada. Deve usar um ficheiro WAV como mostrado no exemplo.
Importante
Lembre-se de remover a chave do seu código quando terminar e nunca a publique publicamente. Para produção, usa uma forma segura de armazenar e aceder às tuas credenciais, como Azure Key Vault. Consulte o artigo sobre segurança da Foundry Tools para mais informações.
Verificar resultados
O ficheiro de saída com legendas completas é escrito em caption.output.txt. Os resultados intermédios são mostrados na consola:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: node captioning.js --key <key> --region <region> --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. -
--region REGION: A sua região de recursos do Foundry. Exemplos:westus,northeurope
As opções de entrada incluem:
-
--input FILE: Entrada de áudio a partir de ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--languages LANG1,LANG2: Permitir a identificação de línguas para línguas específicas. Por exemplo:en-US,ja-JP. Esta opção está disponível apenas com os exemplos de legendas em C++, C# e Python. Para mais informações, veja Identificação linguística.
As opções de reconhecimento incluem:
-
--recognizing: Resultados do evento de saídaRecognizing. Por defeito, a saída são apenasRecognizedresultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A--quietopção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--quiet: Suprimir a saída da linha de comando, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Para mais informações, consulte Obter resultados parciais conceitos.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.
Documentação de referência | Exemplos adicionais sobre GitHub
Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
Antes de poderes fazer qualquer coisa, precisas de instalar o Speech SDK. O exemplo deste quickstart funciona com o Microsoft Build do OpenJDK 17
- Instala Apache Maven. Depois corre
mvn -vpara confirmar a instalação bem-sucedida. - Crie um novo
pom.xmlficheiro na raiz do seu projeto e copie o seguinte para ele:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.43.0</version> </dependency> </dependencies> </project> - Instala o Speech SDK e as dependências.
mvn clean dependency:copy-dependencies - Também deve instalar GStreamer para áudio comprimido.
Definir variáveis ambientais
Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitui a tua chave por uma das chaves do teu recurso. - Para definir a
SPEECH_REGIONvariável ambiente, substitui a tua região por uma das regiões do teu recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.
Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.
- Copie os ficheiros de exemplo scenarios/java/jre/captioning/ de GitHub para o diretório do seu projeto. O
pom.xmlficheiro que criaste na configuração do ambiente também deve estar neste diretório. - Abra o prompt de comando e execute este comando para compilar os arquivos do projeto.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8 - Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Certifique-se de que os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Certifique-se de que define as
SPEECH_KEYvariáveis de ambiente eSPEECH_REGIONconforme descrito acima. Caso contrário, use os argumentos--keye--region.
Verificar resultados
Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: java -cp ".;target\dependency\*" Captioning --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a--keyopção. -
--region REGION: A sua região de recursos do Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a--regionopção. Exemplos:westus,northeurope
Importante
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--language LANG: Especifique uma língua usando uma das localizações correspondentes suportadas. Isto é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Gerar resultados offline. Anula--realTime. O modo de saída padrão é offline. -
--realTime: Resultados em tempo real.
A saída em tempo real inclui Recognizing resultados de eventos. A saída offline por defeito é Recognized apenas resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--maxLineLength LENGTH: Ajuste o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: Quantos MILISSEGUNDOS atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só se aplica quando usa arealTimebandeira. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000. -
--quiet: Suprimir a saída da linha de comando, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Esta opção só se aplica quando usa arealTimebandeira. Para mais informações, consulte Obter resultados parciais conceitos.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.
Documentação de referência | Package (NuGet) | Amostras adicionais em GitHub
Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
O Speech SDK está disponível como pacote NuGet e implementa .NET Standard 2.0. Instala o Speech SDK mais tarde neste guia, mas primeiro verifique o guia de instalação do SDK para ver se há mais requisitos
Também deve instalar GStreamer para áudio comprimido.
Definir variáveis ambientais
Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.
Importante
Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.
- Para definir a
SPEECH_KEYvariável de ambiente, substitui a tua chave por uma das chaves do teu recurso. - Para definir a
SPEECH_REGIONvariável ambiente, substitui a tua região por uma das regiões do teu recurso. - Para definir a
ENDPOINTvariável de ambiente, substituayour-endpointpelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint
Nota
Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.
Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo de código de início rápido de legendas com o Visual Studio Community 2022 no Windows.
Descarregue ou copie os ficheiros de exemplo scenarios/cpp/windows/captioning/ de GitHub para um diretório local.
Abra o ficheiro de solução
captioning.slnno Visual Studio Community 2022.Instala o SDK de Fala no teu projeto com o gestor de pacotes NuGet.
Install-Package Microsoft.CognitiveServices.SpeechAbrir Project>Properties>Geral. Defina a configuração para
All configurations. Defina o padrão da linguagem C++ paraISO C++17 Standard (/std:c++17).Abrir Build>Gestor de Configuração.
- Numa instalação Windows de 64 bits, defina Plataforma de solução ativa para
x64. - Numa instalação Windows de 32 bits, defina Active solution platform para
x86.
- Numa instalação Windows de 64 bits, defina Plataforma de solução ativa para
Abrir Project>Properties>Depuração. Introduza os seus argumentos preferidos na linha de comandos em Command Arguments. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"Importante
Certifique-se de que os caminhos especificados por
--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Certifique-se de que define as
SPEECH_KEYvariáveis de ambiente eSPEECH_REGIONconforme descrito acima. Caso contrário, use os argumentos--keye--region.Constrói e executa a aplicação de consola.
Verificar resultados
Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: captioning --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a--keyopção. -
--region REGION: A região de recursos da sua plataforma Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a--regionopção. Exemplos:westus,northeurope
Importante
Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.
Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.
As opções de entrada incluem:
-
--input FILE: Entrada de áudio do ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--language LANG: Especifique uma língua usando uma das localizações correspondentes suportadas. Isto é usado ao dividir legendas em linhas. O valor padrão éen-US.
As opções de reconhecimento incluem:
-
--offline: Produzir resultados offline. Anula--realTime. O modo de saída padrão é offline. -
--realTime: Produzir resultados em tempo real.
A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses). -
--lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2. -
--delay MILLISECONDS: Quantos MILISSEGUNDOS adiar a apresentação de cada legenda, para simular uma experiência em tempo real. Esta opção só se aplica quando usa arealTimebandeira. O mínimo é 0,0. O padrão é 1000. -
--remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000. -
--quiet: Suprimir a saída da consola, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Esta opção só se aplica quando usa arealTimebandeira. Para mais informações, consulte Obter resultados parciais conceitos.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.
Documentação de referência | Package (Go) | Amostras adicionais sobre GitHub
Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
Verifique se existem passos de instalação específicos para cada plataforma.
Também deve instalar GStreamer para áudio comprimido.
Criar legendas a partir da fala
Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.
Descarregue ou copie os ficheiros de exemplo scenarios/go/captioning/ de GitHub para um diretório local.
Abra um prompt de comandos no mesmo diretório de
captioning.go.Execute os seguintes comandos para criar um ficheiro
go.modque se ligue aos componentes do SDK de Fala alojados na GitHub:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-goConstrói o módulo GO.
go buildExecuta a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"Substitua
YourSpeechResoureKeycom a sua chave de recurso de Fala, e substituaYourServiceRegionpela sua região de recurso de Fala, comowestusounortheurope. Certifique-se de que os caminhos especificados por--inpute--outputsão válidos. Caso contrário, tens de mudar os caminhos.Importante
Lembre-se de remover a chave do seu código quando terminar e nunca a publique publicamente. Para produção, usa uma forma segura de armazenar e aceder às tuas credenciais, como Azure Key Vault. Consulte o artigo sobre segurança da Foundry Tools para mais informações.
Verificar resultados
O ficheiro de saída com legendas completas é escrito em caption.output.txt. Os resultados intermédios são mostrados na consola:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.
Utilização e argumentos
Utilização: go run captioning.go helper.go --key <key> --region <region> --input <input file>
As opções de ligação incluem:
-
--key: A tua chave de recursos da Foundry. -
--region REGION: A sua região de recursos do Foundry. Exemplos:westus,northeurope
As opções de entrada incluem:
-
--input FILE: Entrada de áudio a partir de ficheiro. A entrada padrão é o microfone. -
--format FORMAT: Usar formato de áudio comprimido. Válido apenas com--file. Os valores válidos sãoalaw,any,flac,mp3,mulaw, eogg_opus. O valor padrão éany. Para usar umwavficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
As opções linguísticas incluem:
-
--languages LANG1,LANG2: Permitir a identificação de línguas para línguas específicas. Por exemplo:en-US,ja-JP. Esta opção está disponível apenas com os exemplos de legendas em C++, C# e Python. Para mais informações, veja Identificação linguística.
As opções de reconhecimento incluem:
-
--recognizing: Produzir resultados do eventoRecognizing. A saída padrão é apenasRecognizedresultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A--quietopção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.
As opções de precisão incluem:
-
--phrases PHRASE1;PHRASE2: Pode especificar uma lista de frases a serem reconhecidas, comoContoso;Jessie;Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
As opções de saída incluem:
-
--help: Mostra esta ajuda e pára -
--output FILE: Produz legendas para o arquivo especificadofile. Esta bandeira é obrigatória. -
--srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. -
--quiet: Suprimir a saída da consola, exceto erros. -
--profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja conceitos de filtro de palavrões. -
--threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é3. Para mais informações, consulte Conceitos de obter resultados parciais.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de reconhecimento de fala que criou.
Documentação de referência | Pacote (download) | Amostras adicionais sobre GitHub
Disponibilidade
O Speech SDK for Objective-C suporta obter resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Por favor, selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou consulte a referência Objective-C e exemplos ligados no início deste artigo.
Neste início rápido, executa-se uma aplicação de consola para criar legendas utilizando a conversão de voz para texto.
Dica
Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.
Dica
Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.
Pré-requisitos
- Uma subscrição do Azure. Podes criar um gratuitamente.
- Criar um recurso Foundry para Speech no portal Azure.
- Obtenha a chave de recursos e a região de Fala. Depois de o seu recurso de Fala ser implementado, selecione Ir para o recurso para visualizar e gerir as chaves.
Preparar o ambiente
Siga estes passos e consulte o Início Rápido do Speech CLI para outros requisitos da sua plataforma.
Execute o seguinte comando .NET CLI para instalar a CLI de Voz:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLIExecute os seguintes comandos para configurar a sua chave de Recurso de Voz e região. Substitui
SUBSCRIPTION-KEYpela tua chave de recursos de Fala e substituiREGIONpela tua região de recursos de Fala.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Também deve instalar GStreamer para áudio comprimido.
Criar legendas a partir da fala
Com a Voice CLI, pode gerar legendas SRT (SubRip Text) e WebVTT (Web Video Text Tracks) de qualquer tipo de media que contenha áudio.
Para reconhecer áudio de um ficheiro e gerar legendas WebVtt (vtt) e SRT (srt), siga estes passos.
Certifica-te de que tens um ficheiro de entrada nomeado
caption.this.mp4no caminho.Execute o seguinte comando para gerar legendas a partir do ficheiro de vídeo:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"As legendas SRT e WebVTT são enviadas para a consola, conforme mostrado aqui:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Utilização e argumentos
Aqui estão detalhes sobre os argumentos opcionais do comando anterior:
-
--file caption.this.mp4 --format any: Entrada de áudio do ficheiro. A entrada padrão é o microfone. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada. -
--output vtt file -e--output srt file -: Exporta legendas WebVTT e SRT para saída padrão. Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. Para mais informações sobre o--outputargumento, veja Opções de saída da CLI de Fala. -
@output.each.detailed: Produz os resultados do evento com texto, offset e duração. Para mais informações, consulte Obter resultados de reconhecimento de voz. -
--property SpeechServiceResponse_StablePartialResultThreshold=5: Pode pedir que o serviço de reconhecimento de voz devolva menosRecognizingeventos que sejam mais precisos. Neste exemplo, o serviço de fala deve afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de lhe devolver os resultados parciais. Para mais informações, consulte Obter resultados parciais conceitos. -
--profanity masked: Pode especificar se deve mascarar, remover ou mostrar palavrões nos resultados de reconhecimento. Para mais informações, veja os conceitos do filtro de palavrões. -
--phrases "Constoso;Jessie;Rehaan": Pode especificar uma lista de frases a reconhecer, como Contoso, Jessie e Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.
Liberar recursos
Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.
Documentação de referência | Pacote (download) | Amostras adicionais sobre GitHub
Disponibilidade
O Speech SDK do Swift suporta obter resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Por favor, selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou consulte a referência ao Swift e os exemplos ligados no início deste artigo.