Início Rápido: Criar legendas com voz para texto

Documentação de referência | Package (PyPi) | Amostras adicionais em GitHub

Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

O Speech SDK para Python está disponível como módulo Python Package Index (PyPI). O Speech SDK para Python é compatível com Windows, Linux e macOS.

  1. Instala uma versão de Python a partir da 3.10 ou posterior. Primeiro, consulte o guia de instalação do SDK para ver se há mais requisitos
  2. Também deve instalar GStreamer para áudio comprimido.

Definir variáveis ambientais

Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.

  • Para definir a SPEECH_KEY variável de ambiente, substitui a tua chave por uma das chaves do teu recurso.
  • Para definir a SPEECH_REGION variável ambiente, substitui a tua região por uma das regiões do teu recurso.
  • Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.

Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.

  1. Descarregue ou copie os ficheiros de exemplo scenarios/python/console/captioning/ de GitHub para um diretório local.
  2. Abra um prompt de comandos no mesmo diretório de captioning.py.
  3. Execute este comando para instalar o Speech SDK:
    pip install azure-cognitiveservices-speech
    
  4. Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Certifique-se de que define as SPEECH_KEY variáveis de ambiente e SPEECH_REGION conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: python captioning.py --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a --key opção.
  • --region REGION: A região de recursos da sua plataforma Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

As opções de reconhecimento incluem:

  • --offline: Produza resultados offline. Anula --realTime. O modo de saída padrão é offline.
  • --realTime: Resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline por defeito é Recognized apenas resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses).
  • --lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos MILISSEGUNDOS devem atrasar a visualização de cada legenda para imitar uma experiência em tempo real. Esta opção só se aplica quando usa a realTime bandeira. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprimir a saída da consola, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja conceitos de filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Esta opção só se aplica quando usa a realTime bandeira. Para mais informações, consulte Conceitos de obter resultados parciais.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de reconhecimento de fala que criou.

Documentação de referência | Package (NuGet) | Amostras adicionais em GitHub

Neste início rápido, executa-se uma aplicação de consola para criar legendas utilizando a conversão de voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

O Speech SDK está disponível como pacote NuGet e implementa .NET Standard 2.0. Instala o Speech SDK mais adiante neste guia, mas primeiro verifique o guia de instalação do SDK para ver se há mais requisitos.

Também deve instalar GStreamer para áudio comprimido.

Definir variáveis ambientais

Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.

  • Para definir a SPEECH_KEY variável de ambiente, substitui a tua chave por uma das chaves do teu recurso.
  • Para definir a SPEECH_REGION variável ambiente, substitui a tua região por uma das regiões do teu recurso.
  • Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.

Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.

  1. Copie os ficheiros de exemplo scenarios/csharp/dotnetcore/captioning/ de GitHub. Se tiver o Git instalado, abra um prompt de comandos e execute o git clone comando para descarregar o repositório de exemplos do Speech SDK.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Abre um prompt de comandos e muda para o diretório do projeto.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Constrói o projeto com a CLI .NET.
    dotnet build
    
  4. Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Certifique-se de que define as SPEECH_KEY variáveis de ambiente e SPEECH_REGION conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: captioning --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a --key opção.
  • --region REGION: A sua região de recursos do Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

As opções de reconhecimento incluem:

  • --offline: Produzir resultados offline. Anula --realTime. O modo de saída padrão é offline.
  • --realTime: Produzir resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses).
  • --lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos MILISSEGUNDOS adiar a apresentação de cada legenda, para simular uma experiência em tempo real. Esta opção só se aplica quando usa a realTime bandeira. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprimir a saída da consola, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, consulte os conceitos do filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Esta opção só se aplica quando usa a realTime bandeira. Para mais informações, consulte Obter resultados parciais .

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.

Documentação de referência | Package (npm) | Exemplos adicionais em GitHub | código-fonte da biblioteca

Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

Antes de poderes fazer qualquer coisa, precisas de instalar o Speech SDK para JavaScript. Se só quiseres o nome do pacote para instalar, executa npm install microsoft-cognitiveservices-speech-sdk. Para instruções de instalação guiada, consulte o guia de instalação do SDK.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.

  1. Copie os ficheiros de exemplo scenarios/javascript/node/captioning/ de GitHub para o diretório do seu projeto.

  2. Abra um prompt de comandos no mesmo diretório de Captioning.js.

  3. Instale o SDK de Fala para JavaScript:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:

    node captioning.js --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Substitua YourSpeechResoureKey com a sua chave de recurso de Fala, e substitua YourServiceRegion pela sua região de recurso de Fala, como westus ou northeurope. Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Nota

    O Speech SDK para JavaScript não suporta áudio comprimido de entrada. Deve usar um ficheiro WAV como mostrado no exemplo.

    Importante

    Lembre-se de remover a chave do seu código quando terminar e nunca a publique publicamente. Para produção, usa uma forma segura de armazenar e aceder às tuas credenciais, como Azure Key Vault. Consulte o artigo sobre segurança da Foundry Tools para mais informações.

Verificar resultados

O ficheiro de saída com legendas completas é escrito em caption.output.txt. Os resultados intermédios são mostrados na consola:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: node captioning.js --key <key> --region <region> --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry.
  • --region REGION: A sua região de recursos do Foundry. Exemplos: westus, northeurope

As opções de entrada incluem:

  • --input FILE: Entrada de áudio a partir de ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

  • --languages LANG1,LANG2: Permitir a identificação de línguas para línguas específicas. Por exemplo: en-US,ja-JP. Esta opção está disponível apenas com os exemplos de legendas em C++, C# e Python. Para mais informações, veja Identificação linguística.

As opções de reconhecimento incluem:

  • --recognizing: Resultados do evento de saída Recognizing . Por defeito, a saída são apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --quiet: Suprimir a saída da linha de comando, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Para mais informações, consulte Obter resultados parciais conceitos.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.

Documentação de referência | Exemplos adicionais sobre GitHub

Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

Antes de poderes fazer qualquer coisa, precisas de instalar o Speech SDK. O exemplo deste quickstart funciona com o Microsoft Build do OpenJDK 17

  1. Instala Apache Maven. Depois corre mvn -v para confirmar a instalação bem-sucedida.
  2. Crie um novo pom.xml ficheiro na raiz do seu projeto e copie o seguinte para ele:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.43.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Instala o Speech SDK e as dependências.
    mvn clean dependency:copy-dependencies
    
  4. Também deve instalar GStreamer para áudio comprimido.

Definir variáveis ambientais

Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.

  • Para definir a SPEECH_KEY variável de ambiente, substitui a tua chave por uma das chaves do teu recurso.
  • Para definir a SPEECH_REGION variável ambiente, substitui a tua região por uma das regiões do teu recurso.
  • Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.

Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.

  1. Copie os ficheiros de exemplo scenarios/java/jre/captioning/ de GitHub para o diretório do seu projeto. O pom.xml ficheiro que criaste na configuração do ambiente também deve estar neste diretório.
  2. Abra o prompt de comando e execute este comando para compilar os arquivos do projeto.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Certifique-se de que define as SPEECH_KEY variáveis de ambiente e SPEECH_REGION conforme descrito acima. Caso contrário, use os argumentos --key e --region.

Verificar resultados

Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: java -cp ".;target\dependency\*" Captioning --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a --key opção.
  • --region REGION: A sua região de recursos do Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Introdução de áudio do ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

As opções de reconhecimento incluem:

  • --offline: Gerar resultados offline. Anula --realTime. O modo de saída padrão é offline.
  • --realTime: Resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline por defeito é Recognized apenas resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída no formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --maxLineLength LENGTH: Ajuste o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses).
  • --lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos MILISSEGUNDOS atrasar a exibição de cada legenda, para imitar uma experiência em tempo real. Esta opção só se aplica quando usa a realTime bandeira. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprimir a saída da linha de comando, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Esta opção só se aplica quando usa a realTime bandeira. Para mais informações, consulte Obter resultados parciais conceitos.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.

Documentação de referência | Package (NuGet) | Amostras adicionais em GitHub

Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

O Speech SDK está disponível como pacote NuGet e implementa .NET Standard 2.0. Instala o Speech SDK mais tarde neste guia, mas primeiro verifique o guia de instalação do SDK para ver se há mais requisitos

Também deve instalar GStreamer para áudio comprimido.

Definir variáveis ambientais

Precisa de autenticar a sua aplicação para aceder ao Foundry Tools. Este artigo mostra-lhe como usar variáveis de ambiente para armazenar as suas credenciais. Depois podes aceder às variáveis de ambiente do teu código para autenticar a tua aplicação. Para produção, usa uma forma mais segura de guardar e aceder às tuas credenciais.

Importante

Recomendamos a autenticação do Microsoft Entra ID com identidades geridas para recursos do Azure, para evitar armazenar credenciais nas suas aplicações que correm na nuvem.

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usar chaves API, guarde-as de forma segura no Azure Key Vault, rode as chaves regularmente e restrinja o acesso ao Azure Key Vault usando controlo de acesso baseado em funções e restrições de acesso à rede. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

Para definir as variáveis de ambiente para a sua chave de recurso de voz e região, abra uma janela de consola e siga as instruções do seu sistema operativo e ambiente de desenvolvimento.

  • Para definir a SPEECH_KEY variável de ambiente, substitui a tua chave por uma das chaves do teu recurso.
  • Para definir a SPEECH_REGION variável ambiente, substitui a tua região por uma das regiões do teu recurso.
  • Para definir a ENDPOINT variável de ambiente, substitua your-endpoint pelo endpoint real do seu recurso de Voz.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

Nota

Se só precisares de aceder às variáveis de ambiente na consola atual, podes definir a variável de ambiente em set vez de setx.

Depois de adicionares as variáveis de ambiente, podes precisar de reiniciar quaisquer programas que precisem de ler as variáveis de ambiente, incluindo a janela da consola. Por exemplo, se estiveres a usar o Visual Studio como editor, reinicia o Visual Studio antes de executares o exemplo.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo de código de início rápido de legendas com o Visual Studio Community 2022 no Windows.

  1. Descarregue ou copie os ficheiros de exemplo scenarios/cpp/windows/captioning/ de GitHub para um diretório local.

  2. Abra o ficheiro de solução captioning.sln no Visual Studio Community 2022.

  3. Instala o SDK de Fala no teu projeto com o gestor de pacotes NuGet.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Abrir Project>Properties>Geral. Defina a configuração para All configurations. Defina o padrão da linguagem C++ para ISO C++17 Standard (/std:c++17).

  5. Abrir Build>Gestor de Configuração.

    • Numa instalação Windows de 64 bits, defina Plataforma de solução ativa para x64.
    • Numa instalação Windows de 32 bits, defina Active solution platform para x86.
  6. Abrir Project>Properties>Depuração. Introduza os seus argumentos preferidos na linha de comandos em Command Arguments. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Importante

    Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Certifique-se de que define as SPEECH_KEY variáveis de ambiente e SPEECH_REGION conforme descrito acima. Caso contrário, use os argumentos --key e --region.

  7. Constrói e executa a aplicação de consola.

Verificar resultados

Quando usa a realTime opção do exemplo acima, os resultados parciais dos Recognizing eventos são incluídos no resultado. Neste exemplo, apenas o evento final Recognized inclui as vírgulas. Comas não são as únicas diferenças entre eventos Recognizing e Recognized. Para mais informações, consulte Obter resultados parciais.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Quando utiliza a opção --offline, os resultados são estáveis a partir do evento final Recognized. Resultados parciais não estão incluídos no resultado:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: captioning --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry. Sobrepõe a variável de ambiente SPEECH_KEY. Deve definir a variável ambiente (recomendado) ou usar a --key opção.
  • --region REGION: A região de recursos da sua plataforma Foundry. Sobrepõe a variável de ambiente SPEECH_REGION. Deve definir a variável ambiente (recomendado) ou usar a --region opção. Exemplos: westus, northeurope

Importante

Use as chaves API com cautela. Não incluas a chave API diretamente no teu código e nunca a publiques publicamente. Se usares uma chave API, guarda-a de forma segura no Azure Key Vault. Para mais informações sobre o uso seguro das chaves da API nas suas aplicações, consulte Chaves da API com Azure Key Vault.

Para mais informações sobre a segurança dos serviços de IA, consulte Autenticar pedidos para Serviços de IA do Azure.

As opções de entrada incluem:

  • --input FILE: Entrada de áudio do ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

As opções de reconhecimento incluem:

  • --offline: Produzir resultados offline. Anula --realTime. O modo de saída padrão é offline.
  • --realTime: Produzir resultados em tempo real.

A saída em tempo real inclui Recognizing resultados de eventos. A saída offline padrão é apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --maxLineLength LENGTH: Defina o número máximo de caracteres por linha de uma legenda para LENGTH. O mínimo é 20. O padrão é 37 (30 para os chineses).
  • --lines LINES: Defina o número de linhas de uma legenda para LINES. O mínimo é 1. O padrão é 2.
  • --delay MILLISECONDS: Quantos MILISSEGUNDOS adiar a apresentação de cada legenda, para simular uma experiência em tempo real. Esta opção só se aplica quando usa a realTime bandeira. O mínimo é 0,0. O padrão é 1000.
  • --remainTime MILLISECONDS: Quantos MILISSEGUNDOS uma legenda deve permanecer no ecrã se não for substituída por outra. O mínimo é 0,0. O padrão é 1000.
  • --quiet: Suprimir a saída da consola, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja os conceitos do filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Esta opção só se aplica quando usa a realTime bandeira. Para mais informações, consulte Obter resultados parciais conceitos.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.

Documentação de referência | Package (Go) | Amostras adicionais sobre GitHub

Neste quickstart, executas uma aplicação de consola para criar legendas com voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

Verifique se existem passos de instalação específicos para cada plataforma.

Também deve instalar GStreamer para áudio comprimido.

Criar legendas a partir da fala

Siga estes passos para construir e executar o exemplo do código de início rápido de legendas.

  1. Descarregue ou copie os ficheiros de exemplo scenarios/go/captioning/ de GitHub para um diretório local.

  2. Abra um prompt de comandos no mesmo diretório de captioning.go.

  3. Execute os seguintes comandos para criar um ficheiro go.mod que se ligue aos componentes do SDK de Fala alojados na GitHub:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Constrói o módulo GO.

    go build
    
  5. Executa a aplicação com os argumentos de linha de comandos que preferes. Consulte o uso e os argumentos para as opções disponíveis. Aqui está um exemplo:

    go run captioning --key YourSpeechResoureKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Substitua YourSpeechResoureKey com a sua chave de recurso de Fala, e substitua YourServiceRegion pela sua região de recurso de Fala, como westus ou northeurope. Certifique-se de que os caminhos especificados por --input e --output são válidos. Caso contrário, tens de mudar os caminhos.

    Importante

    Lembre-se de remover a chave do seu código quando terminar e nunca a publique publicamente. Para produção, usa uma forma segura de armazenar e aceder às tuas credenciais, como Azure Key Vault. Consulte o artigo sobre segurança da Foundry Tools para mais informações.

Verificar resultados

O ficheiro de saída com legendas completas é escrito em caption.output.txt. Os resultados intermédios são mostrados na consola:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

O formato de saída SRT (SubRip Text) é hh:mm:ss,fff. Para mais informações, veja Formato de saída da legenda.

Utilização e argumentos

Utilização: go run captioning.go helper.go --key <key> --region <region> --input <input file>

As opções de ligação incluem:

  • --key: A tua chave de recursos da Foundry.
  • --region REGION: A sua região de recursos do Foundry. Exemplos: westus, northeurope

As opções de entrada incluem:

  • --input FILE: Entrada de áudio a partir de ficheiro. A entrada padrão é o microfone.
  • --format FORMAT: Usar formato de áudio comprimido. Válido apenas com --file. Os valores válidos são alaw, any, flac, mp3, mulaw, e ogg_opus. O valor padrão é any. Para usar um wav ficheiro, não especifique o formato. Esta opção não está disponível com o exemplo de legendas em JavaScript. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.

As opções linguísticas incluem:

  • --languages LANG1,LANG2: Permitir a identificação de línguas para línguas específicas. Por exemplo: en-US,ja-JP. Esta opção está disponível apenas com os exemplos de legendas em C++, C# e Python. Para mais informações, veja Identificação linguística.

As opções de reconhecimento incluem:

  • --recognizing: Produzir resultados do evento Recognizing. A saída padrão é apenas Recognized resultados de eventos. Estes são sempre escritos na consola, nunca num ficheiro de saída. A --quiet opção sobrepõe-se a isso. Para mais informações, consulte Obter resultados de reconhecimento de voz.

As opções de precisão incluem:

As opções de saída incluem:

  • --help: Mostra esta ajuda e pára
  • --output FILE: Produz legendas para o arquivo especificado file. Esta bandeira é obrigatória.
  • --srt: Legendas de saída em formato SRT (SubRip Text). O formato padrão é WebVTT (Web Video Text Tracks). Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas.
  • --quiet: Suprimir a saída da consola, exceto erros.
  • --profanity OPTION: Valores válidos: raw, remove, mask. Para mais informações, veja conceitos de filtro de palavrões.
  • --threshold NUMBER: Definir um limiar de resultado parcial estável. O valor padrão é 3. Para mais informações, consulte Conceitos de obter resultados parciais.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de reconhecimento de fala que criou.

Documentação de referência | Pacote (download) | Amostras adicionais sobre GitHub

Disponibilidade

O Speech SDK for Objective-C suporta obter resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Por favor, selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou consulte a referência Objective-C e exemplos ligados no início deste artigo.

Neste início rápido, executa-se uma aplicação de consola para criar legendas utilizando a conversão de voz para texto.

Dica

Experimente o Speech Studio e escolha um vídeo de exemplo para ver resultados de legendas processadas em tempo real ou offline.

Dica

Experimenta o Azure Speech in Foundry Tools Toolkit para construir e executar amostras de legendas facilmente no Visual Studio Code.

Pré-requisitos

Preparar o ambiente

Siga estes passos e consulte o Início Rápido do Speech CLI para outros requisitos da sua plataforma.

  1. Execute o seguinte comando .NET CLI para instalar a CLI de Voz:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Execute os seguintes comandos para configurar a sua chave de Recurso de Voz e região. Substitui SUBSCRIPTION-KEY pela tua chave de recursos de Fala e substitui REGION pela tua região de recursos de Fala.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

Também deve instalar GStreamer para áudio comprimido.

Criar legendas a partir da fala

Com a Voice CLI, pode gerar legendas SRT (SubRip Text) e WebVTT (Web Video Text Tracks) de qualquer tipo de media que contenha áudio.

Para reconhecer áudio de um ficheiro e gerar legendas WebVtt (vtt) e SRT (srt), siga estes passos.

  1. Certifica-te de que tens um ficheiro de entrada nomeado caption.this.mp4 no caminho.

  2. Execute o seguinte comando para gerar legendas a partir do ficheiro de vídeo:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    As legendas SRT e WebVTT são enviadas para a consola, conforme mostrado aqui:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Utilização e argumentos

Aqui estão detalhes sobre os argumentos opcionais do comando anterior:

  • --file caption.this.mp4 --format any: Entrada de áudio do ficheiro. A entrada padrão é o microfone. Para ficheiros de áudio comprimidos como MP4, instale o GStreamer e veja Como usar áudio comprimido de entrada.
  • --output vtt file - e --output srt file -: Exporta legendas WebVTT e SRT para saída padrão. Para mais informações sobre os formatos de ficheiro de legendas SRT e WebVTT, consulte Formato de saída de legendas. Para mais informações sobre o --output argumento, veja Opções de saída da CLI de Fala.
  • @output.each.detailed: Produz os resultados do evento com texto, offset e duração. Para mais informações, consulte Obter resultados de reconhecimento de voz.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Pode pedir que o serviço de reconhecimento de voz devolva menos Recognizing eventos que sejam mais precisos. Neste exemplo, o serviço de fala deve afirmar o reconhecimento de uma palavra pelo menos cinco vezes antes de lhe devolver os resultados parciais. Para mais informações, consulte Obter resultados parciais conceitos.
  • --profanity masked: Pode especificar se deve mascarar, remover ou mostrar palavrões nos resultados de reconhecimento. Para mais informações, veja os conceitos do filtro de palavrões.
  • --phrases "Constoso;Jessie;Rehaan": Pode especificar uma lista de frases a reconhecer, como Contoso, Jessie e Rehaan. Para mais informações, consulte Melhorar a reconhecimento com a lista de frases.

Liberar recursos

Pode usar o portal Azure ou a Interface de Linha de Comandos (CLI) Azure para remover o recurso de Fala que criou.

Documentação de referência | Pacote (download) | Amostras adicionais sobre GitHub

Disponibilidade

O Speech SDK do Swift suporta obter resultados de reconhecimento de fala para legendagem, mas ainda não incluímos um guia aqui. Por favor, selecione outra linguagem de programação para começar e aprender sobre os conceitos, ou consulte a referência ao Swift e os exemplos ligados no início deste artigo.

Próximos passos