Compartilhar via


Usar o recurso de fala de BYOS (Traga seu próprio armazenamento) para a conversão de fala em texto

O BYOS (Traga seu próprio armazenamento) pode ser usado nos seguintes cenários de conversão de fala em texto:

  • Transcrição de lote
  • Transcrição em tempo real com registro em log de resultados de áudio e transcrição habilitado
  • Fala Personalizada

Um recurso de Fala para emparelhamento de conta de armazenamento pode ser usado para todos os cenários simultaneamente.

Esse artigo explica detalhadamente como usar um recurso de Fala habilitado para BYOS em todos os cenários de conversão de fala em texto. O artigo implica que você tem um recurso de Fala habilitado para BYOS totalmente configurado e uma conta de Armazenamento associada.

Armazenamento de dados

Ao usar o BYOS, o serviço de Fala não mantém nenhum artefato do cliente após a conclusão do processamento de dados (transcrição, treinamento de modelo, teste de modelo). No entanto, alguns metadados que não são derivados do conteúdo do usuário são armazenados nas instalações do serviço de Fala. Por exemplo, no cenário de fala personalizada, o Serviço mantém determinadas informações sobre os pontos de extremidade personalizados, como quais modelos eles usam.

A conta de armazenamento associada ao BYOS armazena os seguintes dados:

Observação

Opcional nessa seção significa que é possível, mas não necessário armazenar os artefatos específicos na conta de Armazenamento associada ao BYOS. Se necessário, eles podem ser armazenados em outro lugar.

Transcrição em lote

  • Áudio de origem (opcional)
  • Resultados da transcrição em lote

Transcrição em tempo real com o log de resultados de áudio e transcrição habilitado

  • Logs de resultados de áudio e transcrição

Fala Personalizada

  • Arquivos de origem de conjuntos de dados para treinamento e teste de modelo (opcional)
  • Todos os dados e metadados relacionados a modelos personalizados hospedados pelo recurso de Fala habilitado para BYOS (incluindo cópias de conjuntos de dados para treinamento e teste de modelo)

Transcrição de lote

A transcrição em lote é usada para transcrever um grande volume de dados de áudio no armazenamento. Se você não estiver familiarizado com a transcrição do Lote, consulte esse artigo primeiro.

Execute estas etapas para executar a transcrição em lote com o recurso de Fala habilitado para BYOS:

  1. Inicie a transcrição em lote, conforme descrito nesse guia.

    Importante

    Não use o parâmetro destinationContainerUrl em sua solicitação de transcrição. Se você usar o BYOS, os resultados da transcrição serão armazenados automaticamente na conta de Armazenamento associada ao BYOS.

    Se você usar o parâmetro destinationContainerUrl, ele funcionará, mas fornecerá significativamente menos segurança para seus dados, devido ao uso de SAS ad hoc. Veja os detalhes aqui.

  2. Quando a transcrição for concluída, obtenha os resultados da transcrição de acordo com esse guia. Considere o uso do parâmetro sasValidityInSeconds (consulte a seção a seguir).

O serviço de Fala usa o contêiner de Blob customspeech-artifacts na conta de Armazenamento associada ao BYOS para armazenar resultados de transcrição intermediários e finais.

Cuidado

O serviço de Fala depende de caminhos de contêiner de Blob predefinidos e nomes de arquivo para que o módulo de transcrição do Lote funcione corretamente. Não mova, renomeie ou altere de forma alguma o conteúdo do contêiner customspeech-artifacts.

A falha ao fazer isso muito provavelmente resultará em dificuldades para depurar erros de serviço 4xx e 5xx.

Use ferramentas padrão para interagir com a transcrição do Lote. Consulte os detalhes na seção Transcrição do Lote.

Obter resultados da transcrição do Lote por meio da API REST

A API REST de conversão de fala em texto dá suporte total aos recursos de Fala habilitados para BYOS. No entanto, como os dados agora estão armazenados na conta de Armazenamento habilitada para BYOS, solicitações como Obter Arquivos de Transcrição interagem com o armazenamento de Blobs da conta de Armazenamento associado ao BYOS, em vez de recursos internos do serviço de Fala. Ele permite usar o mesmo código baseado em API REST para recursos de Fala "regulares" e habilitados para BYOS.

Para segurança máxima, use o parâmetro sasValidityInSeconds com o valor definido como 0 nas solicitações, que retornam URLs de arquivo de dados, como a solicitação Obter Arquivos de Transcrição. Aqui está um exemplo de URL de solicitação:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas da Conta de Armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função leitor de dados de blob de armazenamento) possam acessar os dados da URL.

Aviso

Se o parâmetro sasValidityInSeconds for omitido na solicitação Obter Arquivos de Transcrição ou semelhantes, uma SAS de delegação de usuário com a validade de 5 dias será gerada para cada URL de arquivo de dados retornada. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do recurso de Fala habilitado para BYOS. Por causa disso, a SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desabilitado. Veja os detalhes aqui.

Transcrição em tempo real com o log de resultados de áudio e transcrição habilitado

Você pode habilitar o registro para entrada de áudio e fala reconhecida ao usar a conversão de fala em texto ou a tradução de fala. Confira a descrição completa nesse artigo.

Se você usar BYOS, encontrará os logs no contêiner de Blob customspeech-audiologs na conta de Armazenamento associada ao BYOS.

Aviso

Os dados de registro em log são mantidos por 5 dias. Após esse período, os logs são excluídos automaticamente. Isso também é válido para recursos de Fala habilitados para BYOS. Se você quiser manter os logs por mais tempo, copie os arquivos e pastas correspondentes do contêiner de Blob customspeech-audiologs diretamente ou use a API REST.

Obter logs de transcrição em tempo real por meio da API REST

A API REST de conversão de fala em texto dá suporte total aos recursos de Fala habilitados para BYOS. No entanto, como os dados agora estão armazenados na conta de Armazenamento habilitada para BYOS, solicitações como Obter Registros de Modelos Base interagem com o armazenamento de Blobs da conta de Armazenamento associado ao BYOS, em vez de recursos internos do serviço de Fala. Ele permite usar o mesmo código baseado em API REST para recursos de Fala "regulares" e habilitados para BYOS.

Para segurança máxima, use o parâmetro sasValidityInSeconds com o valor definido como 0 nas solicitações, que retornam URLs de arquivo de dados, como a solicitação Obter Registros de Modelos Base. Aqui está um exemplo de URL de solicitação:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas da Conta de Armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função leitor de dados de blob de armazenamento) possam acessar os dados da URL.

Aviso

Se o parâmetro sasValidityInSeconds for omitido na solicitação Obter registros do modelo básico ou similares, será gerado um SAS de delegação de usuário com validade de 5 dias para cada URL de arquivo de dados retornado. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do recurso de Fala habilitado para BYOS. Por causa disso, a SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desabilitado. Veja os detalhes aqui.

Fala Personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote. Para obter mais informações, consulte a Visão geral sobre a fala personalizada.

Não há nada específico sobre como você usa a fala personalizada com o recurso de Fala habilitado para BYOS. A única diferença é onde todos os dados relacionados ao modelo personalizado, que o serviço de Fala coleta e produz para você, são armazenados. Os dados são armazenados nos seguintes contêineres de Blob da conta de Armazenamento associada ao BYOS:

  • customspeech-models – Local dos modelos de fala personalizada
  • customspeech-artifacts – Local de todos os outros dados relacionados à fala personalizada

A estrutura de contêiner de Blob é fornecida apenas para suas informações e está sujeita a alterações sem aviso prévio.

Cuidado

O Serviço de fala depende de caminhos de contêiner de blob predefinidos e nomes de arquivo para que o módulo de fala personalizada funcione corretamente. Não mova, renomeie nem altere de maneira nenhuma o conteúdo do contêiner customspeech-models e pastas relacionadas à fala personalizada do contêiner customspeech-artifacts.

Não fazer isso muito provavelmente resultará em erros difíceis de depurar e pode levar à necessidade de readaptação de modelo personalizado.

Use ferramentas padrão, como a API REST e o Speech Studio para interagir com os dados relacionados à fala personalizada. Consulte os detalhes na seção fala personalizada.

Uso da API REST com fala personalizada

A API REST de conversão de fala em texto dá suporte total aos recursos de Fala habilitados para BYOS. No entanto, como os dados agora estão armazenados na conta de Armazenamento habilitada para BYOS, solicitações como Datasets_ListFiles interagem com o armazenamento de Blobs da Conta de armazenamento associado ao BYOS, em vez de recursos internos do serviço de Fala. Ele permite usar o mesmo código baseado em API REST para recursos de Fala "regulares" e habilitados para BYOS.

Para segurança máxima, use o parâmetro sasValidityInSeconds com o valor definido como 0 nas solicitações, que retornam URLs de arquivo de dados, como a solicitação Obter Arquivos de Dados. Aqui está um exemplo de URL de solicitação:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas da Conta de Armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função leitor de dados de blob de armazenamento) possam acessar os dados da URL.

Aviso

Se o parâmetro sasValidityInSeconds for omitido na solicitação Obter Arquivos de Dados ou semelhantes, uma SAS de delegação de usuário com a validade de 5 dias será gerada para cada URL de arquivo de dados retornada. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do recurso de Fala habilitado para BYOS. Por causa disso, a SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desabilitado. Veja os detalhes aqui.

Próximas etapas