Partilhar via


Use o recurso Bring your own storage (BYOS) Speech para conversão de fala em texto

Bring your own storage (BYOS) pode ser usado nos seguintes cenários de fala para texto:

  • Transcrição em lotes
  • Transcrição em tempo real com registo de resultados de áudio e transcrição ativado
  • Fala personalizada

Um recurso de fala para o emparelhamento de conta de armazenamento pode ser usado para todos os cenários simultaneamente.

Este artigo explica detalhadamente como usar um recurso de fala habilitado para BYOS em todos os cenários de fala para texto. O artigo implica que você tem um recurso de fala habilitado para BYOS totalmente configurado e uma conta de armazenamento associada.

Armazenamento de dados

Ao usar o BYOS, o serviço de fala não mantém nenhum artefato do cliente após a conclusão do processamento de dados (transcrição, treinamento de modelo, teste de modelo). No entanto, alguns metadados que não são derivados do conteúdo do usuário são armazenados nas instalações do serviço de Fala. Por exemplo, no cenário de fala personalizada, o Serviço mantém determinadas informações sobre os pontos de extremidade personalizados, como quais modelos eles usam.

A conta de armazenamento associada ao BYOS armazena os seguintes dados:

Nota

Opcional nesta seção significa que é possível, mas não obrigatório, armazenar os artefatos específicos na conta de armazenamento associada ao BYOS. Se necessário, podem ser armazenados noutro local.

Transcrição em lote

  • Fonte de áudio (opcional)
  • Resultados da transcrição em lote

Transcrição em tempo real com registro de resultados de áudio e transcrição habilitado

  • Registros de resultados de áudio e transcrição

Fala personalizada

  • Arquivos de origem de conjuntos de dados para treinamento e teste de modelos (opcional)
  • Todos os dados e metadados relacionados a modelos personalizados hospedados pelo recurso de fala habilitado para BYOS (incluindo cópias de conjuntos de dados para treinamento e teste de modelos)

Transcrição em lotes

A transcrição em lote é utilizada para transcrever uma grande quantidade de dados de áudio no armazenamento. Se você não estiver familiarizado com a transcrição em lote, consulte este artigo primeiro.

Execute estas etapas para executar a transcrição em lote com o recurso de fala habilitado para BYOS:

  1. Inicie a transcrição em lote conforme descrito neste guia.

    Importante

    Não use destinationContainerUrl parâmetro em sua solicitação de transcrição. Se você usar o BYOS, os resultados da transcrição serão armazenados automaticamente na conta de armazenamento associada ao BYOS.

    Se você usar destinationContainerUrl o parâmetro, ele funcionará, mas fornecerá significativamente menos segurança para seus dados, devido ao uso ad hoc do SAS. Veja mais detalhes aqui.

  2. Quando a transcrição estiver completa, obtenha os resultados da transcrição de acordo com este guia. Considere o uso de sasValidityInSeconds parâmetros (consulte a seção a seguir).

O serviço de fala usa customspeech-artifacts o contêiner Blob na conta de armazenamento associada ao BYOS para armazenar resultados de transcrição intermediários e finais.

Atenção

O serviço de fala depende de caminhos de contêiner de Blob predefinidos e nomes de arquivo para que o módulo de transcrição em lote funcione corretamente. Não mova, renomeie ou altere de qualquer forma o conteúdo do customspeech-artifacts recipiente.

A falha em fazê-lo muito provavelmente resultará em erros de serviço 4xx e 5xx difíceis de depurar.

Use ferramentas padrão para interagir com a transcrição em lote. Veja os detalhes na seção Transcrição de lote.

Obter resultados de transcrição em lote via API REST

A API REST de fala em texto suporta totalmente os recursos de fala habilitados para BYOS. No entanto, como os dados agora são armazenados na conta de armazenamento habilitada para BYOS, solicitações como Obter arquivos de transcrição interagem com o armazenamento de Blob da conta de armazenamento associado ao BYOS, em vez de recursos internos do serviço de fala. Ele permite usar o mesmo código baseado em API REST para recursos de fala "regulares" e habilitados para BYOS.

Para máxima segurança, use o sasValidityInSeconds parâmetro com o valor definido como 0 nas solicitações, que retornam URLs de arquivos de dados, como a solicitação Obter arquivos de transcrição. Eis um exemplo de URL de pedido:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas de conta de armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função Leitor de Dados de Blob de Armazenamento ) possam acessar os dados da URL.

Aviso

Se sasValidityInSeconds o parâmetro for omitido na solicitação Get Transcription Files ou similares, uma SAS de delegação de usuário com a validade de 5 dias será gerada para cada URL de arquivo de dados retornado. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do seu recurso de fala habilitado para BYOS. Por causa disso, o SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desativado. Veja mais detalhes aqui.

Transcrição em tempo real com registro de resultados de áudio e transcrição habilitado

Você pode habilitar o registro em log para entrada de áudio e fala reconhecida ao usar a conversão de fala para texto ou fala. Veja a descrição completa neste artigo.

Se você usar BYOS, encontrará os logs no customspeech-audiologs contêiner Blob na conta de armazenamento associada ao BYOS.

Aviso

Os dados de registo são mantidos durante 5 dias. Após esse período, os logs são excluídos automaticamente. Isso também é válido para recursos de fala habilitados para BYOS. Se você quiser manter os logs por mais tempo, copie os arquivos e pastas correspondentes do contêiner Blob customspeech-audiologs diretamente ou use a API REST.

Obtenha logs de transcrição em tempo real via API REST

A API REST de fala em texto suporta totalmente os recursos de fala habilitados para BYOS. No entanto, como os dados agora são armazenados na conta de armazenamento habilitada para BYOS, solicitações como Obter logs de modelo básico interagem com o armazenamento de Blob da conta de armazenamento associado ao BYOS, em vez de recursos internos do serviço de fala. Ele permite usar o mesmo código baseado em API REST para recursos de fala "regulares" e habilitados para BYOS.

Para máxima segurança, use o sasValidityInSeconds parâmetro com o valor definido como 0 nas solicitações, que retornam URLs de arquivos de dados, como a solicitação Get Base Model Logs . Eis um exemplo de URL de pedido:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas de conta de armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função Leitor de Dados de Blob de Armazenamento ) possam acessar os dados da URL.

Aviso

Se sasValidityInSeconds o parâmetro for omitido na solicitação Get Base Model Logs ou similares, uma SAS de delegação de usuário com a validade de 5 dias será gerada para cada URL de arquivo de dados retornado. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do seu recurso de fala habilitado para BYOS. Por causa disso, o SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desativado. Veja mais detalhes aqui.

Fala personalizada

Com a fala personalizada, você pode avaliar e melhorar a precisão do reconhecimento de fala para seus aplicativos e produtos. Um modelo de fala personalizado pode ser usado para conversão de fala em texto em tempo real, tradução de fala e transcrição em lote. Para obter mais informações, consulte a visão geral de fala personalizada.

Não há nada específico sobre como você usa a fala personalizada com o recurso de fala habilitado para BYOS. A única diferença é onde todos os dados relacionados ao modelo personalizado, que o serviço de fala coleta e produz para você, são armazenados. Os dados são armazenados nos seguintes contêineres de Blob da conta de armazenamento associada ao BYOS:

  • customspeech-models - Localização de modelos de fala personalizados
  • customspeech-artifacts - Localização de todos os outros dados personalizados relacionados à fala

A estrutura do contêiner Blob é fornecida apenas para suas informações e está sujeita a alterações sem aviso prévio.

Atenção

O serviço de fala depende de caminhos de contêiner de Blob predefinidos e nomes de arquivo para que o módulo de fala personalizado funcione corretamente. Não mova, renomeie ou altere de qualquer forma o conteúdo do customspeech-models contêiner e as pastas customspeech-artifacts de contêiner relacionadas à fala personalizada.

A falha em fazê-lo muito provavelmente resultará em erros difíceis de depurar e pode levar à necessidade de retreinamento do modelo personalizado.

Use ferramentas padrão, como a API REST e o Speech Studio para interagir com os dados personalizados relacionados à fala. Veja os detalhes na seção de fala personalizada.

Uso da API REST com fala personalizada

A API REST de fala em texto suporta totalmente os recursos de fala habilitados para BYOS. No entanto, como os dados agora são armazenados na conta de armazenamento habilitada para BYOS, solicitações como Datasets_ListFiles interagem com o armazenamento de Blob da conta de armazenamento associado ao BYOS, em vez de recursos internos do serviço de fala. Ele permite usar o mesmo código baseado em API REST para recursos de fala "regulares" e habilitados para BYOS.

Para máxima segurança, use o sasValidityInSeconds parâmetro com o valor definido como 0 nas solicitações, que retornam URLs de arquivos de dados, como a solicitação Get Dataset Files . Eis um exemplo de URL de pedido:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Essa solicitação retorna URLs diretas de conta de armazenamento para arquivos de dados (sem SAS ou outras adições). Por exemplo:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

A URL desse formato garante que apenas as identidades do Microsoft Entra (usuários, entidades de serviço, identidades gerenciadas) com direitos de acesso suficientes (como a função Leitor de Dados de Blob de Armazenamento ) possam acessar os dados da URL.

Aviso

Se sasValidityInSeconds o parâmetro for omitido na solicitação Get Dataset Files ou similares, uma SAS de delegação de usuário com a validade de 5 dias será gerada para cada URL de arquivo de dados retornado. Essa SAS é assinada pela identidade gerenciada atribuída pelo sistema do seu recurso de fala habilitado para BYOS. Por causa disso, o SAS permite o acesso aos dados, mesmo que o acesso à chave da conta de armazenamento esteja desativado. Veja mais detalhes aqui.

Próximos passos