Personalizar um modelo de fala

Artigo
07/26/2024

Importante

O prazo para migrar o conteúdo do Azure Video Indexer devido à desativação dos Serviços de Mídia do Azure já passou. Consulte o guia de desativação para obter mais informações.

Observação

A personalização do modelo de fala, incluindo o treinamento de pronúncia, só tem suporte em contas de avaliação do Azure do Video Indexer e contas do Resource Manager. Não há suporte em contas clássicas. Para obter diretrizes sobre como atualizar seu tipo de conta sem custo, consulte Atualizar sua conta do Azure AI Video Indexer. Para obter diretrizes sobre como usar a experiência de linguagem personalizada, consulte Personalizar um modelo de linguagem.

O Azure AI Video Indexer permite criar modelos de fala personalizados para personalizar o reconhecimento de fala carregando conjuntos de dados que são usados para criar um modelo de fala. Este artigo aborda as etapas para fazer isso por meio do site do Video Indexer. Você também pode usar a API, conforme descrito em Personalizar o modelo de fala usando a API.

Para obter uma visão geral detalhada e as práticas recomendadas para modelos de fala personalizados, consulte Personalizar um modelo de fala com o Azure AI Video Indexer.

Pré-requisitos

Leia o guia de práticas recomendadas de treinamento do modelo de fala.
Uma conta do Azure
Uma conta do Azure AI Video Indexer

Portal da Web
API

Criar um conjunto de dados

Como todos os modelos personalizados devem conter um conjunto de dados, começaremos com o processo de como criar e gerenciar conjuntos de dados.

Selecione o botão Personalização do modelo.
Selecione a guia Fala (nova).
Selecione Carregar conjunto de dados.
Selecione Texto simples ou Pronúncia no menu suspenso Tipo de conjunto de dados. Cada modelo de fala deve ter um conjunto de dados de texto sem formatação e, opcionalmente, pode ter um conjunto de dados de pronúncia.
Selecione Procurar e selecione o arquivo de conjunto de dados. Você pode escolher apenas um.
Selecione um idioma para o modelo. Escolha o idioma falado nos arquivos de mídia que você planeja indexar com esse modelo. O nome do conjunto de dados é preenchido previamente com o nome do arquivo, mas você pode modificar o nome.
Opcionalmente, você pode adicionar uma descrição do conjunto de dados. Isso pode ser útil para distinguir cada conjunto de dados se você espera ter vários conjuntos de dados.
Escolha Carregar. Quando a criação do conjunto de dados estiver concluída, você poderá usá-lo para treinamento e criação de novos modelos.

Revisar e atualizar um conjunto de dados

Você pode exibir um conjunto de dados e suas propriedades:

Clicando no nome do conjunto de dados
Passar o mouse sobre o conjunto de dados
Selecionando as reticências

Em seguida, selecione Exibir conjunto de dados.

Em seguida, você pode exibir o nome, a descrição, o idioma e o status do conjunto de dados, além das seguintes propriedades:

Número de linhas: indica o número de linhas carregadas com sucesso do número total de linhas no arquivo. Se todo o arquivo for carregado com sucesso, os números corresponderão (por exemplo, 10 de 10 normalizados). Se os números não corresponderem (por exemplo, 7 de 10 normalizados), isso significa que apenas algumas das linhas foram carregadas com êxito e o restante teve erros. As causas comuns de erros são problemas de formatação com uma linha, como não espaçar uma tabulação entre cada palavra em um arquivo de pronúncia. Revisar o texto simples e os dados de pronúncia para artigos de treinamento deve ser útil para encontrar o problema. Para solucionar a causa, revise os detalhes do erro, que estão contidos no relatório. Selecione Exibir relatório para exibir os detalhes do erro em relação às linhas que não foram carregadas com êxito (errorKind). Isso também pode ser visualizado selecionando a guia Relatório .

ID do conjunto de dados: cada conjunto de dados tem um GUID exclusivo, que é necessário ao usar a API para operações que fazem referência ao conjunto de dados.

Texto sem formatação (normalizado): contém o texto normalizado do arquivo de conjunto de dados carregado. O texto normalizado é o texto reconhecido em formato simples sem formatação.

Editar detalhes: para editar o nome ou a descrição de um conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione nas reticências e, em seguida, selecione Editar detalhes. Em seguida, você pode editar o nome e a descrição do conjunto de dados.

Observação

Os dados em um conjunto de dados não podem ser editados ou atualizados depois que o conjunto de dados for carregado. Se você precisar editar ou atualizar os dados em um conjunto de dados, baixe o conjunto de dados, execute as edições, salve o arquivo e carregue o novo arquivo de conjunto de dados.

Download: para baixar um arquivo de conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione nas reticências e, em seguida, selecione Baixar. Como alternativa, ao exibir o conjunto de dados, você pode selecionar Baixar e ter a opção de baixar o arquivo do conjunto de dados ou o relatório de upload no formato JSON.

Excluir: para excluir um conjunto de dados, ao passar o mouse sobre o conjunto de dados, selecione nas reticências e, em seguida, selecione Excluir.

Criar um modelo de fala personalizada

Os conjuntos de dados são usados na criação e treinamento de modelos. Depois de criar um conjunto de dados de texto sem formatação, você pode criar e começar a usar um modelo de fala personalizado.

Lembre-se do seguinte ao criar e usar modelos de fala personalizados:

Um novo modelo deve incluir pelo menos um conjunto de dados de texto sem formatação e pode ter vários conjuntos de dados de texto sem formatação.
É opcional incluir um conjunto de dados de pronúncia e não mais do que um pode ser incluído.
Depois que um modelo é criado, você não pode adicionar conjuntos de dados adicionais a ele ou realizar modificações em seus conjuntos de dados. Se você precisar adicionar ou modificar conjuntos de dados, crie um novo modelo.
Se você indexou um vídeo usando um modelo de fala personalizado e, em seguida, excluiu o modelo, a transcrição não será afetada, a menos que você execute uma reindexação.
Se você excluiu um conjunto de dados que foi usado para treinar um modelo personalizado, como o modelo de fala já foi treinado pelo conjunto de dados, ele continuará a usá-lo até que o modelo de fala seja excluído.
Se você excluir um modelo personalizado, ele não terá impacto na transcrição de vídeos que já foram indexados usando o modelo.

Treinar um modelo

Observação

Depois que um modelo é criado, os conjuntos de dados não podem ser adicionados. Um modelo só pode conter conjuntos de dados da mesma linguagem.

Há duas maneiras de treinar um modelo – por meio da guia do conjunto de dados e da guia do modelo.

Treinar um modelo por meio da guia Conjuntos de dados

Visualize a lista de conjuntos de dados.
Selecione um conjunto de dados de texto sem formatação. O ícone Treinar novo modelo acima pode ser selecionado.
Selecione Treinar novo modelo.
Insira um nome para o modelo, um idioma e, opcionalmente, adicione uma descrição.
Selecione a guia Conjuntos de dados
Selecione os conjuntos de dados que você deseja incluir no modelo.
Selecione Criar e treinar.

Treinar um modelo por meio da guia Modelos

Selecione a guia Modelo.
Selecione o ícone Treinar novo modelo .
Selecione os conjuntos de dados que você deseja que façam parte do modelo.
Insira um nome para o modelo, um idioma e, opcionalmente, adicione uma descrição.
Selecione a guia Conjuntos de Dados.
Selecione os conjuntos de dados que você deseja incluir no modelo.
Selecione Criar e treinar.

Revisar e atualizar um modelo

Exibir modelo: você pode visualizar um modelo e suas propriedades clicando no nome do modelo ou ao passar o mouse sobre o modelo, clicando nas reticências e selecionando Exibir modelo.

Você verá na guia Detalhes o nome, a descrição, o idioma e o status do modelo, além das seguintes propriedades:

ID do modelo: cada modelo tem um GUID exclusivo, que é necessário ao usar a API para operações que fazem referência ao modelo.

Criado em: a data em que o modelo foi criado.

Editar detalhes: Para editar o nome ou a descrição de um modelo, ao passar o mouse sobre o modelo, selecione nas reticências e, em seguida, selecione Editar detalhes. Você pode então editar o nome e a descrição do modelo.

Observação

Somente o nome e a descrição do modelo podem ser editados. Se você quiser fazer alterações em seus conjuntos de dados ou adicionar conjuntos de dados, um novo modelo deverá ser criado.

Excluir: para excluir um modelo, ao passar o mouse sobre o conjunto de dados, selecione nas reticências e, em seguida, selecione Excluir.

Conjuntos de dados incluídos: selecione na guia Conjuntos de dados incluídos para exibir os conjuntos de dados do modelo.

Usar um modelo de linguagem personalizado ao indexar um vídeo

Um modelo de linguagem personalizado não é usado por padrão para trabalhos de indexação, portanto, deve ser selecionado durante o processo de upload do índice.

Durante o processo de upload, selecione a origem do modelo de linguagem personalizada no menu suspenso de linguagem .
Escolha Carregar.

As mesmas etapas se aplicam quando você deseja reindexar um vídeo com um modelo personalizado.

Observação

Veja a seguir uma tabela de descrições de alguns dos parâmetros usados com as solicitações de modelo de fala:

Nome	Digite	Descrição
`displayName`	corda	O nome desejado do conjunto de dados/modelo.
`locale`	corda	O código de idioma do conjunto de dados/modelo. Para obter a lista completa, consulte Suporte a idiomas.
`kind`	Número inteiro	0 para um conjunto de dados de texto simples, 1 para um conjunto de dados de pronúncia.
`description`	corda	Descrição opcional do conjunto de dados/modelo.
`contentUrl`	URI	URL do arquivo de origem usado na criação do conjunto de dados.
`customProperties`	objeto	Propriedades opcionais do conjunto de dados/modelo.

Criar um conjunto de dados de fala

A solicitação Criar Conjunto de Dados de Fala cria um conjunto de dados para treinar um modelo de fala. Carregue um arquivo que é usado para criar um conjunto de dados com essa solicitação. O conteúdo de um conjunto de dados não pode ser modificado depois de criado.

Defina os parâmetros no corpo da solicitação, incluindo uma URL para o arquivo de texto a ser carregado. Os campos de descrição e propriedades personalizadas são opcionais. Este é um exemplo de um corpo de solicitação:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Exemplo de resposta

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Criar um modelo de fala

A solicitação Criar Modelo de Fala cria e treina um modelo de fala personalizado que pode ser usado para melhorar a precisão da transcrição de seus vídeos. Ele deve conter pelo menos um conjunto de dados de texto sem formatação. Opcionalmente, ele pode ter conjuntos de dados de pronúncia. Crie-o com todos os arquivos de conjunto de dados relevantes, pois os conjuntos de dados de um modelo não podem ser adicionados ou atualizados após sua criação.

Defina os parâmetros no corpo da solicitação, incluindo uma lista de cadeias de caracteres que o conjunto de dados ou conjuntos de dados do modelo devem incluir. Os campos de descrição e propriedades personalizadas são opcionais. Este é um exemplo de um corpo de solicitação:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Exemplo de resposta

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obter conjunto de dados de fala

A API Obter Conjunto de Dados de Fala retorna informações sobre o conjunto de dados especificado.

Exemplo de resposta

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obter arquivos de conjuntos de dados de fala

A solicitação Obter Arquivos de Conjunto de Dados de Fala retorna os arquivos e metadados do conjunto de dados especificado.

Exemplo de resposta

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obter os conjuntos de dados de conta especificados

A solicitação Obter Conjuntos de Dados de Fala retorna informações sobre todos os conjuntos de dados de contas especificados.

Exemplo de resposta

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obter o modelo de fala especificado

A API Obter Modelo de Fala retorna informações sobre o modelo especificado.

Exemplo de resposta

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obter os modelos de fala de conta especificados

A API Obter Modelos de Fala retorna informações sobre todos os modelos na conta especificada.

Exemplo de resposta

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Excluir conjunto de dados de fala

A API Excluir Conjunto de Dados de Fala exclui o conjunto de dados especificado. Qualquer modelo que foi treinado com o conjunto de dados excluído continua disponível até que o modelo seja excluído. Você não pode excluir um conjunto de dados enquanto ele estiver em uso para indexação ou treinamento.

Exemplo de resposta

Não há conteúdo retornado quando o conjunto de dados é excluído com êxito.

Excluir um modelo de fala

A API Excluir Modelo de Fala exclui o modelo de fala especificado. Você não pode excluir um modelo enquanto ele estiver em uso para indexação ou treinamento.

Resposta

Não há conteúdo retornado quando o modelo de fala é excluído com êxito.

Compartilhar via

Personalizar um modelo de fala

Pré-requisitos

Criar um conjunto de dados

Revisar e atualizar um conjunto de dados

Criar um modelo de fala personalizada

Treinar um modelo

Treinar um modelo por meio da guia Conjuntos de dados

Treinar um modelo por meio da guia Modelos

Revisar e atualizar um modelo

Usar um modelo de linguagem personalizado ao indexar um vídeo

Criar um conjunto de dados de fala

Exemplo de resposta

Criar um modelo de fala

Exemplo de resposta

Obter conjunto de dados de fala

Exemplo de resposta

Obter arquivos de conjuntos de dados de fala

Exemplo de resposta

Obter os conjuntos de dados de conta especificados

Exemplo de resposta

Obter o modelo de fala especificado

Exemplo de resposta

Obter os modelos de fala de conta especificados

Exemplo de resposta

Excluir conjunto de dados de fala

Exemplo de resposta

Excluir um modelo de fala

Resposta

Comentários

Comentários

Recursos adicionais