Tradutor personalizado para iniciantes

Artigo
01/10/2024

O Tradutor Personalizado permite-lhe criar um sistema de tradução que reflete o seu negócio, indústria e terminologia e estilo específicos do domínio. Treinar e implantar um sistema personalizado é fácil e não requer nenhuma habilidade de programação. O sistema de tradução personalizado integra-se perfeitamente nas suas aplicações, fluxos de trabalho e Web sites existentes e está disponível no Azure através do mesmo serviço de API de Tradução de Texto da Microsoft baseado na nuvem que alimenta milhares de milhões de traduções todos os dias.

A plataforma permite que os usuários criem e publiquem sistemas de tradução personalizados de e para o inglês. O Tradutor Personalizado suporta mais de 60 idiomas que mapeiam diretamente para os idiomas disponíveis para NMT. Para obter uma lista completa, consulteSuporte ao idioma do tradutor.

Um modelo de tradução personalizado é a escolha certa para mim?

Um modelo de tradução personalizado bem treinado fornece traduções específicas de domínio mais precisas porque depende de documentos no domínio traduzidos anteriormente para aprender as traduções preferidas. O tradutor usa esses termos e frases no contexto para produzir traduções fluentes no idioma de destino, respeitando a gramática dependente do contexto.

O treinamento de um modelo de tradução personalizado completo requer uma quantidade substancial de dados. Se você não tiver pelo menos 10.000 frases de documentos previamente treinados, não poderá treinar um modelo de tradução em linguagem completa. No entanto, você pode treinar um modelo somente de dicionário ou usar as traduções prontas para uso de alta qualidade disponíveis com a API de tradução de texto.

Screenshot illustrating the difference between custom and general models.

Em que consiste a formação de um modelo de tradução personalizado?

A criação de um modelo de tradução personalizado requer:

Compreender o seu caso de uso.
Obtenção de dados traduzidos no domínio (preferencialmente traduzidos por humanos).
A capacidade de avaliar a qualidade da tradução ou as traduções na língua de chegada.

Como posso avaliar o meu caso de uso?

Ter clareza sobre seu caso de uso e como é o sucesso é o primeiro passo para obter dados de treinamento proficientes. Aqui estão algumas considerações:

Qual é o resultado desejado e como irá medi-lo?
Qual é o seu domínio de negócio?
Você tem frases no domínio de terminologia e estilo semelhantes?
O seu caso de uso envolve vários domínios? Em caso afirmativo, deve criar um ou vários sistemas de tradução?
Você tem requisitos que afetam a residência de dados regionais em repouso e em trânsito?
Os usuários-alvo estão em uma ou várias regiões?

Como devo obter os meus dados?

Encontrar dados de qualidade no domínio é muitas vezes uma tarefa desafiadora que varia com base na classificação do usuário. Aqui estão algumas perguntas que você pode fazer a si mesmo enquanto avalia quais dados podem estar disponíveis para você:

As empresas dispõem frequentemente de uma grande quantidade de dados de tradução que se acumularam ao longo de muitos anos de utilização da tradução humana. A sua empresa tem disponíveis dados de tradução anteriores que pode utilizar?
Tem uma vasta quantidade de dados monolingues? Dados monolingues são dados em apenas um idioma. Em caso afirmativo, pode obter traduções para estes dados?
Você pode rastrear portais on-line para coletar frases de origem e sintetizar frases de destino?

O que devo usar para o material de formação?

Source	O que faz	Regras a seguir
Documentos de formação bilingues	Ensina ao sistema a sua terminologia e estilo.	Seja liberal. Qualquer tradução humana no domínio é melhor do que a tradução automática. Adicione e remova documentos à medida que avança e tente melhorar a pontuação da BLEU.
Ajustando documentos	Treina os parâmetros da Tradução Automática Neural.	Seja rigoroso. Componha-os para ser perfeitamente representativo do que você vai traduzir no futuro.
Documentos de teste	Calcule a pontuação BLEU.	Seja rigoroso. Componha documentos de teste para ser perfeitamente representativo do que você planeja traduzir no futuro.
Dicionário de frases	Força a tradução dada 100% do tempo.	Seja restritivo. Um dicionário de frases diferencia maiúsculas de minúsculas e qualquer palavra ou frase listada é traduzida da maneira que você especificar. Em muitos casos, é melhor não usar um dicionário de frases e deixar o sistema aprender.
Dicionário de frases	Força a tradução dada 100% do tempo.	Seja rigoroso. Um dicionário de frases não diferencia maiúsculas de minúsculas e é bom para frases curtas de domínio. Para que ocorra uma correspondência de dicionário de frases, toda a frase enviada deve corresponder à entrada do dicionário de origem. Se apenas uma parte da frase corresponder, a entrada não corresponderá.

O que é uma classificação BLEU?

BLEU (Bilingual Evaluation Understudy) é um algoritmo para avaliar a precisão ou exatidão de texto que foi traduzido automaticamente de um idioma para outro. O Custom Translator usa a métrica BLEU como uma forma de transmitir a precisão da tradução.

Uma pontuação BLEU é um número entre zero e 100. Uma pontuação zero indica uma tradução de baixa qualidade em que nada na tradução correspondia à referência. Uma pontuação de 100 indica uma tradução perfeita que é idêntica à referência. Não é necessário atingir uma pontuação de 100 - uma pontuação BLEU entre 40 e 60 indica uma tradução de alta qualidade.

Saiba mais

O que acontece se eu não enviar dados de ajuste ou teste?

O ajuste e as frases de teste são perfeitamente representativos do que você planeja traduzir no futuro. Se você não enviar nenhum dado de ajuste ou teste, o Tradutor Personalizado excluirá automaticamente frases de seus documentos de treinamento para usar como dados de ajuste e teste.

Gerado pelo sistema	Seleção manual
Conveniente.	Permite o ajuste fino para as suas necessidades futuras.
Bom, se você sabe que seus dados de treinamento são representativos do que você está planejando traduzir.	Fornece mais liberdade para compor seus dados de treinamento.
Fácil de refazer quando você cresce ou reduz o domínio.	Permite mais dados e melhor cobertura de domínio.
Muda a cada corrida de treino.	Permanece estático durante repetidas corridas de treinamento

Como o material de treinamento é processado pelo Tradutor Personalizado?

Para se preparar para o treinamento, os documentos passam por uma série de etapas de processamento e filtragem. Estas etapas são explicadas abaixo. O conhecimento do processo de filtragem pode ajudar a entender a contagem de frases exibida, bem como as etapas que você pode seguir para preparar documentos de treinamento para treinamento com o Tradutor Personalizado.

Alinhamento de frases

Se o documento não estiver no formato XLIFF, XLSX, TMX ou ALINHAR, o Tradutor Personalizado alinha as frases dos documentos de origem e de destino entre si, frase por frase. O Translator não realiza o alinhamento de documentos — ele segue sua convenção de nomenclatura para que os documentos encontrem um documento correspondente no outro idioma. No texto de partida, o Tradutor Personalizado tenta encontrar a frase correspondente na língua de chegada. Ele usa marcação de documento como tags HTML incorporadas para ajudar com o alinhamento.

Se você vir uma grande discrepância entre o número de frases nos documentos de origem e de destino, o documento de origem pode não estar paralelo ou não pôde ser alinhado. O documento emparelhado com uma grande diferença (>10%) de frases de cada lado justifica uma segunda olhada para se certificar de que elas são realmente paralelas.
Extraindo dados de ajuste e teste

O ajuste e o teste de dados são opcionais. Se você não fornecê-lo, o sistema removerá uma porcentagem apropriada de seus documentos de treinamento para usar para ajuste e testes. A remoção acontece dinamicamente como parte do processo de treinamento. Como essa etapa ocorre como parte do treinamento, os documentos carregados não são afetados. Você pode ver as contagens finais de frases usadas para cada categoria de dados — treinamento, ajuste, teste e dicionário — na página Detalhes do modelo após o treinamento ter sido bem-sucedido.
Filtro de comprimento
- Remove frases com apenas uma palavra de cada lado.
- Remove frases com mais de 100 palavras de cada lado. Chineses, japoneses e coreanos estão isentos.
- Remove frases com menos de três caracteres. Chineses, japoneses e coreanos estão isentos.
- Remove frases com mais de 2000 caracteres para chinês, japonês, coreano.
- Remove frases com menos de 1% de caracteres alfanuméricos.
- Remove entradas de dicionário contendo mais de 50 palavras.
Espaço em branco
- Substitui qualquer sequência de caracteres de espaço em branco, incluindo tabulações e sequências CR/LF, por um único caractere de espaço.
- Remove o espaço à esquerda ou à direita na frase.
Pontuação final da frase
- Substitui vários caracteres de pontuação de fim de frase por uma única instância. Normalização de caracteres japoneses.
- Converte letras e dígitos de largura total em caracteres de meia largura.
Tags XML sem escape

Transforma tags sem escape em tags com escape:

Etiqueta Torna-se

< e lt;

> e GT;

e e amp;
Caracteres inválidos

O Tradutor Personalizado remove frases que contêm o caractere Unicode U+FFFD. O caráter U+FFFD indica uma conversão de codificação com falha.

Etiqueta	Torna-se
<	e lt;
>	e GT;
e	e amp;

Que passos devo tomar antes de carregar dados?

Remova frases com codificação inválida.
Remova os caracteres de controle Unicode.
Se possível, alinhe as frases (da origem ao alvo).
Remova as frases de origem e de destino que não correspondam aos idiomas de origem e de destino.
Quando as frases de origem e de destino tiverem idiomas mistos, certifique-se de que as palavras não traduzidas são intencionais, por exemplo, nomes de organizações e produtos.
Corrija erros gramaticais e tipográficos para evitar ensinar esses erros ao seu modelo.
Embora nosso processo de treinamento lide com linhas de origem e destino contendo várias frases, é melhor ter uma frase de origem mapeada para uma frase de destino.

Como avalio os resultados?

Depois que seu modelo for treinado com sucesso, você poderá visualizar a pontuação BLEU do modelo e a pontuação BLEU do modelo de linha de base na página de detalhes do modelo. Usamos o mesmo conjunto de dados de teste para gerar a pontuação BLEU do modelo e a pontuação BLEU basal. Esses dados irão ajudá-lo a tomar uma decisão informada sobre qual modelo seria melhor para o seu caso de uso.

Próximos passos

Experimente o nosso Guia de início rápido

Tradutor personalizado para iniciantes

Um modelo de tradução personalizado é a escolha certa para mim?

Em que consiste a formação de um modelo de tradução personalizado?

Como posso avaliar o meu caso de uso?

Como devo obter os meus dados?

O que devo usar para o material de formação?

O que é uma classificação BLEU?

O que acontece se eu não enviar dados de ajuste ou teste?

Como o material de treinamento é processado pelo Tradutor Personalizado?

Alinhamento de frases

Extraindo dados de ajuste e teste

Filtro de comprimento

Espaço em branco

Pontuação final da frase

Tags XML sem escape

Caracteres inválidos

Que passos devo tomar antes de carregar dados?

Como avalio os resultados?

Próximos passos

Recursos adicionais