Partilhar via


Emparelhamento e alinhamento de frases em documentos paralelos

Uma vez carregados os documentos, as frases presentes nos documentos paralelos serão emparelhadas ou alinhadas. O Tradutor Personalizado reporta o número de frases que conseguiu emparelhar como Frases Alinhadas em cada um dos conjuntos de dados.

Processo de emparelhamento e alinhamento

O Tradutor Personalizado aprende traduções de frases uma frase de cada vez. Lê uma frase do texto de partida e, em seguida, a tradução desta frase do texto de chegada. Em seguida, alinha palavras e frases nessas duas frases uma à outra. Este processo permite-lhe criar um mapa das palavras e frases numa frase para as palavras e frases equivalentes na tradução da frase. O alinhamento tenta garantir que o sistema treine frases que são traduções umas das outras.

Documentos pré-alinhados

Se souber que tem documentos paralelos, pode substituir o alinhamento de frases fornecendo ficheiros de texto pré-alinhados. Você pode extrair todas as frases de ambos os documentos em arquivo de texto, organizar uma frase por linha e fazer upload com uma .align extensão. A .align extensão sinaliza ao Tradutor Personalizado que ele deve pular o alinhamento de frases.

Para obter melhores resultados, tente certificar-se de que tem uma frase por linha nos seus ficheiros. Não tenha caracteres de nova linha dentro de uma frase, isso causa alinhamentos ruins.

Número mínimo de frases sugerido

Para que um treinamento seja bem-sucedido, a tabela a seguir mostra o número mínimo de frases necessárias em cada tipo de documento. Essa limitação é uma rede de segurança para garantir que suas frases paralelas contenham vocabulário único suficiente para treinar com sucesso um modelo de tradução. A diretriz geral é ter mais frases paralelas no domínio de qualidade de tradução humana deve produzir modelos de maior qualidade.

Document type Contagem mínima de frases sugerida Contagem máxima de sentenças
Formação 10.000 Sem limite superior
Ajuste 500 2500
Testar 500 2500
Dicionário 0 250 000

Nota

  • O treinamento não começará e será reprovado se a contagem mínima de 10.000 sentenças para o treinamento não for cumprida.
  • O ajuste e os testes são opcionais. Se você não fornecê-los, o sistema removerá uma porcentagem apropriada do treinamento para usar para validação e testes.
  • Você pode treinar um modelo usando apenas dados de dicionário. Consulte O que é dicionário.
  • Se o seu dicionário contiver mais de 250.000 frases, a nossa funcionalidade de Tradução de Documentos é a melhor escolha. Consulte Tradução de documentos.
  • O treinamento de assinatura gratuito (F0) tem um limite máximo de 2.000.000 caracteres.

Próximos passos