O que são treinamento e modelagem?

Artigo
07/20/2023

Um modelo é o sistema, que fornece tradução para um par de idiomas específico. O resultado de um treinamento bem sucedido é um modelo. Para treinar um modelo, são necessários três tipos de documentos mutuamente exclusivos: treinamento, ajuste e teste. O tipo de documento de dicionário também pode ser fornecido. Para obter mais informações, confiraAlinhamento de sentenças.

Se apenas os dados de treinamento forem fornecidos ao enfileirar um treinamento, o Tradutor Personalizado montará automaticamente os dados de ajuste e teste. Ele usará um subconjunto aleatório de frases de seus documentos de treinamento e excluirá essas frases dos dados de treinamento.

Tipo de documento de treinamento para o Tradutor Personalizado

Os documentos incluídos no conjunto de treinamento são usados pelo Custom Translator como base para a construção do seu modelo. Durante a execução do treinamento, as frases presentes nesses documentos são alinhadas (ou emparelhadas). Você pode tomar liberdades ao compor seu conjunto de documentos de treinamento. Você pode incluir documentos que você acredita serem de relevância tangencial em um modelo. Novamente, exclua-os em outro para ver o impacto na pontuação BLEU (Undergraduate Bilingual Evaluation Understudy). Contanto que você mantenha o conjunto de ajustes e o conjunto de testes constantes, fique à vontade para experimentar a composição do conjunto de treinamento. Essa abordagem é uma maneira eficaz de modificar a qualidade do seu sistema de tradução.

Você pode executar vários treinamentos em um projeto e comparar os escores BLEU em todas as execuções de treinamento. Quando você estiver executando vários treinamentos para comparação, sempre verifique se os mesmos dados de ajuste/teste estão especificados. Além disso, inspecione também os resultados manualmente na guia "Teste".

Ajustes no tipo de documento para o Tradutor Personalizado

Documentos paralelos incluídos neste conjunto são usados pelo Custom Translator para ajustar o sistema de tradução para obter os melhores resultados.

Os dados de ajuste são usados durante o treinamento para ajustar todos os parâmetros e pesos do sistema de tradução para os valores ideais. Escolha seus dados de ajustes com cuidado: os dados de ajustes devem representar o conteúdo dos documentos que você pretende traduzir no futuro. Os dados de ajuste têm uma grande influência na qualidade das traduções produzidas. O ajuste permite que o sistema de tradução forneça traduções mais próximas das amostras fornecidas nos dados de ajuste. Não é necessário ter mais do que 2500 frases nos dados de ajuste. Para otimizar a qualidade da tradução, recomenda-se selecionar o conjunto de ajustes manualmente escolhendo a seleção de frases mais representativa.

Ao criar seu conjunto de ajustes, escolha frases que sejam um comprimento significativo e representativo das futuras frases que você espera traduzir. Escolha sentenças que tenham palavras e frases que você pretende traduzir com a distribuição aproximada que você espera nas suas futuras traduções. Na prática, uma frase contendo de sete a dez palavras produzirá os melhores resultados. Essas frases contêm contexto suficiente para demonstrar inflexão e apresentam um comprimento de frase significativo, sem ser tão complexo.

Uma boa descrição do tipo de frases para usar no conjunto de ajuste é a prosa: frases fluentes reais. Não células de tabela, não poemas, não listas de coisas, não apenas pontuação, ou números em uma frase - linguagem regular.

Se você selecionar manualmente os dados de ajuste, eles não deverão conter as mesmas frases que estão nos dados de treinamento e teste. Os dados de ajuste causam um grande impacto na qualidade das traduções. Escolha cuidadosamente as frases.

Se você não tiver certeza do que escolher como dados de ajustes, basta selecionar os dados de treinamento e deixar que o Tradutor Personalizado selecione os dados de ajustes. Quando você deixa o Tradutor Personalizado escolher os dados de ajustes automaticamente, ele usa um subconjunto aleatório de frases contidas nos seus documentos de treinamento bilíngue e exclui essas frases do próprio material de treinamento.

Conjunto de dados de teste para o conversor personalizado

Documentos paralelos incluídos no conjunto de testes são usados para calcular a pontuação do BLEU (Bilingual Evaluation Understudy). Esta pontuação indica a qualidade do seu sistema de tradução. Essa pontuação realmente informa o quanto as traduções feitas pelo sistema de tradução resultante desse treinamento correspondem às sentenças de referência no conjunto de dados de teste.

A pontuação da BLEU é uma medida do delta entre a tradução automática e a tradução de referência. Seu valor varia de 0 a 100. Uma pontuação de 0 indica que nem uma única palavra da referência aparece na tradução. Uma pontuação de 100 indica que a tradução automática corresponde exatamente à referência: a mesma palavra está exatamente na mesma posição. A pontuação que você recebe é a média da pontuação da BLEU para todas as sentenças dos dados de testes.

Os dados de testes devem incluir documentos paralelos em que as sentenças do idioma de destino são as traduções mais desejáveis das sentenças do idioma de origem, correspondentes no par origem-destino. Você pode usar os mesmos critérios usados para compor os dados de ajuste. No entanto, os dados de testes não influenciam a qualidade do sistema de tradução. Ele é usado exclusivamente para gerar a pontuação do BLEU para você.

Não é necessário ter mais do que 2.500 sentenças nos dados de teste. Quando você permite que o sistema escolha o conjunto de testes automaticamente, ele usará um subconjunto aleatório de sentenças de seus documentos de treinamento bilíngue e excluirá essas frases do próprio material de treinamento.

Você pode visualizar as traduções personalizadas do conjunto de testes e compará-las às traduções fornecidas em seu conjunto de testes, navegando até a guia teste em um modelo.

Próximas etapas

Testar e avaliar seu modelo

Compartilhar via