O que são treinamento e modelagem?
Um modelo é o sistema, que fornece tradução para um par de idiomas específico. O resultado de uma formação bem-sucedida é um modelo. Para treinar um modelo, são necessários três tipos de documentos mutuamente exclusivos: treinamento, ajuste e teste. O tipo de documento do dicionário também pode ser fornecido. Para obter mais informações, consulte Alinhamento de frases.
Se apenas os dados de treinamento forem fornecidos durante a fila de um treinamento, o Tradutor Personalizado montará automaticamente os dados de ajuste e teste. Ele usa um subconjunto aleatório de frases de seus documentos de treinamento e exclui essas frases dos próprios dados de treinamento.
Tipo de documento de treinamento para o Tradutor Personalizado
Os documentos incluídos no conjunto de treinamento são usados pelo Tradutor Personalizado como base para construir seu modelo. Durante a execução do treinamento, as sentenças presentes nesses documentos são alinhadas (ou emparelhadas). Você pode tomar liberdades na composição de seu conjunto de documentos de treinamento. Você pode incluir documentos que acredita serem de relevância tangencial em um modelo. Novamente, exclua-os em outro para ver o impacto na pontuação BLEU (Bilingual Evaluation Understudy). Contanto que você mantenha o conjunto de ajuste e o conjunto de teste constantes, sinta-se à vontade para experimentar a composição do conjunto de treinamento. Esta abordagem é uma forma eficaz de modificar a qualidade do seu sistema de tradução.
Você pode executar vários treinamentos dentro de um projeto e comparar as pontuações da BLEU em todas as execuções de treinamento. Quando você estiver executando vários treinamentos para comparação, certifique-se de que os mesmos dados de ajuste/teste sejam especificados a cada vez. Certifique-se também de inspecionar os resultados manualmente na guia "Teste ".
Ajustando o tipo de documento para o Tradutor Personalizado
Os documentos paralelos incluídos neste conjunto são utilizados pelo Tradutor Personalizado para ajustar o sistema de tradução para obter os melhores resultados.
Os dados de afinação são utilizados durante o treino para ajustar todos os parâmetros e pesos do sistema de tradução aos valores ideais. Escolha cuidadosamente os seus dados de afinação: os dados de afinação devem ser representativos do conteúdo dos documentos que pretende traduzir no futuro. Os dados de afinação têm uma grande influência na qualidade das traduções produzidas. O ajuste permite que o sistema de tradução forneça traduções mais próximas das amostras fornecidas nos dados de ajuste. Você não precisa de mais de 2.500 frases em seus dados de ajuste. Para uma qualidade de tradução ideal, recomendamos selecionar o conjunto de afinação manualmente, escolhendo a seleção mais representativa de frases.
Ao criar seu conjunto de ajustes, escolha frases que sejam um comprimento significativo e representativo das frases futuras que você espera traduzir. Escolha frases que tenham palavras e frases que você pretende traduzir na distribuição aproximada que você espera em suas futuras traduções. Na prática, uma frase de 7 a 10 palavras produz os melhores resultados. Estas frases contêm contexto suficiente para mostrar a inflexão e fornecer um comprimento de frase que é significativo, sem ser excessivamente complexo.
Uma boa descrição do tipo de frases a serem usadas no conjunto de afinação é a prosa: frases fluentes reais. Nem células de tabela, nem poemas, nem listas de coisas, nem apenas pontuação, nem números numa frase - linguagem normal.
Se você selecionar manualmente seus dados de ajuste, eles não deverão ter nenhuma das mesmas frases que seus dados de treinamento e teste. Os dados de afinação têm um impacto significativo na qualidade das traduções - escolha cuidadosamente as frases.
Se você não tiver certeza do que escolher para seus dados de ajuste, basta selecionar os dados de treinamento e permitir que o Tradutor Personalizado selecione os dados de ajuste para você. Quando você permite que o Tradutor Personalizado escolha os dados de ajuste automaticamente, ele usa um subconjunto aleatório de frases de seus documentos de treinamento bilíngue e exclui essas frases do próprio material de treinamento.
Testando o conjunto de dados para o Tradutor Personalizado
Documentos paralelos incluídos no conjunto de testes são usados para calcular a pontuação BLEU (Bilingual Evaluation Understudy). Esta pontuação indica a qualidade do seu sistema de tradução. Na verdade, essa pontuação informa até que ponto as traduções feitas pelo sistema de tradução resultantes desse treinamento correspondem às frases de referência no conjunto de dados do teste.
A pontuação BLEU é uma medida do delta entre a tradução automática e a tradução de referência. Seu valor varia de 0 a 100. Uma pontuação de 0 indica que nem uma única palavra da referência aparece na tradução. Uma pontuação de 100 indica que a tradução automática corresponde exatamente à referência: a mesma palavra está exatamente na mesma posição. A pontuação que você recebe é a média da pontuação BLEU para todas as frases dos dados do teste.
Os dados de teste devem incluir documentos paralelos em que as frases na língua de chegada são as traduções mais desejáveis das frases correspondentes na língua de partida no par fonte-alvo. Você pode usar os mesmos critérios usados para compor os dados de ajuste. No entanto, os dados de teste não têm influência sobre a qualidade do sistema de tradução e são usados exclusivamente para gerar a pontuação BLEU para você.
Você não precisa de mais de 2.500 frases como dados de teste. Quando você permite que o sistema escolha o conjunto de testes automaticamente, ele usa um subconjunto aleatório de frases de seus documentos de treinamento bilíngues e exclui essas frases do próprio material de treinamento.
Você pode exibir as traduções personalizadas do conjunto de testes e compará-las com as traduções fornecidas em seu conjunto de testes, navegando até a guia de teste dentro de um modelo.