Partilhar via


O que são a preparação e modelação?

Um modelo é o sistema, que fornece tradução para um par de idiomas específico. O resultado de uma preparação bem-sucedida é um modelo. Para preparar um modelo, são necessários três tipos de documento mutuamente exclusivos: preparação, otimização e teste. O tipo de documento do dicionário também pode ser fornecido. Para obter mais informações, vejaAlinhamento de frases.

Se apenas forem fornecidos dados de preparação durante a colocação em fila de preparação, o Tradutor Personalizado irá montar automaticamente dados de otimização e teste. Utilizará um subconjunto aleatório de frases dos seus documentos de formação e excluirá estas frases dos próprios dados de preparação.

Tipo de documento de formação para o Tradutor Personalizado

Os documentos incluídos no conjunto de preparação são utilizados pelo Tradutor Personalizado como base para a criação do modelo. Durante a execução da preparação, as frases presentes nestes documentos são alinhadas (ou emparelhadas). Pode tomar liberdades ao compor o seu conjunto de documentos de formação. Pode incluir documentos que acredita serem de relevância tangencial num modelo. Exclua-os novamente noutro para ver o impacto na classificação BLEU (Substudy de Avaliação Bilingue). Desde que mantenha o conjunto de ajuste e a constante do conjunto de testes, não hesite em experimentar a composição do conjunto de preparação. Esta abordagem é uma forma eficaz de modificar a qualidade do seu sistema de tradução.

Pode executar várias preparações num projeto e comparar as pontuações BLEU em todas as execuções de preparação. Quando estiver a executar várias preparações para comparação, certifique-se de que são especificados sempre os mesmos dados de ajuste/teste. Certifique-se também de que inspeciona os resultados manualmente no separador "Teste ".

Otimizar o tipo de documento para o Tradutor Personalizado

Os documentos paralelos incluídos neste conjunto são utilizados pelo Tradutor Personalizado para otimizar o sistema de tradução para obter resultados ideais.

Os dados de otimização são utilizados durante a preparação para ajustar todos os parâmetros e pesos do sistema de tradução aos valores ideais. Escolha cuidadosamente os seus dados de otimização: os dados de otimização devem ser representativos do conteúdo dos documentos que pretende traduzir no futuro. Os dados de otimização têm uma grande influência na qualidade das traduções produzidas. A otimização permite que o sistema de tradução forneça traduções mais próximas dos exemplos fornecidos nos dados de otimização. Não precisa de mais de 2500 frases nos seus dados de otimização. Para uma qualidade de tradução ideal, recomendamos que selecione o conjunto de otimização manualmente ao selecionar a seleção de frases mais representativa.

Ao criar o seu conjunto de otimização, selecione frases com um comprimento significativo e representativo das frases futuras que espera traduzir. Selecione frases que tenham palavras e expressões que pretenda traduzir na distribuição aproximada esperada nas suas traduções futuras. Na prática, um comprimento de frase de 7 a 10 palavras produzirá os melhores resultados. Estas frases contêm contexto suficiente para mostrar a inflexão e fornecer um comprimento de expressão significativo, sem ser excessivamente complexo.

Uma boa descrição do tipo de frases a utilizar no conjunto de ajuste é prosa: frases fluentes reais. Não células de tabela, não poemas, não listas de coisas, não só pontuação, ou números numa frase - linguagem regular.

Se selecionar manualmente os seus dados de otimização, não deverá ter nenhuma das mesmas frases que os seus dados de preparação e teste. Os dados de otimização têm um impacto significativo na qualidade das traduções - escolha as frases cuidadosamente.

Se não tiver a certeza do que escolher para os seus dados de otimização, basta selecionar os dados de preparação e permitir que o Tradutor Personalizado selecione os dados de otimização automaticamente. Quando permite que o Tradutor Personalizado escolha automaticamente os dados de otimização, este utilizará um subconjunto aleatório de frases dos seus documentos de preparação bilingue e excluirá estas frases do próprio material de preparação.

Testar o conjunto de dados para o Tradutor Personalizado

Os documentos paralelos incluídos no conjunto de testes são utilizados para calcular a classificação BLEU (Substudy de Avaliação Bilingue). Esta classificação indica a qualidade do seu sistema de tradução. Esta classificação indica-lhe o quanto as traduções realizadas pelo sistema de tradução resultantes desta preparação correspondem às frases de referência no conjunto de dados de teste.

A classificação BLEU é uma medida do delta entre a tradução automática e a tradução de referência. O respetivo valor varia entre 0 e 100. Uma classificação de 0 indica que nem uma única palavra da referência aparece na tradução. Uma classificação de 100 indica que a tradução automática corresponde exatamente à referência: a mesma palavra está exatamente na mesma posição. A classificação que recebe é a média de classificação BLEU para todas as frases dos dados de teste.

Os dados de teste devem incluir documentos paralelos em que as frases de idioma de destino são as traduções mais desejáveis das frases de idioma de origem correspondentes no par de destino de origem. Poderá querer utilizar os mesmos critérios que utilizou para compor os dados de otimização. No entanto, os dados de teste não têm qualquer influência sobre a qualidade do sistema de tradução. É utilizado exclusivamente para gerar a classificação BLEU automaticamente.

Não precisa de mais de 2500 frases como dados de teste. Quando permite que o sistema escolha o conjunto de testes automaticamente, este utilizará um subconjunto aleatório de frases dos seus documentos de preparação bilingue e excluirá estas frases do próprio material de preparação.

Pode ver as traduções personalizadas do conjunto de testes e compará-las com as traduções fornecidas no conjunto de testes ao navegar para o separador de teste dentro de um modelo.

Passos Seguintes