Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Quando você envia documentos para serem usados em treinamento, os documentos passam por uma série de etapas de processamento e filtragem. Estes passos são explicados aqui. O conhecimento da filtragem pode ajudá-lo a entender a contagem de frases exibida na tradução personalizada e as etapas que você mesmo pode tomar para preparar os documentos para treinamento com tradução personalizada.
Alinhamento de frases
Se o documento não estiver no formato XLIFF TMX
ou ALIGN , a tradução personalizada alinha as frases dos documentos de origem e de destino entre si, frase por frase. A tradução personalizada não realiza o alinhamento de documentos – segue a designação dos documentos para encontrar o documento correspondente na outra língua. Dentro do documento, a tradução personalizada tenta encontrar a frase correspondente no outro idioma. Ele usa marcação de documento como tags HTML incorporadas para ajudar com o alinhamento.
Se você vir uma grande discrepância entre o número de frases nos documentos de origem e de destino, seus documentos não poderão ser paralelos. O documento emparelhado com uma grande diferença (>10%) de frases de cada lado justifica uma segunda olhada para se certificar de que elas são realmente paralelas. A tradução personalizada mostra um aviso ao lado do documento se a contagem de frases for diferente de forma suspeita.
Deduplicação
A tradução personalizada remove as frases presentes nos documentos de teste e ajuste dos dados de treinamento. A remoção acontece dinamicamente dentro da corrida de treinamento, não na etapa de processamento de dados. A tradução personalizada informa-lhe sobre a contagem de sentenças na visão geral do projeto antes dessa remoção. A desduplicação não se aplica se você optar por carregar seus próprios documentos de teste e ajuste.
Filtro de comprimento
- Remova frases com apenas uma palavra de cada lado.
- Remova frases com mais de 100 palavras de cada lado. Chineses, japoneses e coreanos estão isentos.
- Remova frases com menos de três caracteres. Chineses, japoneses e coreanos estão isentos.
- Remova frases com mais de 2.000 caracteres para chinês, japonês e coreano.
- Remova frases com menos de 1% de caracteres alfa.
- Remova as entradas do dicionário que contenham mais de 50 palavras.
Espaço em branco
- Substitua qualquer sequência de caracteres de espaço em branco, incluindo tabulações e sequências CR/LF, por um único caractere de espaço.
- Remover espaço à esquerda ou à direita na frase
Pontuação final da frase
Substitua vários caracteres de pontuação de fim de frase por uma única ocorrência.
Normalização de caracteres japoneses
Converta letras e dígitos de largura total em caracteres de meia largura.
Tags XML sem escape
A filtragem transforma tags sem escape em tags com escape:
-
<
torna-se&lt;
-
>
torna-se&gt;
-
&
torna-se&amp;
Caracteres inválidos
A tradução personalizada remove frases que contêm o caractere Unicode U+FFFD. O caráter U+FFFD indica uma conversão de codificação com falha.