Filtragem de dados de tradução personalizada do Azure AI Foundry

2025-05-20

Quando você envia documentos para serem usados em treinamento, os documentos passam por uma série de etapas de processamento e filtragem. Estes passos são explicados aqui. O conhecimento da filtragem pode ajudá-lo a entender a contagem de frases exibida na tradução personalizada e as etapas que você mesmo pode tomar para preparar os documentos para treinamento com tradução personalizada.

Alinhamento de frases

Se o documento não estiver no formato XLIFF TMXou ALIGN , a tradução personalizada alinha as frases dos documentos de origem e de destino entre si, frase por frase. A tradução personalizada não realiza o alinhamento de documentos – segue a designação dos documentos para encontrar o documento correspondente na outra língua. Dentro do documento, a tradução personalizada tenta encontrar a frase correspondente no outro idioma. Ele usa marcação de documento como tags HTML incorporadas para ajudar com o alinhamento.

Se você vir uma grande discrepância entre o número de frases nos documentos de origem e de destino, seus documentos não poderão ser paralelos. O documento emparelhado com uma grande diferença (>10%) de frases de cada lado justifica uma segunda olhada para se certificar de que elas são realmente paralelas. A tradução personalizada mostra um aviso ao lado do documento se a contagem de frases for diferente de forma suspeita.

Deduplicação

A tradução personalizada remove as frases presentes nos documentos de teste e ajuste dos dados de treinamento. A remoção acontece dinamicamente dentro da corrida de treinamento, não na etapa de processamento de dados. A tradução personalizada informa-lhe sobre a contagem de sentenças na visão geral do projeto antes dessa remoção. A desduplicação não se aplica se você optar por carregar seus próprios documentos de teste e ajuste.

Filtro de comprimento

Remova frases com apenas uma palavra de cada lado.
Remova frases com mais de 100 palavras de cada lado.  Chineses, japoneses e coreanos estão isentos.
Remova frases com menos de três caracteres. Chineses, japoneses e coreanos estão isentos.
Remova frases com mais de 2.000 caracteres para chinês, japonês e coreano.
Remova frases com menos de 1% de caracteres alfa.
Remova as entradas do dicionário que contenham mais de 50 palavras.

Espaço em branco

Substitua qualquer sequência de caracteres de espaço em branco, incluindo tabulações e sequências CR/LF, por um único caractere de espaço.
Remover espaço à esquerda ou à direita na frase

Pontuação final da frase

Substitua vários caracteres de pontuação de fim de frase por uma única ocorrência.

Normalização de caracteres japoneses

Converta letras e dígitos de largura total em caracteres de meia largura.

Tags XML sem escape

A filtragem transforma tags sem escape em tags com escape:

< torna-se &lt;
> torna-se &gt;
& torna-se &amp;

Caracteres inválidos

A tradução personalizada remove frases que contêm o caractere Unicode U+FFFD. O caráter U+FFFD indica uma conversão de codificação com falha.

Próximos passos

Saiba como treinar um modelo