Partilhar via


Filtragem de dados de tradução personalizada do Azure AI Foundry

Quando você envia documentos para serem usados em treinamento, os documentos passam por uma série de etapas de processamento e filtragem. Estes passos são explicados aqui. O conhecimento da filtragem pode ajudá-lo a entender a contagem de frases exibida na tradução personalizada e as etapas que você mesmo pode tomar para preparar os documentos para treinamento com tradução personalizada.

Alinhamento de frases

Se o documento não estiver no formato XLIFF TMXou ALIGN , a tradução personalizada alinha as frases dos documentos de origem e de destino entre si, frase por frase. A tradução personalizada não realiza o alinhamento de documentos – segue a designação dos documentos para encontrar o documento correspondente na outra língua. Dentro do documento, a tradução personalizada tenta encontrar a frase correspondente no outro idioma. Ele usa marcação de documento como tags HTML incorporadas para ajudar com o alinhamento.

Se você vir uma grande discrepância entre o número de frases nos documentos de origem e de destino, seus documentos não poderão ser paralelos. O documento emparelhado com uma grande diferença (>10%) de frases de cada lado justifica uma segunda olhada para se certificar de que elas são realmente paralelas. A tradução personalizada mostra um aviso ao lado do documento se a contagem de frases for diferente de forma suspeita.

Deduplicação

A tradução personalizada remove as frases presentes nos documentos de teste e ajuste dos dados de treinamento. A remoção acontece dinamicamente dentro da corrida de treinamento, não na etapa de processamento de dados. A tradução personalizada informa-lhe sobre a contagem de sentenças na visão geral do projeto antes dessa remoção. A desduplicação não se aplica se você optar por carregar seus próprios documentos de teste e ajuste.

Filtro de comprimento

  • Remova frases com apenas uma palavra de cada lado.
  • Remova frases com mais de 100 palavras de cada lado.  Chineses, japoneses e coreanos estão isentos.
  • Remova frases com menos de três caracteres. Chineses, japoneses e coreanos estão isentos.
  • Remova frases com mais de 2.000 caracteres para chinês, japonês e coreano.
  • Remova frases com menos de 1% de caracteres alfa.
  • Remova as entradas do dicionário que contenham mais de 50 palavras.

Espaço em branco

  • Substitua qualquer sequência de caracteres de espaço em branco, incluindo tabulações e sequências CR/LF, por um único caractere de espaço.
  • Remover espaço à esquerda ou à direita na frase

Pontuação final da frase

Substitua vários caracteres de pontuação de fim de frase por uma única ocorrência.

Normalização de caracteres japoneses

Converta letras e dígitos de largura total em caracteres de meia largura.

Tags XML sem escape

A filtragem transforma tags sem escape em tags com escape:

  • < torna-se <
  • > torna-se >
  • & torna-se &

Caracteres inválidos

A tradução personalizada remove frases que contêm o caractere Unicode U+FFFD. O caráter U+FFFD indica uma conversão de codificação com falha.

Próximos passos