Condividi tramite


Abbinamento e allineamento di frasi in documenti paralleli

Dopo il caricamento dei documenti, le frasi presenti in documenti paralleli vengono abbinate o allineate. Custom Translator segnala il numero di frasi che è stato in grado di abbinare come frasi allineate in ogni set di dati.

Processo di abbinamento e allineamento

Custom Translator apprende le traduzioni delle frasi una frase alla volta. Legge una frase dal testo di origine e quindi la traduzione di tale frase dal testo di destinazione. Allinea quindi ogni parola e ogni espressione l'una all'altra in queste due frasi. Questo processo consente di creare un mapping tra le parole e le espressioni contenute in una frase e le parole ed espressioni equivalenti nella traduzione della frase stessa. L'allineamento cerca di assicurare che il training del sistema venga eseguito su frasi che sono traduzioni le une delle altre.

Documenti preallineati

Se si è certi di disporre di documenti paralleli, è possibile saltare il processo di allineamento delle frasi fornendo file di testo preallineati. È possibile estrarre tutte le frasi di entrambi i documenti in un file di testo, organizzato con una frase per riga, e caricarlo con l'estensione .align. L'estensione .align segnala a Custom Translator di saltare il processo di allineamento delle frasi.

Per ottenere risultati ottimali, verificare che i file di testo contengano una frase per riga. La presenza di caratteri di nuova riga in una frase causerà problemi di allineamento.

Numero minimo consigliato di frasi

La tabella seguente mostra il numero minimo di frasi necessarie in ogni tipo di documento affinché un training abbia esito positivo. Questa limitazione è una rete di sicurezza per garantire che le frasi parallele contengano un vocabolario univoco sufficiente per eseguire correttamente il training di un modello di traduzione. Le linee guida generali indicano che la presenza di più frasi parallele nel dominio della qualità della traduzione umana dovrebbero produrre modelli di qualità superiore.

Tipo di documento Numero minimo consigliato di frasi Numero massimo di frasi
Formazione 10,000 Nessun limite massimo
Ottimizzazione 500 2500
Test in corso 500 2500
Dizionario 0 250.000

Nota

  • Il training non verrà avviato e avrà esito negativo se non viene raggiunto il numero minimo di 10.000 frasi per training.
  • I documenti di ottimizzazione e test sono facoltativi. Se non vengono forniti, il sistema rimuoverà una percentuale appropriata dal training da usare per la convalida e il test.
  • È possibile eseguire il training su un modello utilizzando solo i dati del dizionario. Fare riferimento a Che cos'è un dizionario.
  • Se il dizionario contiene più di 250.000 frasi, la funzionalità Traduzione di documenti è una scelta migliore. Vedere Traduzione di documenti.
  • Il training gratuito (F0) per le sottoscrizioni prevede un limite massimo di 2.000.000 caratteri.

Passaggi successivi