Termini chiave di Traduttore personalizzato
La tabella seguente presenta un elenco di termini chiave che è possibile trovare quando si lavora con Custom Translator.
Termine o locuzione | Definizione |
---|---|
Lingua di origine | La lingua di origine è la lingua iniziale che si desidera convertire in un'altra lingua (la "destinazione"). |
Lingua di destinazione | La lingua di destinazione è quella che si vuole che restituisca il sistema di traduzione automatica dopo che ha ricevuto la lingua di origine. |
File monolingue | Un file monolingue contiene una sola lingua e non è associato a un altro file in una lingua diversa. |
File paralleli | Un file parallelo è una combinazione dei due file con testo corrispondente. Uno dei file contiene la lingua di origine e l'altro contiene la lingua di destinazione. |
Allineamento di frasi | Un set di dati paralleli deve includere frasi allineate che rappresentano lo stesso testo in due lingue. Ad esempio, in un file parallelo di origine la prima frase deve corrispondere teoricamente alla prima frase nel file parallelo di destinazione. |
Testo allineato | Uno dei passaggi più importanti della convalida dei file è l'allineamento delle frasi nei documenti paralleli. I concetti vengono espressi in modo diverso in diverse lingue. Le varie lingue presentano inoltre un diverso ordine delle parole. Questo procedura esegue l'allineamento delle frasi con lo stesso contenuto in modo che possano essere utilizzate per il training. Un basso livello di allineamento delle frasi indica che potrebbe essersi verificato un problema con uno o con entrambi i file. |
Separazione/Annullamento della separazione delle parole | La separazione delle parole è la funzione di contrassegnare i limiti tra le parole. Molti sistemi di scrittura usano uno spazio per indicare tale limite. L'annullamento della separazione delle parole indica la rimozione di qualsiasi marcatore visibile che sia stato inserito tra le parole in un passaggio precedente. |
Delimitatori | I delimitatori sono modi per suddividere una frase in segmenti o elementi che delimitano il margine tra due frasi. Ad esempio, in inglese le parole sono delimitate da spazi, le frasi dai due punti e dal punto e virgola e i periodi dal punto. |
File di training | Un file di training viene usato per insegnare al sistema di traduzione automatica a eseguire il mapping da una lingua (origine) a un'altra lingua (destinazione). Maggiore sarà il numero di dati forniti, migliore sarà il sistema. |
File di ottimizzazione | Questi file sono spesso derivati in modo casuale dal set di training (se non si seleziona un set di ottimizzazione). Le frasi vengono selezionate automaticamente e usate per ottimizzare il sistema e assicurarsi che funzioni correttamente. Se si vuole creare un modello di traduzione per utilizzo generico e creare file di ottimizzazione personalizzati, assicurarsi che siano un set casuale di frasi tra domini |
File di test | Questi file sono spesso file derivati, selezionati in modo casuale dal set di training (se non si seleziona alcun set di test). Lo scopo di queste frasi è valutare l'accuratezza del modello di traduzione. Per assicurarsi che il sistema traduca correttamente queste frasi, è possibile creare un set di test e caricarlo nel traduttore. In questo modo si garantisce che le frasi vengano usate nella valutazione del sistema (la generazione di un punteggio BLEU). |
File combinato | È un tipo di file in cui le frasi di origine e quelle tradotte sono incluse nello stesso file. Formati di file supportati (TMX, XLIFF, XLF, ICI e XLSX). |
File di archivio | Un file che contiene altri file. I formati di file supportati sono quelli con estensione zip, gz e tgz. |
Punteggio BLEU | BLEU è il metodo standard del settore per valutare la "precisione" o l'accuratezza del modello di traduzione. Anche se esistono altri metodi di valutazione, Microsoft Translator si basa sul metodo BLEU per segnalare ai proprietari di progetto il livello di accuratezza. |