¿Qué son los documentos paralelos?
Los documentos paralelos son pares de documentos en los que uno es la traducción del otro. Un documento en el par contiene frases en el idioma de origen y el otro documento contiene estas mismas frases traducidas al idioma de destino. No importa qué idioma está marcado como "origen" y qué idioma como "destino": un documento paralelo se puede usar para entrenar un sistema de traducción en cualquier dirección.
Requisitos
Necesita un mínimo de 10 000 frases paralelas alineadas y únicas para entrenar a un sistema. Esta limitación es una red de seguridad para asegurarse de que las frases paralelas contienen suficiente vocabulario único para entrenar correctamente un modelo de traducción. Como procedimiento recomendado, agregue continuamente más contenido paralelo y entrene el sistema de nuevo para mejorar la calidad de la traducción. Para obtener más información, consulteAlineación de oraciones.
Microsoft requiere que los documentos cargados en el Traductor personalizado no infrinjan los derechos de propiedad intelectual o de copyright de terceros. Para más información, consulte los términos de uso. Cargar un documento mediante el portal no modifica la propiedad intelectual del documento en sí.
Uso de documentos paralelos
El sistema usa los documentos paralelos para:
Conocer cómo se asignan normalmente las palabras, expresiones y frases entre los dos idiomas.
Saber cómo procesar el contexto adecuado según las frases que lo rodean. Puede que una palabra no se traduzca siempre exactamente como otra palabra del otro idioma.
Como procedimiento recomendado, asegúrese de que hay una correspondencia entre frases de 1:1 en las versiones de origen y de destino de los documentos.
Si el proyecto es de un dominio (o categoría) específico, los documentos deben contener una terminología coherente con esa categoría. La calidad del sistema de traducción resultante depende del número de frases del conjunto de documentos y de la calidad de las mismas. Cuantos más ejemplos contengan los documentos con usos diversos de una palabra específica de la categoría, mejor realizará el sistema la traducción.
Los documentos que se cargan son privados para cada área de trabajo y se pueden usar en tantos proyectos o aprendizajes como desee. Las frases extraídas de los documentos se almacenan de forma independiente en el repositorio como archivos de texto Unicode sin formato y están disponibles para su eliminación cuando lo considere necesario. No use el Traductor personalizado como repositorio de documentos; no puede descargar los documentos en el mismo formato en que los haya cargado.