Inicio rápido: Compilación, publicación y traducción con modelos personalizados

Artículo
07/21/2023

Translator es un servicio de traducción automática neural basado en la nube que forma parte de la familia de servicios de API de REST de Azure AI y que puede utilizarse con cualquier sistema operativo. Translator potencia muchos productos y servicios de Microsoft utilizados por miles de empresas de todo el mundo para realizar la traducción de idiomas y otras operaciones relacionadas. En este inicio rápido, aprenderá a crear soluciones personalizadas para las aplicaciones en todos los lenguajes admitidos.

Requisitos previos

Para usar el portal de Traductor personalizado, necesita los recursos siguientes:

Una cuenta de Microsoft.
Una suscripción a Azure: cree una cuenta gratuita
Una vez que tenga una suscripción a Azure, cree un recurso de Translator en Azure Portal para obtener la clave y el punto de conexión. Tras su implementación, seleccione Ir al recurso.
- Tanto la clave como el punto de conexión del recurso son necesarios para conectar la aplicación al servicio Translator. En una sección posterior de este mismo inicio rápido, pegue la clave y el punto de conexión en el código. Puede encontrar estos valores en la página Claves y punto de conexión de Azure Portal:

Para más información, consultecómo crear un recurso de Translator.

Portal de Translator personalizado

Una vez que tenga los requisitos previos anteriores, inicie sesión en el portal de Traductor personalizado para crear áreas de trabajo, compilar proyectos, cargar archivos, entrenar modelos y publicar la solución personalizada.

Puede leer información general sobre la traducción y la traducción personalizada, aprender algunas sugerencias y ver un vídeo de introducción en el blog técnico de Azure AI.

Resumen del proceso

Creación de un área de trabajo. Un área de trabajo es un área para crear y compilar el sistema de traducción personalizada. Un área de trabajo puede contener varios proyectos, modelos y documentos. Todo el trabajo que realice en Traductor personalizado se encuentra dentro de un área de trabajo específica.
Creación de un proyecto. Un proyecto es un contenedor para modelos, documentos y pruebas. Cada proyecto incluye todos los documentos que están cargados en esa área de trabajo con el par de idiomas correcto. Por ejemplo, si tiene proyectos en inglés y en español, y un proyecto de inglés a español, se incluyen los mismos documentos en todos los proyectos.
Carga de documentos paralelos. Los documentos paralelos son pares de documentos en los que uno (destino) es la traducción del otro (origen). Un documento en el par contiene frases en el idioma de origen y el otro documento contiene estas mismas frases traducidas al idioma de destino. No importa qué idioma esté marcado como "origen" y qué idioma como "destino": un documento paralelo se puede usar para entrenar un sistema de traducción en cualquier dirección.
Entrenamiento del modelo. Un modelo es el sistema que proporciona una traducción para pares de idiomas específicos. El resultado de un entrenamiento correcto es un modelo. Cuando se entrena un modelo, se requieren tres tipos de documentos mutuamente exclusivos: aprendizaje, ajuste y pruebas. Si solo se proporcionan datos de aprendizaje al poner en cola un entrenamiento, Traductor personalizado reúne automáticamente los datos de pruebas y de ajuste. Usa un subconjunto aleatorio de frases de los documentos de aprendizaje y excluye estas frases de los propios datos de aprendizaje. 10 000 oraciones paralelas es el requisito mínimo para entrenar un modelo.
Prueba (evaluación humana) del modelo. El conjunto de pruebas se usa para calcular la puntuación BLEU. Esta puntuación indica la calidad de su sistema de traducción.
Publicación (implemente) del modelo entrenado. El modelo personalizado está disponible para las solicitudes de traducción en tiempo de ejecución.
Traducción del texto. Use Text API V3 de Traductor de Microsoft basada en la nube, segura, de alto rendimiento y altamente escalable para realizar solicitudes de traducción.

Crear un área de trabajo

Después de iniciar sesión en el Traductor personalizado, se le pedirá permiso para leer su perfil de la Plataforma de identidad de Microsoft para solicitar el token de acceso de usuario y el token de actualización. Ambos tokens son necesarios para la autenticación y para asegurarse de que no se cierra la sesión durante la sesión activa o mientras entrena los modelos.
Seleccione Sí.
Seleccione Mis áreas de trabajo.
Seleccione Crear área de trabajo.
Escriba Contoso MT models en Nombre del área de trabajo y seleccione Siguiente.
Seleccione "Global" en Select resource region (Seleccionar región de recursos) en la lista desplegable.
Copie y pegue la clave de los servicios de Traductor.
Seleccione Siguiente.
Seleccione Listo.

Nota:

La región debe coincidir con la seleccionada durante la creación del recurso. Puede usar CLAVE 1 o CLAVE 2.

Crear un proyecto

Una vez que el área de trabajo se haya creado correctamente, se le remite a la página Proyectos.

Crea un proyecto de inglés a alemán para entrenar un modelo personalizado con solo un tipo de documento de entrenamiento.

Seleccione Create project (Crear proyecto).
Escriba English-to-German para Nombre del proyecto.
Seleccione Inglés (en) como Idioma de origen en la lista desplegable.
Seleccione Alemán (de) como Idioma de destino en la lista desplegable.
Seleccione General en Dominio en la lista desplegable.
Seleccione Create project (Crear proyecto).

Cargar documentos

Para crear un modelo personalizado, debe cargar todos o una combinación de tipos de documento de entrenamiento, ajuste, prueba y diccionario.

En este inicio rápido, cargará documentos de entrenamiento para la personalización.

Nota

Puede usar nuestro conjunto de datos de diccionarios de frases y entrenamiento de ejemplo, Conjuntos de datos de ejemplo de inglés a alemán para este inicio rápido. Sin embargo, para producción, es mejor cargar su propio conjunto de datos de entrenamiento.

Seleccione el nombre de proyecto English-to-German.
Seleccione Administrar documentos en el menú de navegación izquierdo.
Seleccione Add document set (Agregar conjunto de documentos).
Active la casilla Training set (Conjunto de entrenamiento) y seleccione Siguiente.
Mantenga activada la casilla Parallel documents (Documentos paralelos) y escriba sample-English-German.
En Source (English - EN) file (Archivo de origen [inglés, en]), seleccione Examinar archivos y seleccione sample-English-German-Training-en.txt.
En Target (German - EN) file (Archivo de destino [alemán, en]), seleccione Examinar archivos y seleccione sample-English-German-Training-en.txt.
Haga clic en Cargar.

Nota:

Puede cargar el conjunto de datos de diccionarios de frases y de frases de ejemplo. Este paso se deja para que lo complete.

Entrenamiento de un modelo

Ahora está listo para entrenar el modelo de inglés a alemán.

Seleccione Entrenar modelo en el menú de navegación izquierdo.
Escriba en-de with sample data para Nombre del modelo.
Mantenga activada la casilla Full training (Entrenamiento completo).
En Seleccionar documentos, marque sample-English-German y revise el costo de entrenamiento asociado al número seleccionado de oraciones.
Seleccione Train now (Entrenar ahora).
Seleccione Entrenar para confirmar.

Nota:

Las notificaciones muestran el entrenamiento del modelo en curso, por ejemplo, el estado Submitting data (Enviando datos). El modelo de entrenamiento tarda unas horas, según el número de oraciones seleccionadas.
Una vez que el modelo se haya entrenado correctamente, seleccione Detalles del modelo en el menú de navegación izquierdo.
Seleccione el nombre del modelo en-de con datos de ejemplo. Revise la fecha y hora de entrenamiento, el tiempo total de entrenamiento, el número de oraciones usadas para el entrenamiento, la optimización, las pruebas y el diccionario. Compruebe si el sistema generó los conjuntos de pruebas y optimización. Use Category ID para realizar solicitudes de traducción.
Evalúe la puntuación BLEU del modelo. El conjunto de pruebas Puntuación BLEU es la puntuación del modelo personalizado y BLEU de base de referencia es el modelo de línea base previamente entrenado que se usa para la personalización. Un valor de BLEU score (Puntuación BLEU) más alto significa una mayor calidad de la traducción mediante el modelo personalizado.

Nota:

Si entrena con nuestros conjuntos de datos de ejemplo de clientes compartidos, la puntuación BLEU será diferente de la imagen.

Comprobación del modelo

Una vez que el entrenamiento se haya completado correctamente, inspeccione las oraciones traducidas del conjunto de pruebas.

Seleccione Probar modelo en el menú de navegación izquierdo.
Seleccione "en-de with sample data".
Evalúe la traducción de Nuevo modelo (modelo personalizado) y de Modelo de línea base (nuestra línea base entrenada previamente usada para la personalización) con Referencia (traducción de destino del conjunto de pruebas)

Publicación del modelo

La publicación del modelo hace que esté disponible para su uso con Translator API. Un proyecto puede tener uno o varios modelos entrenados correctamente. Solo puede publicar un modelo por proyecto; sin embargo, puede publicar un modelo en una o varias regiones en función de sus necesidades. Para obtener más información, consulte Precios de Traductor.

Seleccione Publicar modelo en el menú de navegación izquierdo.
Seleccione en-de with sample data y seleccione Publicar.
Compruebe las regiones deseadas.
Seleccione Publicar. El estado debe pasar de Implementando a Implementado.

Traducir texto

Los desarrolladores deben usar Category ID al realizar solicitudes de traducción mediante Text API V3 del Traductor de Microsoft. Puede encontrar más información sobre Translator Text API en la página web de referencia de API.
Es posible que los usuarios empresariales quieran descargar e instalar nuestra aplicación gratuita DocumentTranslator para Windows.

Pasos siguientes

Aprenda a administrar áreas de trabajo.