Creación de proyectos de clasificación de texto personalizado

Use este artículo para obtener información sobre cómo configurar los requisitos para empezar con una clasificación de texto personalizado y crear un proyecto.

Prerrequisitos

Para empezar a usar una clasificación de texto personalizado, se necesitará lo siguiente:

Creación de un recurso de Language

Antes de empezar a usar la clasificación de texto personalizado, necesitará un recurso de Lenguaje de Azure AI. Se recomienda crear el recurso de idioma y conectarlo a una cuenta de almacenamiento en Azure Portal. La creación de un recurso en Azure Portal permite crear una cuenta de Azure Storage al mismo tiempo, con todos los permisos necesarios preconfigurados. También puede leer más adelante en el artículo para aprender a usar un recurso existente y configurarlo para que funcione con la clasificación personalizada de texto.

También necesitará una cuenta de Azure Storage en la que cargará los documentos .txt que se usarán para entrenar un modelo de clasificación de texto.

Nota

  • Debe tener asignado un rol de propietario en el grupo de recursos para crear un recurso de idioma.
  • Si va a conectar una cuenta de almacenamiento ya existente, debe tener asignado un rol de propietario.

Creación de un recurso de idioma y conexión de la cuenta de almacenamiento

Nota

No debe mover la cuenta de almacenamiento a otro grupo de recursos o suscripción una vez que esté vinculada con el recurso de lenguaje.

Creación de un nuevo recurso en Azure Portal

  1. Vaya a Azure Portal y cree un recurso de Lenguaje de Azure AI.

  2. En la ventana que se abre, seleccione Clasificación de texto personalizado y reconocimiento de entidades con nombre personalizadas en las características personalizadas. Seleccione Continuar para crear el recurso en la parte inferior de la pantalla.

    A screenshot showing the selection option for custom text classification and custom named entity recognition in Azure portal.

  3. Cree un recurso de idioma con los detalles siguientes.

    Nombre Valor obligatorio
    Subscription Su suscripción de Azure.
    Grupo de recursos Grupo de recursos que contendrá su recurso. Puede elegir uno existente o crear uno.
    Region Una de las regiones admitidas. Por ejemplo, "Oeste de EE. UU. 2".
    Nombre Nombre del recurso.
    Plan de tarifa Uno de los planes de tarifa admitidos. Puede usar el nivel de servicio Gratis (F0) para probar el servicio.

    Si recibe un mensaje que indica "la cuenta de inicio de sesión no es propietaria del grupo de recursos de la cuenta de almacenamiento seleccionada", la cuenta debe tener asignado un rol de propietario en el grupo de recursos para poder crear un recurso de idioma. Póngase en contacto con el propietario de la suscripción de Azure para obtener ayuda.

    Para determinar el propietario de la suscripción de Azure, busque en el grupo de recursos y siga el vínculo a su suscripción asociada. A continuación:

    1. Seleccione la pestaña Control de acceso (IAM).
    2. Seleccione Asignaciones de roles.
    3. Filtre por Role:Owner.
  4. En la sección Clasificación de texto personalizado y reconocimiento de entidades con nombre personalizadas, seleccione una cuenta de almacenamiento existente o Nueva cuenta de almacenamiento. Cabe decir que estos valores son para ayudarle a empezar; no son necesariamente los valores de la cuenta de almacenamiento que querrá usar en entornos de producción. Para evitar la latencia durante la compilación del proyecto, conéctese a cuentas de almacenamiento en la misma región que el recurso de idioma.

    Valor de la cuenta de almacenamiento Valor recomendado
    Nombre de la cuenta de almacenamiento Cualquier nombre
    Tipo de cuenta de almacenamiento LRS estándar
  5. Asegúrese de que el Aviso de IA responsable esté activado. En la parte inferior de la página, seleccione Revisar y crear.

Nota

  • El proceso de conexión de una cuenta de almacenamiento al recurso de idioma es irreversible, no se puede desconectar más adelante.
  • Solo puede conectar el recurso de idioma a una cuenta de almacenamiento.

Uso de un recurso de idioma existente

Requisito Descripción
Regions Asegúrese de que el recurso existente se haya aprovisionado en una de las regiones admitidas. Si no tiene un recurso, deberá crear uno en una región admitida.
Plan de tarifa El plan de tarifa del recurso.
Identidad administrada Asegúrese de que la configuración de la identidad administrada del recurso esté habilitada. De lo contrario, consulte la sección siguiente.

Para usar la clasificación de texto personalizado, deberá crear una cuenta de Azure Storage si aún no tiene una.

Habilitación de la administración de identidades para el recurso

El recurso de idioma debe tener administración de identidades. Para habilitarla mediante Azure Portal:

  1. Vaya al recurso de idioma.
  2. En el menú izquierdo, en la sección Administración de recursos, seleccione Identidad.
  3. En la pestaña Asignado por el sistema, asegúrese de establecer Estado en Activado.

Habilitación de la característica de clasificación de texto personalizado

Asegúrese de habilitar las características de clasificación de texto personalizado/reconocimiento de entidades con nombre personalizadas desde Azure Portal.

  1. Vaya al recurso de idioma en Azure Portal.
  2. En el menú izquierdo, en la sección Administración de recursos, seleccione Características.
  3. Habilite la característica de clasificación de texto personalizado/reconocimiento de entidades con nombre personalizadas.
  4. Conecte a su cuenta de almacenamiento.
  5. Seleccione Aplicar.

Importante

  • Asegúrese de que el recurso de idioma tiene asignado el rol colaborador de datos de blobs de almacenamiento en la cuenta de almacenamiento que está conectando.

Establezca los roles del recurso de Lenguaje de Azure AI y la cuenta de almacenamiento

Siga estos pasos para establecer los roles necesarios del recurso de idioma de Azure y la cuenta de almacenamiento.

An animated image showing how to set roles in the Azure portal.

Roles para el recurso Lenguaje de Azure AI

  1. Vaya a la cuenta de almacenamiento o recurso de idioma en Azure Portal.

  2. Seleccione Control de acceso (IAM) en el menú de navegación izquierdo.

  3. Seleccione Agregar para Agregar asignaciones de roles y elija el rol adecuado para la cuenta.

    Debe tener asignado el rol de propietario o colaborador en el recurso de idioma.

  4. En Asignar acceso a, seleccione Usuario, grupo o entidad de servicio.

  5. Elija Seleccionar miembros.

  6. Seleccione el nombre de usuario. Puede buscar por nombres de usuario en el campo Seleccionar. Repita este procedimiento para todos los roles.

  7. Repita estos pasos con todas las cuentas de usuario que necesiten acceso a este recurso.

Roles para la cuenta de almacenamiento

  1. Vaya a la página de la cuenta de almacenamiento en Azure Portal.
  2. Seleccione Control de acceso (IAM) en el menú de navegación izquierdo.
  3. Seleccione Agregar para Agregar asignaciones de roles y elija el rol colaborador de datos de blobs de almacenamiento en la cuenta de almacenamiento.
  4. En Asignar acceso a, seleccione Identidad administrada.
  5. Elija Seleccionar miembros.
  6. Seleccione la suscripción e Idioma como identidad administrada. Puede buscar por nombres de usuario en el campo Seleccionar.

Importante

Si tiene una red virtual o un punto de conexión privado, asegúrese de seleccionar Permitir servicios de Azure en la lista de servicios de confianza para acceder a esta cuenta de almacenamiento en el Azure Portal.

Habilitación de CORS en la cuenta de almacenamiento

Asegúrese de permitir métodos (GET, PUT, DELETE) al habilitar el uso compartido de recursos entre orígenes (CORS). Establezca el campo de orígenes permitidos en https://language.cognitive.azure.com. Permita todos los encabezados agregando * a los valores de encabezado permitido y establezca la antigüedad máxima en 500.

A screenshot showing how to use CORS for storage accounts.

Crear un proyecto de clasificación de texto personalizado

Una vez configurados el recurso y el contenedor de almacenamiento, cree un nuevo proyecto de clasificación de texto personalizado. Un proyecto es un área de trabajo para crear modelos de inteligencia artificial personalizados basados en sus datos. A su proyecto solo puede acceder usted y otros usuarios que tengan acceso al recurso de Azure que se usa. Si ha etiquetado los datos, puede importarlos para empezar.

  1. Inicie sesión en Language Studio. Aparecerá una ventana que le permitirá seleccionar la suscripción y el recurso de idioma. Seleccione el recurso de idioma.

  2. En la sección Classify text (Clasificar texto) de Language Studio, busque Custom text classification (Clasificación de texto personalizado).

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Seleccione Create new project (Crear proyecto) en el menú superior de la página de proyectos. La creación de un proyecto le permitirá etiquetar datos, entrenar, evaluar, mejorar e implementar los modelos.

    A screenshot of the custom text classification project creation page.

  4. Después de hacer clic en Create new project (Crear proyecto), aparecerá una ventana para conectar la cuenta de almacenamiento. Si ya ha conectado una cuenta de almacenamiento, verá la cuenta de almacenamiento conectada. Si no es así, elija la cuenta de almacenamiento en la lista desplegable que aparece y seleccione Conectar cuenta de almacenamiento; esto establecerá los roles necesarios para la cuenta de almacenamiento. Este paso posiblemente devolverá un error si no está asignado como propietario en la cuenta de almacenamiento.

    Nota

    • Solo debe realizar este paso una vez con cada nuevo recurso de idioma que use.
    • Este proceso es irreversible: si conecta una cuenta de almacenamiento al recurso de idioma, no podrá desconectarla más tarde.
    • Solo puede conectar el recurso de idioma a una cuenta de almacenamiento.

    A screenshot of the storage connection screen for custom classification projects.

  5. Seleccione el tipo de proyecto. Puede crear un proyecto de clasificación de varias etiquetas, donde cada documento puede pertenecer a una o varias clases, o un proyecto de clasificación de etiqueta única, donde cada documento solo puede pertenecer a una clase. El tipo seleccionado no se puede cambiar más adelante. Más información sobre los tipos de proyecto

    A screenshot of the available custom classification project types.

  6. Introduzca la información del proyecto, como el nombre, una descripción y el idioma de los documentos del proyecto. Si usa el conjunto de datos de ejemplo, seleccione Inglés. El nombre del proyecto no se podrá cambiar posteriormente. Seleccione Next (Siguiente).

    Sugerencia

    El conjunto de datos no tiene que estar completamente en el mismo idioma. Puede tener varios documentos, cada uno de ellos con distintos idiomas admitidos. Si el conjunto de datos contiene documentos de distintos idiomas o si espera textos en idiomas diferentes durante el tiempo de ejecución, seleccione la opción Enable multi-lingual dataset (Habilitar conjunto de datos multilingüe) al especificar la información básica del proyecto. Esta opción se puede habilitar más adelante desde la página Configuración del proyecto.

  7. Seleccione el contenedor en el que ha cargado el conjunto de datos.

    Nota

    Si ya ha etiquetado los datos, asegúrese de que siguen el formato admitido y seleccione Sí, mis documentos ya están etiquetados y he formateado el archivo de etiquetas JSON, y seleccione el archivo de etiquetas en el menú desplegable siguiente.

    Si usa uno de los conjuntos de datos de ejemplo, use el archivo json webOfScience_labelsFile o movieLabels incluido. Luego, seleccione Siguiente.

  8. Revise los datos especificados y seleccione Create Project (Crear proyecto).

Importación de un proyecto de clasificación de texto personalizado

Si ya ha etiquetado los datos, puede usarlos para empezar a trabajar con el servicio. Asegúrese de que los datos etiquetados siguen los formatos de datos aceptados.

  1. Inicie sesión en Language Studio. Aparecerá una ventana que le permitirá seleccionar la suscripción y el recurso de idioma. Seleccione el recurso de idioma.

  2. En la sección Classify text (Clasificar texto) de Language Studio, busque Custom text classification (Clasificación de texto personalizado).

    A screenshot showing the location of custom text classification in the Language Studio landing page.

  3. Seleccione Create new project (Crear proyecto) en el menú superior de la página de proyectos. La creación de un proyecto le permitirá etiquetar datos, entrenar, evaluar, mejorar e implementar los modelos.

    A screenshot of the project creation page.

  4. Después de seleccionar Create new project (Crear proyecto), aparecerá una pantalla que le permitirá conectar la cuenta de almacenamiento. Si no encuentra la cuenta de almacenamiento, asegúrese de que ha creado un recurso mediante los pasos recomendados. Si ya ha conectado una cuenta de almacenamiento al recurso de idioma, verá la cuenta de almacenamiento conectada.

    Nota

    • Solo debe realizar este paso una vez con cada nuevo recurso de idioma que use.
    • Este proceso es irreversible: si conecta una cuenta de almacenamiento al recurso de idioma, no podrá desconectarla más tarde.
    • Solo puede conectar el recurso de idioma a una cuenta de almacenamiento.

    A screenshot of the storage connection screen for custom classification projects.

  5. Seleccione el tipo de proyecto. Puede crear un proyecto de clasificación de varias etiquetas, donde cada documento puede pertenecer a una o varias clases, o un proyecto de clasificación de etiqueta única, donde cada documento solo puede pertenecer a una clase. El tipo seleccionado no se puede cambiar más adelante.

    A screenshot of the available custom classification project types.

  6. Introduzca la información del proyecto, como el nombre, una descripción y el idioma de los documentos del proyecto. El nombre del proyecto no se podrá cambiar posteriormente. Seleccione Next (Siguiente).

    Sugerencia

    El conjunto de datos no tiene que estar completamente en el mismo idioma. Puede tener varios documentos, cada uno de ellos con distintos idiomas admitidos. Si el conjunto de datos contiene documentos de distintos idiomas o si espera textos en idiomas diferentes durante el tiempo de ejecución, seleccione la opción Enable multi-lingual dataset (Habilitar conjunto de datos multilingüe) al especificar la información básica del proyecto. Esta opción se puede habilitar más adelante desde la página Configuración del proyecto.

  7. Seleccione el contenedor en el que ha cargado el conjunto de datos.

  8. Seleccione Sí, mis documentos ya están etiquetados y he formateado el archivo de etiquetas JSON y seleccione el archivo de etiquetas en el menú desplegable siguiente para importar el archivo de etiquetas JSON. Asegúrese de que sigue el formato admitido.

  9. Seleccione Siguiente.

  10. Revise los datos especificados y seleccione Create Project (Crear proyecto).

Obtención de los detalles del proyecto

  1. Vaya a la página de configuración del proyecto en Language Studio.

  2. Puede ver los detalles del proyecto.

  3. En esta página puede actualizar la descripción del proyecto y habilitar o deshabilitar el conjunto de datos multilingüe en la configuración del proyecto.

  4. También puede ver la cuenta de almacenamiento conectada y el contenedor en el recurso de idioma.

  5. Igualmente, puede recuperar la clave de recurso principal en esta página.

    A screenshot of the project settings page.

Eliminar proyecto

Cuando ya no necesite el proyecto, puede eliminarlo mediante Language Studio. Seleccione Clasificación de texto personalizado en la parte superior y, a continuación, seleccione el proyecto que quiere eliminar. Seleccione Eliminar en el menú superior para eliminar el proyecto.

Pasos siguientes

  • Debe tener una idea del esquema de proyecto que usará para etiquetar los datos.

  • Una vez creado el proyecto, puede empezar a etiquetar los datos, lo que informará al modelo de clasificación de texto sobre cómo interpretar el texto y se usará para el entrenamiento y la evaluación.