Tutorial 1: Predicción del riesgo crediticio en Machine Learning Studio (clásico)

2019-02-11

SE APLICA A: Se trata de una marca de verificación, lo que significa que este artículo se aplica a Machine Learning Studio (clásico). Machine Learning Studio (clásico) Se trata de una X, lo que significa que este artículo no se aplica a Azure Machine Learning. Azure Machine Learning

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning en esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte información sobre cómo mover proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

En este tutorial se explica con detalle el proceso de desarrollo de una solución de análisis predictivo. Va a desarrollar un modelo sencillo en Machine Learning Studio (clásico). Después puede implementar el modelo como un servicio web de Machine Learning. Este modelo implementado puede hacer predicciones con datos nuevos. Este tutorial forma parte de una serie de tutoriales de tres partes.

Suponga que necesita predecir el riesgo de crédito de un individuo en función de la información que se proporcionó en una solicitud de crédito.

La evaluación de riesgos crediticios es un problema complejo, pero en este tutorial se simplificará un poco. Se utilizará como ejemplo de cómo puede crear una solución de análisis predictivo con Machine Learning Studio (clásico). En esta solución se usará Machine Learning Studio (clásico) y un servicio web Machine Learning.

En este tutorial de tres partes, vamos a comenzar con los datos de riesgo crediticio disponibles públicamente. Después, desarrollaremos y entrenaremos un modelo predictivo. Finalmente, vamos a implementar el modelo como servicio web.

En esta parte del tutorial, se va a ver lo siguiente:

Creación de un área de trabajo de Machine Learning Studio (clásico)
Carga de datos existentes
Creación de un experimento

Después, puede usar este experimento para entrenar modelos en la parte 2 y, a continuación, implementarlos en la parte 3.

Requisitos previos

En este tutorial, se presupone que usó Machine Learning Studio (clásico) con anterioridad al menos una vez y que tiene ciertos conocimientos sobre los conceptos de aprendizaje automático. Pero no se supone que seas un experto en ninguno de los dos.

Si nunca ha usado Machine Learning Studio (clásico), es posible que quiera empezar con el inicio rápido Creación de su primer experimento de ciencia de datos en Machine Learning Studio (clásico). Este inicio rápido lo guiará por primera vez por Machine Learning Studio (clásico). Aquí se muestran los conceptos básicos de cómo arrastrar y colocar módulos en el experimento, conectarlos, ejecutar el experimento y examinar los resultados.

Sugerencia

Puede encontrar una copia en funcionamiento del experimento que desarrolla en este tutorial en la Galería de Azure AI. Vaya a Tutorial: Predicción del riesgo de crédito y haga clic en Abrir en Studio para descargar una copia del experimento en el área de trabajo de Machine Learning Studio (clásico).

Creación de un área de trabajo de Machine Learning Studio (clásico)

Para usar Machine Learning Studio (clásico), debe tener un área de trabajo de Machine Learning Studio (clásico). Esta área de trabajo contiene las herramientas que necesita para crear, administrar y publicar experimentos.

Para crear un área de trabajo, consulte Creación y uso compartido de un área de trabajo de Machine Learning Studio (clásico).

Una vez haya creado el área de trabajo, abra Machine Learning Studio (clásico) (https://studio.azureml.net/Home). Si tiene más de un área de trabajo, puede seleccionar la que desee en la barra de herramientas de la esquina superior derecha de la ventana.

Selección del área de trabajo en Studio (clásico)

Sugerencia

Si es el propietario del área de trabajo, puede compartir los experimentos en los que esté trabajando invitando a otros al área. Puede hacerlo en Machine Learning Studio (clásico) en la página CONFIGURACIÓN . Solo necesita la cuenta Microsoft o la cuenta de organización de cada usuario.

En la página CONFIGURACIÓN , haga clic en USUARIOS y, a continuación, haga clic en INVITAR MÁS USUARIOS en la parte inferior de la ventana.

Carga de datos existentes

Para desarrollar un modelo de predicción de riesgo de crédito, se necesitan datos para entrenar y probar el modelo. Para este tutorial, se usará el conjunto de datos "UCI Statlog (German Credit Data)" del repositorio de Machine Learning de UC Irvine. Puede encontrarlo aquí:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

Usará el archivo denominado german.data. Descargue este archivo en la unidad de disco duro local.

El conjunto de datos german.data contiene filas de 20 variables para 1000 solicitantes previos de crédito. Estas 20 variables representan el conjunto de características del conjunto de datos (el vector de características), que proporciona características de identificación para cada solicitante de crédito. Una columna adicional en cada fila representa el riesgo de crédito calculado del solicitante, donde 700 solicitantes se identificaron como de bajo riesgo y 300 como de alto riesgo.

El sitio web de UCI proporciona una descripción de los atributos del vector de características de estos datos. Entre estos datos figuran la información financiera, el historial de crédito, el estado de empleo y la información personal. A cada solicitante se le ha dado una calificación binaria para indicar si son de riesgo de crédito alto o bajo.

Estos datos se usarán para entrenar un modelo de análisis predictivo. Cuando se haya terminado, el modelo debe poder aceptar un vector de características para una nueva persona y predecir si esta presenta un alto o bajo riesgo de crédito.

Aquí hay un giro interesante.

La descripción del conjunto de datos en el sitio web de UCI menciona lo que cuesta si se clasifica erróneamente el riesgo de crédito de una persona. Si el modelo predice un riesgo de crédito alto para un usuario que realmente tiene un riesgo de crédito bajo, el modelo ha realizado una clasificación incorrecta.

Pero las clasificaciones inversas incorrectas son cinco veces más costosas para la institución financiera: si el modelo predice un riesgo de crédito bajo para un usuario que realmente tiene un riesgo de crédito alto.

Por lo tanto, es deseable entrenar el modelo para que el costo de este último tipo de clasificación incorrecta sea cinco veces mayor que clasificar erróneamente de la otra forma.

Una forma sencilla de hacerlo al entrenar el modelo en el experimento es duplicar (cinco veces) esas entradas que representan a alguien con un riesgo de crédito alto.

A continuación, si el modelo clasifica erróneamente a una persona como de riesgo de crédito bajo cuando realmente tiene un riesgo alto, el modelo realiza esa misma clasificación incorrecta cinco veces, una vez para cada duplicado. Esto aumentará el coste de este error en los resultados del entrenamiento.

Conversión del formato del conjunto de datos

El conjunto de datos original utiliza un formato separado por espacios en blanco. Machine Learning Studio (clásico) funciona mejor con un archivo de valores separados por comas (CSV), así que va a convertir el conjunto de datos y reemplazará los espacios por comas.

Hay muchas maneras de convertir los datos. Una manera es mediante el uso del siguiente comando de Windows PowerShell:

cat german.data | %{$_ -replace " ",","} | sc german.csv

También se puede hacer con el comando sed de Unix:

sed 's/ /,/g' german.data > german.csv

En cualquier caso, ha creado una versión separada por comas de los datos en un archivo denominado german.csv que puede usar en el experimento.

Carga del conjunto de datos en Machine Learning Studio (clásico)

Una vez que los datos se han convertido al formato CSV, hay que cargarlos en Machine Learning Studio (clásico).

Abra la página principal de Machine Learning Studio (clásico) (https://studio.azureml.net).
Haga clic en el menú En la esquina superior izquierda de la ventana, haga clic en Azure Machine Learning, seleccione Studio e inicie sesión.
Haga clic en +NUEVO en la parte inferior de la ventana.
Seleccione DATASET (CONJUNTO DE DATOS).
Seleccione DE ARCHIVO LOCAL.
En el cuadro de diálogo Cargar un nuevo conjunto de datos , haga clic en Examinar y busque el archivo german.csv que creó.
Escriba un nombre para el conjunto de datos. En este tutorial, llámalo "Datos de Tarjetas de Crédito Alemanas UCI".
En tipo de datos, seleccione Archivo CSV genérico sin encabezado (.nh.csv).
Agregue una descripción si lo desea.
Haga clic en la marca de verificación Aceptar .

De esta manera los datos se cargan en un módulo de conjunto de datos que se pueden usar en un experimento.

Puede administrar los conjuntos de datos que ha cargado en Studio (clásico) haciendo clic en la pestaña CONJUNTOS DE DATOS a la izquierda de la ventana de Studio (clásico).

Administración de conjuntos de datos

Para más información sobre cómo importar otros tipos de datos en un experimento, consulte Importación de datos de entrenamiento en Machine Learning Studio (clásico).

Creación de un experimento

El siguiente paso de este tutorial es crear un experimento en Machine Learning Studio (clásico) que use el conjunto de datos cargado.

En Studio (clásico), haga clic en +NUEVO en la parte inferior de la ventana.
Seleccione EXPERIMENT y luego "Experimento en blanco".
Seleccione el nombre del experimento predeterminado en la parte superior del lienzo y cámbielo por uno significativo.

Sugerencia

Se recomienda rellenar Resumen y descripción del experimento en el panel Propiedades . Estas propiedades ofrecen la oportunidad para documentar el experimento para que cualquier persona que lo vea posteriormente entienda sus objetivos y la metodología.
En la paleta de módulos a la izquierda del lienzo del experimento, expanda Conjuntos de datos guardados.
Busque el conjunto de datos que creó en Mis conjuntos de datos y arrástrelo al lienzo. También puede encontrar el conjunto de datos escribiendo el nombre en el cuadro Buscar situado encima de la paleta.

Preparación de los datos

Puede ver las primeras 100 filas de los datos y cierta información estadística para todo el conjunto de datos: haga clic en el puerto de salida del conjunto de datos (el círculo pequeño en la parte inferior) y seleccione Visualizar.

Dado que el archivo de datos no ha incluido encabezados de columna, Studio (clásico) ha proporcionado encabezados genéricos (Col1, Col2, etc.). No es esencial que los encabezados sean perfectos para crear un modelo, pero facilitan el trabajo con los datos del experimento. Además, cuando finalmente se publique este modelo en un servicio web, los encabezados ayudarán al usuario del servicio a identificar las columnas.

Puede agregar encabezados de columna mediante el módulo Editar metadatos .

Use el módulo Editar metadatos para cambiar los metadatos asociados a un conjunto de datos. En este caso, se usa para proporcionar nombres más descriptivos para los encabezados de las columnas.

Para usar Editar metadatos, especifique primero las columnas que se van a modificar (en este caso, todas ellas). A continuación, especifique la acción que se va a realizar en esas columnas (en este caso, cambiando los encabezados de columna).

En la paleta de módulos, escriba "metadatos" en el cuadro Buscar . Editar metadatos aparece en la lista de módulos.
Haga clic y arrastre el módulo Editar metadatos al lienzo y colóquelo debajo del conjunto de datos que agregó anteriormente.
Conecte el conjunto de datos a Edit Metadata (Editar metadatos): haga clic en el puerto de salida del conjunto de datos (el círculo pequeño situado en la parte inferior del conjunto de datos), arrástrelo al puerto de entrada de Edit Metadata (el círculo pequeño situado en la parte superior del módulo) y, a continuación, suelte el botón del mouse. El conjunto de datos y el módulo permanecen conectados incluso si mueve cualquiera de ellos por el lienzo.

El experimento debería tener ahora un aspecto similar al siguiente:

El signo de exclamación rojo indica que no se han configurado aún las propiedades de este módulo. Lo harás a continuación.

Sugerencia

Puede agregar un comentario a un módulo; para ello, haga doble clic en el módulo y escriba algún texto. Esto puede ayudarle a ver de un vistazo lo que el módulo hace en el experimento. En este caso, haga doble clic en el módulo Editar metadatos y escriba el comentario "Agregar encabezados de columna". Haga clic en cualquier lugar del lienzo para cerrar el cuadro de texto. Para mostrar el comentario, haga clic en la flecha abajo en el módulo.
Seleccione Editar metadatos y, en el panel Propiedades , a la derecha del lienzo, haga clic en Iniciar selector de columnas.
En el cuadro de diálogo Seleccionar columnas , seleccione todas las filas de Columnas disponibles y haga clic > para moverlas a Columnas seleccionadas. El cuadro de diálogo debe ser similar al siguiente:
Haga clic en la marca de verificación Aceptar .
De nuevo en el panel Propiedades , busque el parámetro Nuevos nombres de columna . En este campo, escriba la lista de nombres de las 21 columnas del conjunto de datos, separadas por comas y en el orden de las columnas. Puede obtener los nombres de las columnas en la documentación del conjunto de datos en el sitio web de UCI o, para mayor comodidad, puede copiar y pegar la siguiente lista:
```
Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
```
El panel Propiedades tiene un aspecto similar al siguiente:

Sugerencia

Si desea comprobar los encabezados de columna, ejecute el experimento (haga clic en EJECUTAR debajo del lienzo del experimento). Cuando termine de ejecutarse (aparece una marca de verificación verde en Editar metadatos), haga clic en el puerto de salida del módulo Editar metadatos y seleccione Visualizar. Puede ver el resultado de cualquier módulo de la misma manera, para visualizar el progreso de los datos a lo largo del experimento.

Creación de conjuntos de datos de entrenamiento y prueba

Se necesitan algunos datos para entrenar el modelo y otros tantos para probarlo. De este modo, en el siguiente paso del experimento, se divide el conjunto de datos en dos conjuntos de datos independientes: uno para el entrenamiento de nuestro modelo y el otro para probarlo.

Para ello, use el módulo Dividir datos .

Busque el módulo Dividir datos , arrástrelo al lienzo y conéctelo al módulo Editar metadatos .
De forma predeterminada, la proporción de división es 0,5 y se establece el parámetro split aleatorio . Esto significa que la mitad de los datos de manera aleatoria se envía a través de un puerto del módulo Split Data (Dividir datos) y la otra mitad a través del otro. Puede ajustar estos parámetros, así como el parámetro de inicialización aleatoria , para cambiar la división entre los datos de entrenamiento y prueba. En este ejemplo, se dejan tal cual.

Sugerencia

La propiedad Fraction of rows in the first output dataset (Fracción de filas en el primer conjunto de datos de salida) determina la cantidad de datos que se envían a través del puerto de salida izquierdo . Por ejemplo, si establece la proporción en 0,7, el 70 % de los datos sale por el puerto de la izquierda y el 30 % por el puerto de la derecha.
Haga doble clic en el módulo Split Data (Dividir datos ) y escriba el comentario "Training/testing data split 50%".

Puedes usar las salidas del módulo Dividir datos, como prefieras, pero vamos a elegir usar la salida izquierda como datos para entrenamiento y la salida derecha como datos para prueba.

Como se mencionó en el paso anterior, el costo de clasificar erróneamente un alto riesgo de crédito como bajo es cinco veces mayor que el costo de clasificar erróneamente un riesgo de crédito bajo como alto. Para tener esto en cuenta, se debe generar un nuevo conjunto de datos que refleje esta función de costo. En el nuevo conjunto de datos, cada ejemplo de alto riesgo se replica cinco veces, mientras que los ejemplos de bajo riesgo no se replican.

Podemos conseguir esta replicación mediante el código R:

Busque y arrastre el módulo Ejecutar script R al lienzo del experimento.
Conecte el puerto de salida izquierdo del módulo Dividir datos al primer puerto de entrada ("Dataset1") del módulo Ejecutar script R .
Haga doble clic en el módulo Ejecutar script R y escriba el comentario "Establecer ajuste de costos".

En el panel Propiedades , elimine el texto predeterminado en el parámetro Script de R y escriba este script:

dataset1 <- maml.mapInputPort(1)
data.set<-dataset1[dataset1[,21]==1,]
pos<-dataset1[dataset1[,21]==2,]
for (i in 1:5) data.set<-rbind(data.set,pos)
maml.mapOutputPort("data.set")

Script R en el módulo Execute R Script

Debe realizar esta misma operación de replicación para cada salida del módulo Dividir datos para que los datos de entrenamiento y prueba tengan el mismo ajuste de costos. La manera más fácil de hacerlo es duplicando el módulo Execute R Script (Ejecutar script R ) que acaba de realizar y conectando al otro puerto de salida del módulo Split Data (Dividir datos ).

Haga clic con el botón derecho en el módulo Ejecutar script R y seleccione Copiar.
Haga clic con el botón derecho en el lienzo del experimento y seleccione Pegar.
Arrastre el nuevo módulo a la posición y, a continuación, conecte el puerto de salida derecho del módulo Split Data (Dividir datos) al primer puerto de entrada de este nuevo módulo Execute R Script (Ejecutar script R).
En la parte inferior del lienzo, haga clic en Ejecutar.

Sugerencia

La copia del módulo Ejecutar script R contiene el mismo script que el módulo original. Al copiar y pegar un módulo en el lienzo, la copia retiene todas las propiedades del original.

Nuestro experimento tiene ahora un aspecto similar al siguiente:

Adición del módulo Split y scripts de R

Para obtener más información sobre el uso de scripts de R en los experimentos, consulte Extensión del experimento con R.

Limpieza de recursos

Si ya no necesita los recursos que creó en este artículo, elimínelos para evitar incurrir en cualquier cargo. Obtenga información sobre cómo en el artículo Exportación y eliminación de datos de usuario en el producto.

Pasos siguientes

En este tutorial ha completado estos pasos:

Creación de un área de trabajo de Machine Learning Studio (clásico)
Carga de datos existentes en el área de trabajo
Creación de un experimento

Ahora estás listo para entrenar y evaluar modelos para estos datos.

Tutorial 2: Entrenamiento y evaluación de modelos

Compartir a través de

Tutorial 1: Predicción del riesgo crediticio en Machine Learning Studio (clásico)

Requisitos previos

Creación de un área de trabajo de Machine Learning Studio (clásico)

Carga de datos existentes

Conversión del formato del conjunto de datos

Carga del conjunto de datos en Machine Learning Studio (clásico)

Creación de un experimento

Preparación de los datos

Creación de conjuntos de datos de entrenamiento y prueba

Limpieza de recursos

Pasos siguientes

Recursos adicionales