Ejercicio: Entrenamiento y prueba del modelo de Machine Learning para predecir el éxito del lanzamiento de un cohete

Completado

Una vez que los datos se han separado en las secciones de entrenamiento y prueba, se puede entrenar el modelo de Machine Learning. Uno de los motivos de la popularidad del lenguaje Python para la ciencia de datos y el aprendizaje automático son todas las bibliotecas que existen para admitir el estudio de los datos. Como se ha visto, la creación del modelo de aprendizaje automático y la división de los datos han sido sencillas. El ajuste y la prueba del modelo también lo serán.

Ajuste del modelo

El siguiente paso del ciclo de vida de la ciencia de datos consiste en ajustar el modelo a los datos de entrenamiento. La acción de "ajuste" es básicamente la manera en la que el modelo aprende. Este proceso se describe con el ejemplo de las bayas. El "ajuste" se producía cuando la persona traía una baya y se le decía de qué tipo era. Para ajustar el modelo, debe llamar a fit() en el clasificador de aprendizaje automático y pasar los datos de X_train y y_train.

El ajuste del modelo es como realizar un examen práctico en el que tiene acceso a las respuestas para asegurarse de que comprende los conceptos.

# Fitting the model to the training data
tree_model.fit(X_train,y_train)

Prueba del modelo

La prueba del modelo también se ha facilitado con las bibliotecas que se han importado. La prueba del modelo es como realizar el examen. Proporcionará X_test (el 20 % de los datos de entrada que ha reservado para la prueba) a la función predict() del clasificador. Esta función devuelve una lista de Y y N que representa lo que el modelo cree que ocurrirá si se intentara lanzar un cohete dado un conjunto determinado de condiciones meteorológicas.

Pegue el código siguiente en Visual Studio Code para la predicción y, después, imprima las predicciones.

# Do prediction on test Data
y_pred = tree_model.predict(X_test)
print(y_pred)

¿Cuántos valores Y ha obtenido? ¿Las predicciones parecen representativas de los datos que se han introducido? No resulta claro sin una mayor investigación, pero hasta ahora la salida contiene aproximadamente 9 respuestas Y de los 60 valores de entrada. Aproximadamente el 20 % del total de datos han generado un resultado Y. Nuestro porcentaje es aproximadamente el 15 % de estos datos pronosticados, por lo que se acerca bastante.