Exercício – Preparar e testar o modelo de machine learning para prever o sucesso do lançamento do foguetão
Após os dados serem separados nas seções de preparação e teste, podemos preparar o nosso modelo de machine learning. Um dos motivos pelo qual o Python é uma linguagem popular para a ciência de dados e para a aprendizagem automática é devido a todas as bibliotecas existentes suportarem o estudo dos dados. Como vimos, criar o modelo de aprendizado de máquina e dividir os dados foi simples. Ajustar e testar o nosso modelo também será simples.
Ajustar o modelo
O próximo passo no ciclo de vida da ciência de dados é ajustar o modelo aos dados de preparação. O ato de "encaixar" é basicamente como o modelo aprende. Este processo foi descrito com o exemplo da baga. O humano estava a ser “ajustado” quando lhe trouxeram uma baga e lhe foi dito que tipo de baga era. Para ajustar o modelo, chama fit()
no classificador de aprendizagem automática e passa os dados X_train
e y_train
.
Ajustar o modelo é como fazer um exame prático no qual tem acesso às respostas para garantir que compreende os conceitos.
# Fitting the model to the training data
tree_model.fit(X_train,y_train)
Testar o modelo
Testar o modelo também é facilitado através das bibliotecas que importamos. Testar o modelo é como fazer um exame. Vai transmitir X_test
(os 20% dos dados de entrada que reservou para testar) à função predict()
do classificador. Esta função devolve uma lista de Y
e N
, que representa o que o modelo pensa que aconteceria se fosse tentado um lançamento de foguetão num conjunto particular de condições meteorológicas.
Cole o código seguinte no Visual Studio Code para prever e, em seguida, imprima as predições.
# Do prediction on test Data
y_pred = tree_model.predict(X_test)
print(y_pred)
Quantos Y
obteve? As previsões parecem representativas dos dados que foram introduzidos? Não é claro sem uma investigação mais aprofundada, mas até ao momento a saída contém ~ 9 respostas Y
em 60 valores de entrada. Cerca de 20% do total de dados resultaram em Y
. Nossa porcentagem é de cerca de 15% desses dados previstos, então é relativamente próximo.