Exercício – Preparar e testar o modelo de machine learning para prever o sucesso do lançamento do foguetão

Concluído

Após os dados serem separados nas seções de preparação e teste, podemos preparar o nosso modelo de machine learning. Um dos motivos pelo qual o Python é uma linguagem popular para a ciência de dados e para a aprendizagem automática é devido a todas as bibliotecas existentes suportarem o estudo dos dados. Como vimos, criar o modelo de aprendizado de máquina e dividir os dados foi simples. Ajustar e testar o nosso modelo também será simples.

Ajustar o modelo

O próximo passo no ciclo de vida da ciência de dados é ajustar o modelo aos dados de preparação. O ato de "encaixar" é basicamente como o modelo aprende. Este processo foi descrito com o exemplo da baga. O humano estava a ser “ajustado” quando lhe trouxeram uma baga e lhe foi dito que tipo de baga era. Para ajustar o modelo, chama fit() no classificador de aprendizagem automática e passa os dados X_train e y_train.

Ajustar o modelo é como fazer um exame prático no qual tem acesso às respostas para garantir que compreende os conceitos.

# Fitting the model to the training data
tree_model.fit(X_train,y_train)

Testar o modelo

Testar o modelo também é facilitado através das bibliotecas que importamos. Testar o modelo é como fazer um exame. Vai transmitir X_test (os 20% dos dados de entrada que reservou para testar) à função predict() do classificador. Esta função devolve uma lista de Y e N, que representa o que o modelo pensa que aconteceria se fosse tentado um lançamento de foguetão num conjunto particular de condições meteorológicas.

Cole o código seguinte no Visual Studio Code para prever e, em seguida, imprima as predições.

# Do prediction on test Data
y_pred = tree_model.predict(X_test)
print(y_pred)

Quantos Y obteve? As previsões parecem representativas dos dados que foram introduzidos? Não é claro sem uma investigação mais aprofundada, mas até ao momento a saída contém ~ 9 respostas Y em 60 valores de entrada. Cerca de 20% do total de dados resultaram em Y. Nossa porcentagem é de cerca de 15% desses dados previstos, então é relativamente próximo.