Escolher um algoritmo e treinar e testar o modelo

Concluído

A etapa 3 do ciclo de vida de ciência de dados é escolher um algoritmo de machine learning, bem como treinar e testar o modelo. Neste ponto do ciclo de vida de ciência de dados, você tem os dados que melhor representam a verdade sobre o que você está pesquisando. Então é hora de modelar o machine learning para começar a descobrir o conhecimento.

A modelagem é o processo de escolha de quais recursos de dados mais provavelmente indicarão uma fonte de conhecimento confiável. Esses recursos de dados podem variar. Por exemplo, eles podem ser colunas em uma tabela, informações secundárias, como a diferença entre duas colunas ou algo mais sutil como a cor de uma imagem.

Modelagem

Para sua horta de alface, alguns aspectos do ambiente provavelmente devem ser mais importantes do que outros. Por exemplo, a umidade do solo é mais importante do que o nível de ruído. Mas, para outros recursos, pode ser difícil avaliar se um recurso tem uma correlação mais forte com o resultado que você deseja obter comparado a outro recurso. Por exemplo, a umidade do solo é um indicador de crescimento melhor do que a temperatura? A definição de recursos é uma técnica que usa o modelo de machine learning para ajudar você a entender quais recursos se correlacionam mais precisamente com um resultado previsto.

Para um lançamento de foguete, você não tem acesso a alguns dados possivelmente altamente correlacionados, como a forma, o tamanho e a classificação de nuvens esperadas em uma data específica daqui a três anos. No entanto, você terá três dados principais que provavelmente serão altamente correlacionados: a temperatura, a precipitação e a umidade. Neste roteiro de aprendizagem, a meta é usar dados de lançamento e meteorológicos antigos, bem como dados meteorológicos previstos, para determinar se é provável que um lançamento seja bem-sucedido.

Folha de referências de algoritmos de machine learning

Um recurso de grande ajuda para determinar que tipo de algoritmo de machine learning será útil para sua análise específica é a folha de referências de algoritmos de machine learning.

Flowchart style diagram of the Algorithm cheat sheet.

Escolher o algoritmo de machine learning correto

Novamente, aqui está a sua pergunta central: as condições meteorológicas de um dia específico apoiam um lançamento de foguete bem-sucedido?

Essa pergunta é respondida com um sim ou um não. Portanto, é um problema no qual um algoritmo de classificação de duas classes pode ser útil. Se você examinar essa categoria na folha de referência de algoritmos, verá que pode escolher entre muitos algoritmos. Nesse caso, um classificador de árvore de decisão funcionará bem. Esse tipo de algoritmo faz observações sobre um evento, como as condições meteorológicas de um determinado dia, e tira conclusões sobre o valor de destino. O resultado é sim ou não para a pergunta apresentada.

Treinar e testar modelos de machine learning

Depois de escolher o algoritmo de machine learning que será usado, você precisará fornecer a ele dados verdadeiros. Quando você insere dados complexos, é interessante que o modelo gere a opção correta. Nesta etapa, use um conjunto de dados existente para treinar o modelo.

Na próxima unidade, consideraremos um exemplo de identificação de frutos silvestres para descrever como os seres humanos podem ser treinados para aprender novas informações. Os modelos de machine learning são semelhantes ao experimento de identificação de frutos silvestres. Você fornece ao modelo dados que tenham entrada e saída para treiná-lo. No entanto, você não fornece todos os dados ou o modelo ficará sobreajustado. Ele saberá apenas como identificar um subconjunto de dados possíveis. Ele não poderá generalizar isso para novos itens que são semelhantes, mas diferentes. Portanto, você mantém alguns dos dados para testar o modelo. Para testar o modelo, você só fornece a ele os dados de entrada. Você usa a saída verdadeira para "pontuar" o modelo.

Felizmente, os algoritmos de machine learning de que você precisa já estão escritos. As ferramentas necessárias para dividir os dados, treinar o modelo e testá-lo também estão disponíveis. Você pode acessar e usar essas ferramentas como um serviço, de modo que não precise instalá-las no computador.