Coletar, limpar e manipular os dados

Concluído

A etapa 2 do ciclo de vida de ciência de dados é coletar, limpar e manipular os dados. Depois de definir claramente o que deseja saber, você poderá avaliar os dados que tem e os dados que talvez precise coletar. Daí, você pode preparar seus dados de uma forma que dê suporte à descoberta na qual você tem interesse.

Obter dados

Com as restrições, os escopos e a priorização dos dados que os SMEs fornecem em vigor, você poderá começar a coletar dados úteis. Essa etapa tem desafios próprios. Voltando ao exemplo da horta, você pode cultivar dez pés de alface sob condições ligeiramente diferentes e determinar quais delas produzem os melhores resultados.

Para um lançamento de foguete, os experimentos de comparação não são tão fáceis de fazer. Você pode executar simulações, mas elas se baseiam na análise de dados, não em tentativa e erro literais sob condições exatas. Não é ético nem econômico realizar um lançamento de teste sob cada circunstância única para conseguir determinar com certeza as circunstâncias mais seguras para um lançamento. Além disso, muitas condições, como o clima, não podem ser controladas. (Contudo, é verdade que alguns dos dados usados em uma simulação são de lançamentos de foguete que falharam em tentativas sob circunstâncias negativas. Caso contrário, como você saberia quais são as limitações de determinadas condições?) Você também pode usar outras informações para determinar restrições, como informações coletadas de aeronaves, cálculos básicos de física ou de matemática.

Limpar e manipular os dados

Em uma primeira impressão, você pode ficar desconfiado ao descobrir que uma etapa no machine learning é manipular os dados. Aqui, manipular não significa que os dados sejam modificados para obter o resultado desejado. Isso significa que você toma precauções para garantir que eles sejam a representação mais precisa da verdade.

Por exemplo, com sua horta de alface, você pode fazer um estudo que se concentre na umidade de solo. Você coleta leituras de umidade a cada hora para determinar como ela afeta o crescimento. Um dia, às 14h55, o sensor de umidade para de funcionar. Você percebe que o sensor quebrou e o conserta antes da leitura agendada para as 16h. Porém, você perde os dados que teriam sido coletados na leitura agendada do sensor às 15h. É razoável manipular os dados substituindo o valor ausente por uma média das leituras feitas às 14h e às 16h. No entanto, se você não perceber que o sensor quebrou até o dia seguinte, poderá fazer mais sentido limpar os dados removendo por completo da análise as leituras desse dia, de modo que os dados não levem a um resultado impreciso.

Um grande volume de dados é necessário para prever as condições ideais para um lançamento de foguete. É provável que a NASA tenha acesso a dados melhores do que aqueles que são disponibilizados publicamente. Ela tem acesso à experiência no assunto de pessoas que trabalham junto com as nuances de lançamentos de foguete e clima. Também tem acesso a todos os experimentos e todas as análises anteriores.

Por outro lado, no modelo de machine learning que treinará no próximo módulo deste roteiro de aprendizagem, você se baseará principalmente em dados meteorológicos acessíveis, como temperatura, precipitação e nebulosidade. Você se concentrará em dias anteriores nos quais os lançamentos realmente aconteceram. O resultado realista é que esse projeto será menos preciso do que as previsões da NASA. Como você só tem exemplos de lançamentos bem-sucedidos, o modelo de machine learning que você treinará distorcerá os resultados para as boas condições.