Dados bons, ruins e ausentes

Concluído

O fato de que os dados moldam o aprendizado de máquina dá ao aprendizado de máquina seu poder preditivo. Como efeito colateral, modelos treinados apenas em pequenas quantidades de dados raramente têm um bom desempenho no mundo real, porque pequenas quantidades de dados geralmente não servem como boas representações no mundo real. Por exemplo, quatro pessoas selecionadas aleatoriamente, escolhidas de qualquer lugar da Terra, não representariam de forma confiável a pessoa média na Terra. Por outro lado, se selecionássemos 1 bilhão de pessoas, nossos dados provavelmente se tornariam representativos.

No entanto, outros fatores também têm importância. Precisamos de amostras de dados grandes e representativas que

  • Ter zero erros
  • Conter todas as informações essenciais

Abordamos essas preocupações aqui, antes de passarmos para um exercício prático envolvendo nosso conjunto de dados do Titanic.

'Representante' - O que isso significa?

Os estatísticos baseiam-se em dois conceitos-chave: populações e amostras, para decidir se os recursos de dados disponíveis realmente ajudam a sua análise e estudo.

Concentramo-nos numa população - por outras palavras, em todos os pontos de dados imagináveis. Para o nosso cenário Titanic, queremos saber quais fatores levaram à sobrevivência de todos a bordo. Isto inclui os clandestinos não enumerados nos registos oficiais. Como segundo exemplo, para investigar a relação entre traços de personalidade e probabilidade de um navio afundar, nossa população cobriria todos os capitães de navios que já viveram.

Uma amostra refere-se aos dados de que dispomos, como um subconjunto da população total. Para o nosso conjunto de dados do Titanic, esta amostra abrange apenas as pessoas listadas na lista oficial de passageiros. Para o nosso segundo exemplo, a amostra pode abranger todos os capitães de navios que podemos convencer a fazer um teste de personalidade na nossa marina local.

Precisamos pensar se a amostra representa com precisão a população. Para o nosso exemplo do Titanic, nossa amostra é tão grande que provavelmente serve como uma boa representação da população. Por outro lado, para o nosso segundo exemplo, conversas apenas com capitães de navios em nossa marina local provavelmente não nos dão uma boa seção transversal dos marinheiros que encontraríamos em todo o mundo. Os dados da nossa marina local podem construir um modelo que funcione bem para os capitães locais, mas não nos ajudam a entender os capitães de outros países/regiões.

O que é um erro de dados?

O termo «erros de dados» refere-se a dados incorretos. Erros de dados suficientes podem distorcer um modelo, para que ele faça previsões incorretas de forma consistente. É simples: se você colocar dados ruins, você recebe previsões ruins.

Os erros nos dados são um fato da vida, e podemos agrupá-los em duas categorias:

O termo «erros de medição» refere-se a dados com medições de baixa qualidade na fase de recolha de dados. Estes erros são muitas vezes subtis e difíceis ou impossíveis de eliminar.

O termo «erros de introdução de dados» refere-se a dados recolhidos com precisão, mas depois colocados de forma incorreta ou imprecisa numa folha de cálculo ou num recurso de gestão de dados. Às vezes, podemos detetar erros de entrada de dados mais facilmente do que podemos detetar erros de medição. Por exemplo, podemos medir alguém com 1,8 metros de altura, mas errar a casa decimal e escrever 18 metros. Podemos ver facilmente o erro porque uma pessoa do tamanho de uma árvore é irrealista.

O que são dados completos?

Um conjunto de dados completo não tem dados ausentes. Os dados em falta têm dois tipos. Estes dados mostram a altura e o peso de Dylan, Reece e Tom:

Nome Altura (m) Peso (kg)
Guilherme 1.8 75
Reece 82

Os dados estão incompletos devido a uma amostra em falta: Tom. Além disso, os dados para Reece não mostram a altura de Reece.

Idealmente, trabalhamos sempre com dados completos, mas nem sempre temos dados completos disponíveis. Para dados incompletos, podemos:

  • Escolha um modelo que possa trabalhar com dados incompletos ou
  • Remover amostras (linhas) com dados incompletos e trabalhar com os dados restantes ou
  • Adicionar artificialmente valores como substitutos razoáveis para os dados em falta

Na maioria das vezes, escolher um modelo que possa lidar com dados ausentes funciona melhor, embora isso nem sempre seja possível. A remoção de dados incompletos é a abordagem mais fácil e geralmente funciona. No entanto, devemos ter cuidado para que a remoção de dados não faça com que uma amostra deturpe a população. A adição artificial de dados é geralmente um método de último recurso.

Na próxima unidade, trabalharemos com nosso conjunto de dados do Titanic para identificar e corrigir dados incompletos.