Resumo

Concluído

Cobrimos muito terreno. Vamos rever algumas das principais mensagens.

O que são dados?

Os dados dividem-se em várias categorias conceptuais. Os mais comuns são:

  • dados contínuos (números),
  • dados categóricos que não têm ordem,
  • dados ordinais, que podem ser tratados como números ou categorias ordenadas.

Os computadores armazenam dados como tipos distintos, e geralmente tentamos fazer corresponder o tipo de dados aos dados específicos. Por exemplo, para armazenar dados contínuos, os números de vírgula flutuante funcionam melhor, porque os números de vírgula flutuante permitem o armazenamento de frações. Por outro lado, os dados categóricos geralmente chegam como strings (texto) e devem ser convertidos em vetores one-hot para que o computador os compreenda corretamente.

O que faz um bom conjunto de dados?

Aprendemos que um conjunto de dados é útil se:

  • contenha informações relevantes,
  • está completa,
  • é uma boa representação da população (mundo real).

Se tivermos de lidar com dados incompletos, podemos tomar medidas para garantir que os dados incompletos não causem problemas significativos. Ao fazê-lo, devemos evitar a introdução de novas questões, como alterações que fariam com que os dados deixassem de ser representativos, por exemplo.

Pensar nos dados

Mostramos como a visualização de dados pode ajudar a construir uma compreensão do que pode ser útil em um modelo. O uso de diferentes tipos de gráficos, cores, e assim por diante, pode ser divertido e tornar informações complexas muito mais intuitivas.

Aprendemos que entender nossos dados nos permite tomar melhores decisões sobre nossos modelos. No exercício final, melhorámos o nosso modelo à medida que explorávamos a contagem de cabines no Titanic e considerámos como esta informação nos ajudou. No entanto, no geral, descobrimos que poderíamos melhorar isso através da simplificação em nove rótulos Deck.