Introdução

Concluído

O fato de que os dados moldam o aprendizado de máquina dá ao aprendizado de máquina seu poder preditivo. Para criar modelos eficazes, você deve entender os dados que usa.

Aqui, exploramos como humanos e computadores categorizam, armazenam e interpretam dados. Examinamos o que torna um bom conjunto de dados e como corrigir problemas em nossos dados disponíveis. Também praticamos a exploração de novos dados e vemos como o pensamento profundo sobre um conjunto de dados pode nos ajudar a construir melhores modelos preditivos.

Cenário: a última viagem do Titanic

Como um arqueólogo marinho ansioso, você tem um interesse excepcionalmente grande em desastres marítimos. Tarde da noite, enquanto clica entre imagens de ossos de baleia e pergaminhos antigos sobre a Atlântida, você encontra um conjunto de dados público que lista passageiros e tripulantes conhecidos da primeira – e última – viagem do Titanic. Atraído pelo equilíbrio entre o destino e o acaso, você se pergunta – quais fatores determinaram a sobrevivência de um passageiro do Titanic? Os dados deste período são algo incompletos – muitas informações para certos passageiros são desconhecidas. Você deve encontrar maneiras de corrigir esses dados antes de poder analisá-los completamente.

Pré-requisitos

  • Alguma familiaridade com conceitos de aprendizagem automática - como modelos e custo - ajuda, mas não é necessária

Objetivos de aprendizagem

Neste módulo, irá:

  • Visualize grandes conjuntos de dados com a Análise Exploratória de Dados (EDA)
  • Limpar os erros de um conjunto de dados
  • Preveja valores desconhecidos com dados numéricos e categóricos