Introdução
O fato de que os dados moldam o aprendizado de máquina dá ao aprendizado de máquina seu poder preditivo. Para criar modelos eficazes, você deve entender os dados que usa.
Aqui, exploramos como humanos e computadores categorizam, armazenam e interpretam dados. Examinamos o que torna um bom conjunto de dados e como corrigir problemas em nossos dados disponíveis. Também praticamos a exploração de novos dados e vemos como o pensamento profundo sobre um conjunto de dados pode nos ajudar a construir melhores modelos preditivos.
Cenário: a última viagem do Titanic
Como um arqueólogo marinho ansioso, você tem um interesse excepcionalmente grande em desastres marítimos. Tarde da noite, enquanto clica entre imagens de ossos de baleia e pergaminhos antigos sobre a Atlântida, você encontra um conjunto de dados público que lista passageiros e tripulantes conhecidos da primeira – e última – viagem do Titanic. Atraído pelo equilíbrio entre o destino e o acaso, você se pergunta – quais fatores determinaram a sobrevivência de um passageiro do Titanic? Os dados deste período são algo incompletos – muitas informações para certos passageiros são desconhecidas. Você deve encontrar maneiras de corrigir esses dados antes de poder analisá-los completamente.
Pré-requisitos
- Alguma familiaridade com conceitos de aprendizagem automática - como modelos e custo - ajuda, mas não é necessária
Objetivos de aprendizagem
Neste módulo, irá:
- Visualize grandes conjuntos de dados com a Análise Exploratória de Dados (EDA)
- Limpar os erros de um conjunto de dados
- Preveja valores desconhecidos com dados numéricos e categóricos