Examinar diferentes tipos de dados

Concluído

Dados são apenas mais uma palavra para a informação recolhida. Os volumes e massas de informação disponíveis são enormes, abrangendo muitos tipos de informação diferentes.

Podemos categorizar os dados de várias maneiras. Para operar no espaço de aprendizado de máquina, devemos entender tanto o tipo, quanto os sistemas de armazenamento digital, dos dados disponíveis para nós.

Dados contínuos, ordinais e categóricos

Para operações de dados, às vezes precisamos de consciência do que exatamente os dados representam. Essa consciência pode nos ajudar a escolher o modelo certo de aprendizado de máquina. Também pode ajudar-nos a organizar os nossos dados de formas específicas e úteis.

Dados contínuos referem-se a informações numéricas que podem aumentar ou diminuir em qualquer quantidade. Por exemplo, você pode adicionar 1 milímetro a 1 metro e calcular uma soma como 1.001 metros.

Dados categóricos referem-se a dados que não se enquadram em um espectro contínuo. Em nosso cenário, os dados categorizam as pessoas no Titanic como "tripulação" ou "passageiros". Os dados categóricos não podem ser armazenados como números de uma forma claramente óbvia.

Dados ordinais referem-se a dados categóricos que têm uma ordem definida e, portanto, podem suportar o armazenamento como valores numéricos. Por exemplo, podemos definir valores de grande, médio e pequeno como dados ordinais porque podemos classificá-los numericamente: grande > médio > pequeno. Em contrapartida, os valores maçã, laranja e coco são categóricos porque não podemos classificá-los. Os dados ordinais também podem referir-se a números que podem aumentar ou diminuir, mas apenas por quantidades definidas. Por exemplo, o número de pessoas que embarcam num barco é garantido como um número inteiro: ninguém pode fazer meia pensão.

IDs referem-se a um tipo especial de dados categóricos em que cada amostra tem seu próprio ID exclusivo. Por exemplo, em nosso conjunto de dados, cada pessoa no Titanic tem um determinado valor de ID, mesmo que essa pessoa tenha o mesmo nome que outra pessoa. Os valores de identidade nos ajudam a navegar em um conjunto de dados, mas nossa análise de dados não envolve diretamente esses valores.

Tipos de dados

Um computador deve armazenar e processar todos os dados que usamos para aprendizado de máquina. Enquanto podemos escrever quase todos os dados em um pedaço de papel com um lápis, os computadores armazenam informações como séries de 0 e 1. Isso impõe restrições à forma como usamos as informações.

Datatype refere-se ao tipo de dados que um computador armazena. Os tipos de dados geralmente têm estas categorias:

  • Números inteiros: contagem de números: por exemplo, 2
  • números de vírgula flutuante: números com casas decimais: por exemplo, 2,43
  • strings: letras e palavras
  • Booleanos: verdadeiro e falso
  • Nenhum, nulo ou nulo: não dados, mas sim a ausência de dados

Os termos exatos e a implementação desses conceitos variam de idioma para idioma, mas todos eles operam de maneira semelhante em todas as linguagens de computador.

Às vezes, dois tipos de dados diferentes oferecem funcionalidade equivalente. Por exemplo, os computadores podem manipular valores verdadeiros/falsos como booleanos (verdadeiro ou falso), cadeias de caracteres ('y' ou 'n'), inteiros (0 ou 1) ou até mesmo números de vírgula flutuante (0,0 ou 1,0).

Tipos de dados derivados

À medida que usamos a tecnologia, encontramos muitos tipos de dados mais básicos e "primitivos" além da lista acima. Os computadores podem armazenar datas, imagens, modelos 3D e assim por diante. Referimo-nos a estes como tipos de dados derivados. Começamos com um ou mais tipos de dados primitivos para construir um tipo de dados derivado.

Muitas vezes, no aprendizado de máquina, ajuda a converter tipos derivados em representações mais simples. Por exemplo, podemos armazenar um valor de data definido (por exemplo, 1º de janeiro de 2017) como um número inteiro ou de ponto flutuante: 20170101. Números inteiros ou de ponto flutuante facilitam os cálculos por trás de nossos modelos.

Demasiadas escolhas?

Conhecer o tipo de dados que você tem disponível pode ajudá-lo a escolher o tipo de dados certo.

O tipo de dados correto pode depender do pacote que você usa para executar seus modelos, embora, geralmente, os pacotes sejam permissivos. De um modo geral:

  • Para trabalhar com dados contínuos, os números de ponto flutuante tornam-se a melhor escolha.
  • Os dados ordinais normalmente codificam com valores inteiros.
  • Dados categóricos envolvendo apenas duas categorias geralmente podem codificar como dados booleanos ou inteiros. Trabalhar com três ou mais categorias pode tornar-se um pouco mais complicado. Não se preocupe - a próxima lição abordará este tópico!

No próximo exercício, praticaremos a visualização de dados, para entender melhor os dados em si. Ao fazer isso, observe cuidadosamente os tipos de dados envolvidos e tente identificar os tipos de dados contínuos, ordinais ou categóricos.