Identificar formatos de dados

Concluído

Os dados são uma coleção de fatos, como números, descrições e observações, usados para registrar informações. As estruturas de dados nas quais esses dados são organizados geralmente representam entidades que são importantes para uma organização (como clientes, produtos, ordens de venda e assim por diante). Cada entidade normalmente tem um ou mais atributos ou características (por exemplo, um cliente pode ter um nome, um endereço, um número de telefone e assim por diante).

Você pode classificar os dados como estruturados, semiestruturados ou não estruturados.

Dados estruturados

Dados estruturados são dados que aderem a um esquema fixo, portanto, todos os dados têm os mesmos campos ou propriedades. Mais comumente, o esquema para entidades de dados estruturados é tabular - em outras palavras, os dados são representados em uma ou mais tabelas que consistem em linhas para representar cada instância de uma entidade de dados e colunas para representar atributos da entidade. Por exemplo, a imagem a seguir mostra representações de dados tabulares para entidades Cliente e Produto .

Image showing how structured data is represented in tables

Os dados estruturados geralmente são armazenados em um banco de dados no qual várias tabelas podem fazer referência umas às outras usando valores-chave em um modelo relacional , que exploraremos mais detalhadamente mais adiante.

Dados semiestruturados

Dados semiestruturados são informações que têm alguma estrutura, mas que permitem alguma variação entre instâncias de entidade. Por exemplo, embora a maioria dos clientes possa ter um endereço de e-mail, alguns podem ter vários endereços de e-mail e outros podem não ter nenhum.

Um formato comum para dados semiestruturados é JavaScript Object Notation (JSON). O exemplo abaixo mostra um par de documentos JSON que representam informações do cliente. Cada documento do cliente inclui endereço e informações de contato, mas os campos específicos variam entre os clientes.

// Customer 1
{
  "firstName": "Joe",
  "lastName": "Jones",
  "address":
  {
    "streetAddress": "1 Main St.",
    "city": "New York",
    "state": "NY",
    "postalCode": "10099"
  },
  "contact":
  [
    {
      "type": "home",
      "number": "555 123-1234"
    },
    {
      "type": "email",
      "address": "joe@litware.com"
    }
  ]
}

// Customer 2
{
  "firstName": "Samir",
  "lastName": "Nadoy",
  "address":
  {
    "streetAddress": "123 Elm Pl.",
    "unit": "500",
    "city": "Seattle",
    "state": "WA",
    "postalCode": "98999"
  },
  "contact":
  [
    {
      "type": "email",
      "address": "samir@northwind.com"
    }
  ]
}

Nota

JSON é apenas uma das muitas maneiras pelas quais os dados semiestruturados podem ser representados. O objetivo aqui não é fornecer um exame detalhado da sintaxe JSON, mas sim ilustrar a natureza flexível das representações de dados semiestruturadas.

Dados não estruturados

Nem todos os dados são estruturados ou até semiestruturados. Por exemplo, documentos, imagens, dados de áudio e vídeo e arquivos binários podem não ter uma estrutura específica. Este tipo de dados é referido como dados não estruturados .

Image showing unstructured data in documents

Arquivos de dados

As organizações normalmente armazenam dados em formato estruturado, semiestruturado ou não estruturado para registrar detalhes de entidades (por exemplo, clientes e produtos), eventos específicos (como transações de vendas) ou outras informações em documentos, imagens e outros formatos. Os dados armazenados podem ser recuperados para análise e relatórios posteriores.

Existem duas grandes categorias de armazenamento de dados de uso comum:

  • Armazenamentos de arquivos
  • Bases de Dados

Exploraremos esses dois tipos de armazenamento de dados nos tópicos subsequentes.