Identifizieren von Datenformaten

Abgeschlossen

Daten sind eine Sammlung von Fakten wie Zahlen, Beschreibungen und Beobachtungen, die zum Erfassen von Informationen verwendet werden. Datenstrukturen zur Organisation von Daten stellen häufig Entitäten dar, die für ein Unternehmen wichtig sind (z. B. Kunden, Produkte, Verkaufsaufträge usw.). Dabei verfügt jede Entität in der Regel über ein oder mehrere Attribute oder Merkmale (z. B. Name, Adresse oder Telefonnummer eines Kunden).

Daten können als strukturiert, teilweise strukturiert oder unstrukturiert klassifiziert werden.

Strukturierte Daten

Strukturierte Daten sind Daten, die einem festen Schema folgen, sodass alle Daten die gleichen Felder oder Eigenschaften aufweisen. In den meisten Fällen stellt das Schema für strukturierte Datenentitäten eine Tabelle dar. Dabei werden die Daten in einer oder mehreren Tabellen dargestellt, die aus Zeilen (für die einzelnen Instanzen einer Datenentität) und Spalten (für die Attribute der Entität) bestehen. Das folgende Beispiel zeigt etwa eine tabellarische Datendarstellung für die Entitäten Kunde und Produkt:

Image showing how structured data is represented in tables

Strukturierte Daten werden häufig in einer Datenbank gespeichert, in der mehrere Tabellen mithilfe von Schlüsselwerten in einem relationalen Modell aufeinander verweisen können. Ausführlichere Informationen hierzu erhalten Sie später in diesem Modul.

Teilweise strukturierte Daten

Bei teilweise strukturierten Daten handelt es sich um Informationen mit einer gewissen Struktur, die jedoch Abweichungen zwischen den Entitätsinstanzen zulässt. So besitzen beispielsweise die meisten Kunden eine E-Mail-Adresse, andere möglicherweise mehrere und wieder andere gar keine.

Ein gängiges Format für teilweise strukturierte Daten ist JavaScript Object Notation (JSON). Das folgende Beispiel zeigt JSON-Dokumente, die Kundeninformationen darstellen. Dabei enthält jedes Kundendokument Adress- und Kontaktinformationen, doch die Felder der einzelnen Kunden unterscheiden sich.

// Customer 1
{
  "firstName": "Joe",
  "lastName": "Jones",
  "address":
  {
    "streetAddress": "1 Main St.",
    "city": "New York",
    "state": "NY",
    "postalCode": "10099"
  },
  "contact":
  [
    {
      "type": "home",
      "number": "555 123-1234"
    },
    {
      "type": "email",
      "address": "joe@litware.com"
    }
  ]
}

// Customer 2
{
  "firstName": "Samir",
  "lastName": "Nadoy",
  "address":
  {
    "streetAddress": "123 Elm Pl.",
    "unit": "500",
    "city": "Seattle",
    "state": "WA",
    "postalCode": "98999"
  },
  "contact":
  [
    {
      "type": "email",
      "address": "samir@northwind.com"
    }
  ]
}

Hinweis

JSON ist nur eine von vielen Möglichkeiten zur Darstellung von teilweise strukturierten Daten. Diese Lerneinheit handelt nicht von einer ausführlichen Untersuchung der JSON-Syntax, sondern soll die Flexibilität der Darstellungsweise von teilweise strukturierten Daten veranschaulichen.

Unstrukturierte Daten

Nicht alle Daten sind strukturiert oder wenigstens teilweise strukturiert. So besitzen beispielsweise Dokumente, Bilder, Audio- und Videodaten sowie Binärdateien möglicherweise keine bestimmte Struktur. Diese Daten werden als unstrukturiert bezeichnet.

Image showing unstructured data in documents

Datenspeicher

Organisationen speichern Daten in der Regel im strukturierten, teilweise strukturierten oder unstrukturierten Format, um Details zu Entitäten (z. B. Kunden und Produkte), bestimmten Ereignissen (z. B. Verkaufstransaktionen) oder anderen Informationen in Dokumenten, Bildern und anderen Formaten zu erfassen. Die gespeicherten Daten können später zur Analyse und Berichterstellung abgerufen werden.

Die beiden gängigsten Kategorien für Datenspeicher sind:

  • Dateispeicher
  • Datenbanken

In den nachfolgenden Einheiten lernen Sie diese beiden Arten von Datenspeichern besser kennen.