Jupyter-Beispielnotebooks zeigen das Anreichern von Daten mit öffentlichen Datasets.

Die Jupyter-Beispielnotebooks für öffentliche Azure-Datasets zeigen Ihnen, wie Sie öffentliche Datasets laden und zum Anreichern von Demodaten verwenden. Zu den Techniken gehören die Verwendung von Apache Spark und Pandas zur Verarbeitung von Daten.

Wichtig

Bei der Arbeit in einer Spark-fremden Umgebung ermöglichen öffentliche Datasets nur jeweils das Herunterladen der Daten eines Monats mit bestimmten Klassen, um Speicherfehler bei großen Datasets zu vermeiden.

Laden von NOAA-ISD-Daten (Integrated Surface Database)

Notebook BESCHREIBUNG
Laden der Wetterdaten eines aktuellen Monats in einen Pandas-Datenrahmen Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Pandas-Datenrahmen laden.
Laden der Wetterdaten eines aktuellen Monats in einen Spark-Datenrahmen Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Spark-Datenrahmen laden.

Verknüpfen von Demodaten mit NOAA-ISD-Daten

Notebook BESCHREIBUNG
Verknüpfen von Demodaten mit Wetterdaten: Pandas Verknüpfen Sie ein Demodataset für einen Monat von Sensorstandorten mit Wettermesswerten in einem Pandas-Datenrahmen.
Verknüpfen von Demodaten mit Wetterdaten – Spark Verknüpfen Sie ein Demodataset von Sensorstandorten mit Wettermesswerten in einem Spark-Datenrahmen.

Verknüpfen von Taxidaten aus New York mit NOAA-ISD-Daten

Notebook BESCHREIBUNG
Taxifahrtendaten mit Wetterdaten angereichert – Pandas Laden Sie Daten der grünen Taxis in New York (über einen Monat), und reichern Sie sie mit Wetterdaten in einem Pandas-Datenrahmen an. Dieses Beispiel überschreibt die get_pandas_limit-Methode und gleicht die Leistung beim Laden der Daten mit der Datenmenge ab.
Taxifahrtendaten mit Wetterdaten angereichert – Spark Laden Sie Daten der grünen Taxis in New York, und reichern Sie sie mit Wetterdaten in einem Spark-Datenrahmen an.

Nächste Schritte