Jupyter-Beispielnotebooks zeigen das Anreichern von Daten mit öffentlichen Datasets.
Die Jupyter-Beispielnotebooks für öffentliche Azure-Datasets erklären, wie Sie öffentliche Datasets laden und zum Anreichern von Demodaten verwenden. Zu den Techniken gehören die Verwendung von Apache Spark und Pandas zur Verarbeitung von Daten.
Wichtig
Bei der Arbeit in einer Spark-fremden Umgebung ermöglichen öffentliche Datasets nur jeweils das Herunterladen der Daten eines Monats mit bestimmten Klassen, um Speicherfehler bei großen Datasets zu vermeiden.
Laden von NOAA-ISD-Daten (Integrated Surface Database)
Notebook | BESCHREIBUNG |
---|---|
Laden der Wetterdaten eines aktuellen Monats in einen Pandas-Datenrahmen | Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Pandas-Datenrahmen laden. |
Laden der Wetterdaten eines aktuellen Monats in einen Spark-Datenrahmen | Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Spark-Datenrahmen laden. |
Verknüpfen von Demodaten mit NOAA-ISD-Daten
Notebook | BESCHREIBUNG |
---|---|
Verknüpfen von Demodaten mit Wetterdaten: Pandas | Verknüpfen Sie ein Demodataset für einen Monat von Sensorstandorten mit Wettermesswerten in einem Pandas-Datenrahmen. |
Verknüpfen von Demodaten mit Wetterdaten – Spark | Verknüpfen Sie ein Demodataset von Sensorstandorten mit Wettermesswerten in einem Spark-Datenrahmen. |
Verknüpfen von Taxidaten aus New York mit NOAA-ISD-Daten
Notebook | BESCHREIBUNG |
---|---|
Taxifahrtendaten mit Wetterdaten angereichert – Pandas | Laden Sie Daten der grünen Taxis in New York (über einen Monat), und reichern Sie sie mit Wetterdaten in einem Pandas-Datenrahmen an. Dieses Beispiel überschreibt die get_pandas_limit -Methode und gleicht die Leistung beim Laden der Daten mit der Datenmenge ab. |
Taxifahrtendaten mit Wetterdaten angereichert – Spark | Laden Sie Daten der grünen Taxis in New York, und reichern Sie sie mit Wetterdaten in einem Spark-Datenrahmen an. |