Jupyter-Beispielnotebooks zeigen das Anreichern von Daten mit öffentlichen Datasets.

Die Jupyter-Beispielnotebooks für öffentliche Azure-Datasets erklären, wie Sie öffentliche Datasets laden und zum Anreichern von Demodaten verwenden. Zu den Techniken gehören die Verwendung von Apache Spark und Pandas zur Verarbeitung von Daten.

Wichtig

Bei der Arbeit in einer Spark-fremden Umgebung ermöglichen öffentliche Datasets nur jeweils das Herunterladen der Daten eines Monats mit bestimmten Klassen, um Speicherfehler bei großen Datasets zu vermeiden.

Laden von NOAA-ISD-Daten (Integrated Surface Database)

Notebook	BESCHREIBUNG
Laden der Wetterdaten eines aktuellen Monats in einen Pandas-Datenrahmen	Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Pandas-Datenrahmen laden.
Laden der Wetterdaten eines aktuellen Monats in einen Spark-Datenrahmen	Erfahren Sie, wie Sie historische Wetterdaten in Ihren bevorzugten Spark-Datenrahmen laden.

Verknüpfen von Demodaten mit NOAA-ISD-Daten

Notebook	BESCHREIBUNG
Verknüpfen von Demodaten mit Wetterdaten: Pandas	Verknüpfen Sie ein Demodataset für einen Monat von Sensorstandorten mit Wettermesswerten in einem Pandas-Datenrahmen.
Verknüpfen von Demodaten mit Wetterdaten – Spark	Verknüpfen Sie ein Demodataset von Sensorstandorten mit Wettermesswerten in einem Spark-Datenrahmen.

Verknüpfen von Taxidaten aus New York mit NOAA-ISD-Daten

Notebook	BESCHREIBUNG
Taxifahrtendaten mit Wetterdaten angereichert – Pandas	Laden Sie Daten der grünen Taxis in New York (über einen Monat), und reichern Sie sie mit Wetterdaten in einem Pandas-Datenrahmen an. Dieses Beispiel überschreibt die `get_pandas_limit`-Methode und gleicht die Leistung beim Laden der Daten mit der Datenmenge ab.
Taxifahrtendaten mit Wetterdaten angereichert – Spark	Laden Sie Daten der grünen Taxis in New York, und reichern Sie sie mit Wetterdaten in einem Spark-Datenrahmen an.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2025-10-28