A Jupyter-jegyzetfüzetek például azt mutatják be, hogyan bővítheti az adatokat nyílt adatkészletekkel

Cikk
2024. 09. 01.

Az Azure Open Dataset-hez készült Jupyter-jegyzetfüzetek példa bemutatják, hogyan tölthető be a megnyitott adathalmazok, és hogyan bővíthetőek a bemutatóadatok. A technikák közé tartozik az Apache Spark és a Pandas használata az adatok feldolgozásához.

Fontos

Ha nem Spark-környezetben dolgozik, az Open Datasets lehetővé teszi, hogy egyszerre csak egy hónapnyi adatot töltsön le bizonyos osztályokban, így elkerülhetők a memóriahiba a nagy adathalmazokkal.

NOAA integrált Surface-adatbázis (ISD) adatainak betöltése

Jegyzetfüzet	Leírás
Időjárási adatok betöltése egy pandas-adatkeretbe az elmúlt egy hónapban	Megtudhatja, hogyan tölthet be korábbi időjárási adatokat kedvenc Pandas-adatkeretébe.
Az időjárási adatok legutóbbi hónapjának betöltése Spark-adatkeretbe	Megtudhatja, hogyan tölthet be korábbi időjárási adatokat kedvenc Spark-adatkeretébe.

Demóadatok csatlakoztatása NOAA ISD-adatokkal

Jegyzetfüzet	Leírás
Bemutatóadatok csatlakoztatása időjárási adatokkal – Pandas	Csatlakozzon egy egy hónapos demóadatkészlethez az érzékelőhelyekről egy Pandas-adatkeret időjárási adataival.
Bemutatóadatok csatlakoztatása időjárási adatokkal – Spark	Csatlakozzon egy demóadatkészlethez az érzékelőhelyekről, és az időjárási adatokat egy Spark-adatkeretben.

NYC taxiadatok csatlakoztatása NOAA ISD-adatokkal

Jegyzetfüzet	Leírás
Időjárási adatokkal gazdagított taxiútadatok – Pandas	Töltse be a NYC zöld taxiadatait (több mint egy hónap), és gazdagítsa azokat időjárási adatokkal egy Pandas-adatkeretben. Ez a példa felülbírálja a metódust `get_pandas_limit` , és az adatbetöltés teljesítményét az adatok mennyiségével egyensúlyozza.
Taxiút adatai időjárás-adatokkal gazdagítva – Spark	Töltse be az NYC zöld taxiadatait, és gazdagítsa azokat időjárási adatokkal a Spark-adatkeretben.

Következő lépések

További források

Oktatás

Modul

Adatelemzési adatok felfedezése jegyzetfüzetekkel a Microsoft Fabricben - Training

Megtudhatja, hogyan végezhet adatfeltárást adatelemzéshez Microsoft Fabric-jegyzetfüzetek használatával.

Tanúsítvány

Microsoft Tanúsított: Azure Adattudós Szaktárs - Certifications

Kezelheti az adatok betöltését és előkészítését, a modellek betanítását és üzembe helyezését, valamint a gépi tanulási megoldások monitorozását a Python, az Azure Machine Learning és az MLflow használatával.

Megosztás a következőn keresztül: