A Jupyter-jegyzetfüzetek például azt mutatják be, hogyan bővítheti az adatokat nyílt adatkészletekkel
Az Azure Open Dataset-hez készült Jupyter-jegyzetfüzetek példa bemutatják, hogyan tölthető be a megnyitott adathalmazok, és hogyan bővíthetőek a bemutatóadatok. A technikák közé tartozik az Apache Spark és a Pandas használata az adatok feldolgozásához.
Fontos
Ha nem Spark-környezetben dolgozik, az Open Datasets lehetővé teszi, hogy egyszerre csak egy hónapnyi adatot töltsön le bizonyos osztályokban, így elkerülhetők a memóriahiba a nagy adathalmazokkal.
NOAA integrált Surface-adatbázis (ISD) adatainak betöltése
Jegyzetfüzet | Leírás |
---|---|
Időjárási adatok betöltése egy pandas-adatkeretbe az elmúlt egy hónapban | Megtudhatja, hogyan tölthet be korábbi időjárási adatokat kedvenc Pandas-adatkeretébe. |
Az időjárási adatok legutóbbi hónapjának betöltése Spark-adatkeretbe | Megtudhatja, hogyan tölthet be korábbi időjárási adatokat kedvenc Spark-adatkeretébe. |
Demóadatok csatlakoztatása NOAA ISD-adatokkal
Jegyzetfüzet | Leírás |
---|---|
Bemutatóadatok csatlakoztatása időjárási adatokkal – Pandas | Csatlakozzon egy egy hónapos demóadatkészlethez az érzékelőhelyekről egy Pandas-adatkeret időjárási adataival. |
Bemutatóadatok csatlakoztatása időjárási adatokkal – Spark | Csatlakozzon egy demóadatkészlethez az érzékelőhelyekről, és az időjárási adatokat egy Spark-adatkeretben. |
NYC taxiadatok csatlakoztatása NOAA ISD-adatokkal
Jegyzetfüzet | Leírás |
---|---|
Időjárási adatokkal gazdagított taxiútadatok – Pandas | Töltse be a NYC zöld taxiadatait (több mint egy hónap), és gazdagítsa azokat időjárási adatokkal egy Pandas-adatkeretben. Ez a példa felülbírálja a metódust get_pandas_limit , és az adatbetöltés teljesítményét az adatok mennyiségével egyensúlyozza. |
Taxiút adatai időjárás-adatokkal gazdagítva – Spark | Töltse be az NYC zöld taxiadatait, és gazdagítsa azokat időjárási adatokkal a Spark-adatkeretben. |