PySpark az Azure Databricksben

Cikk
05/15/2024

Ez a cikk a PySpark, a Sparkhoz készült Python API alapjait ismerteti a Databricksen.

Az Azure Databricks az Apache Sparkra, a big data és a gépi tanulás egységes elemzési motorjára épül. A PySpark segítségével a Python programozási nyelv használatával kommunikálhat az Apache Sparkkal, amely egy könnyen elsajátítható, implementálható és karbantartható, rugalmas nyelv. Emellett számos lehetőséget kínál az adatvizualizációra a Databricksben. A PySpark egyesíti a Python és az Apache Spark erejét.

API-k és kódtárak

A Sparkhoz készült összes API-hoz hasonlóan a PySpark is számos API-val és kódtárral rendelkezik, amelyek lehetővé teszik és támogatják a hatékony funkciókat, többek között a következőket:

Strukturált adatok feldolgozása relációs lekérdezésekkel a Spark SQL-lel és a DataFrame-ekkel. A Spark SQL lehetővé teszi, hogy SQL-lekérdezéseket keverjen Spark-programokkal. A Spark DataFrames segítségével hatékonyan olvashat, írhat, alakíthat át és elemezhet adatokat Python és SQL használatával, ami azt jelenti, hogy mindig a Spark teljes erejét használja ki. Tekintse meg a PySpark első lépéseit.
Streamek méretezhető feldolgozása strukturált streameléssel. A streamelési számításokat ugyanúgy fejezheti ki, mint a statikus adatok kötegelt számításait, és a Spark SQL-motor növekményesen és folyamatosan futtatja azokat, ahogy a streamelési adatok folyamatosan érkeznek. Lásd a strukturált streamelés áttekintését.
A Pandas adatstruktúrái és adatelemzési eszközei, amelyek az Apache Sparkon és a Pandas API-n működnek a Sparkon. A Sparkon futó Pandas API lehetővé teszi, hogy a pandas számítási feladatait bármilyen méretre skálázza úgy, hogy több csomóponton futtatja, egyetlen kódbázissal, amely a pandas (tesztek, kisebb adathalmazok) és a Spark (éles, elosztott adatkészletek) használatával működik. Tekintse meg a Pandas API-t a Sparkon – áttekintés.
Gépi tanulási algoritmusok a Machine Tanulás (MLLib) használatával. Az MLlib egy Sparkra épülő skálázható gépi tanulási kódtár, amely egységes API-kat biztosít, amelyek segítenek a felhasználóknak gyakorlati gépi tanulási folyamatok létrehozásában és finomhangolásában. Lásd: Gépi Tanulás könyvtár áttekintése.
Gráfok és gráf-párhuzamos számítások a GraphX-tal. A GraphX egy új irányított multigráfot vezet be az egyes csúcsokhoz és élekhez csatolt tulajdonságokkal, és gráfszámítási operátorokat, algoritmusokat és szerkesztőket tesz elérhetővé a gráfelemzési feladatok egyszerűsítése érdekében. Lásd a GraphX áttekintését.

DataFrame-ek, átalakítások és lusta kiértékelés

Az Apache Spark DataFrame-ek nevesített oszlopokba rendezett adathalmazok. Ezek kétdimenziós címkézett adatstruktúrák, különböző típusú oszlopokkal. A DataFrame-ek számos olyan függvényt biztosítanak, amelyek lehetővé teszik a gyakori adatelemzési problémák hatékony megoldását, és megkönnyítik az adatok átalakítását beépített módszerekkel az adatok rendezésére, szűrésére és összesítésére.

Az Apache Spark alapvető fontosságú az adatfeldolgozási műveletek két kategóriája: átalakítások és műveletek. A művelet egy értéket ad vissza, például count: , firstés collect. Egy átalakítási művelet( például filter vagy groupBy) egy DataFrame-et ad vissza, de nem hajtja végre, amíg egy művelet nem aktiválja azt. Ezt lusta kiértékelésnek nevezzük. A lusta kiértékelés lehetővé teszi több művelet láncolását is, mivel a Spark késleltetett módon kezeli a végrehajtásukat ahelyett, hogy azonnal végrehajtanák őket a definiálásukkor.

Spark-oktatóanyagok

Az Apache Spark-oktatóanyag mellett, amely végigvezeti az adatok DataFrame-eken keresztüli betöltésén és átalakításán, az Apache Spark dokumentációja rövid útmutatókat és útmutatókat tartalmaz a Spark megismeréséhez, beleértve a következő cikkeket:

PySpark-referencia

Az Azure Databricks fenntartja a PySpark API-k saját verzióját és a megfelelő hivatkozást, amely az alábbi szakaszokban található:

Megosztás a következőn keresztül: