PySpark az Azure Databricksben
Ez a cikk a PySpark, a Sparkhoz készült Python API alapjait ismerteti a Databricksen.
Az Azure Databricks az Apache Sparkra, a big data és a gépi tanulás egységes elemzési motorjára épül. A PySpark segítségével a Python programozási nyelv használatával kommunikálhat az Apache Sparkkal, amely egy könnyen elsajátítható, implementálható és karbantartható, rugalmas nyelv. Emellett számos lehetőséget kínál az adatvizualizációra a Databricksben. A PySpark egyesíti a Python és az Apache Spark erejét.
API-k és kódtárak
A Sparkhoz készült összes API-hoz hasonlóan a PySpark is számos API-val és kódtárral rendelkezik, amelyek lehetővé teszik és támogatják a hatékony funkciókat, többek között a következőket:
- Strukturált adatok feldolgozása relációs lekérdezésekkel a Spark SQL-lel és a DataFrame-ekkel. A Spark SQL lehetővé teszi, hogy SQL-lekérdezéseket keverjen Spark-programokkal. A Spark DataFrames segítségével hatékonyan olvashat, írhat, alakíthat át és elemezhet adatokat Python és SQL használatával, ami azt jelenti, hogy mindig a Spark teljes erejét használja ki. Tekintse meg a PySpark első lépéseit.
- Streamek méretezhető feldolgozása strukturált streameléssel. A streamelési számításokat ugyanúgy fejezheti ki, mint a statikus adatok kötegelt számításait, és a Spark SQL-motor növekményesen és folyamatosan futtatja azokat, ahogy a streamelési adatok folyamatosan érkeznek. Lásd a strukturált streamelés áttekintését.
- A Pandas adatstruktúrái és adatelemzési eszközei, amelyek az Apache Sparkon és a Pandas API-n működnek a Sparkon. A Sparkon futó Pandas API lehetővé teszi, hogy a pandas számítási feladatait bármilyen méretre skálázza úgy, hogy több csomóponton futtatja, egyetlen kódbázissal, amely a pandas (tesztek, kisebb adathalmazok) és a Spark (éles, elosztott adatkészletek) használatával működik. Tekintse meg a Pandas API-t a Sparkon – áttekintés.
- Gépi tanulási algoritmusok a Machine Tanulás (MLLib) használatával. Az MLlib egy Sparkra épülő skálázható gépi tanulási kódtár, amely egységes API-kat biztosít, amelyek segítenek a felhasználóknak gyakorlati gépi tanulási folyamatok létrehozásában és finomhangolásában. Lásd: Gépi Tanulás könyvtár áttekintése.
- Gráfok és gráf-párhuzamos számítások a GraphX-tal. A GraphX egy új irányított multigráfot vezet be az egyes csúcsokhoz és élekhez csatolt tulajdonságokkal, és gráfszámítási operátorokat, algoritmusokat és szerkesztőket tesz elérhetővé a gráfelemzési feladatok egyszerűsítése érdekében. Lásd a GraphX áttekintését.
DataFrame-ek, átalakítások és lusta kiértékelés
Az Apache Spark DataFrame-ek nevesített oszlopokba rendezett adathalmazok. Ezek kétdimenziós címkézett adatstruktúrák, különböző típusú oszlopokkal. A DataFrame-ek számos olyan függvényt biztosítanak, amelyek lehetővé teszik a gyakori adatelemzési problémák hatékony megoldását, és megkönnyítik az adatok átalakítását beépített módszerekkel az adatok rendezésére, szűrésére és összesítésére.
Az Apache Spark alapvető fontosságú az adatfeldolgozási műveletek két kategóriája: átalakítások és műveletek. A művelet egy értéket ad vissza, például count
: , first
és collect
. Egy átalakítási művelet( például filter
vagy groupBy
) egy DataFrame-et ad vissza, de nem hajtja végre, amíg egy művelet nem aktiválja azt. Ezt lusta kiértékelésnek nevezzük. A lusta kiértékelés lehetővé teszi több művelet láncolását is, mivel a Spark késleltetett módon kezeli a végrehajtásukat ahelyett, hogy azonnal végrehajtanák őket a definiálásukkor.
Spark-oktatóanyagok
Az Apache Spark-oktatóanyag mellett, amely végigvezeti az adatok DataFrame-eken keresztüli betöltésén és átalakításán, az Apache Spark dokumentációja rövid útmutatókat és útmutatókat tartalmaz a Spark megismeréséhez, beleértve a következő cikkeket:
- PySpark DataFrames – rövid útmutató
- Spark SQL – első lépések
- Strukturált streamelési programozási útmutató
- Pandas API a Spark rövid útmutatóján
- Gépi Tanulás könyvtár programozási útmutatója
PySpark-referencia
Az Azure Databricks fenntartja a PySpark API-k saját verzióját és a megfelelő hivatkozást, amely az alábbi szakaszokban található:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: