Python használata az Apache Sparkhoz

Fontos

A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosítható. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.

A Microsoft Fabric beépített Python-támogatást nyújt az Apache Sparkhoz. Ez magában foglalja a PySpark támogatását, amely lehetővé teszi a felhasználók számára, hogy ismerős Spark- vagy Python-felületekkel kommunikáljanak a Sparkkal. Az adatokat Spark batch-feladatdefiníciókkal vagy interaktív Fabric-jegyzetfüzetekkel elemezheti a Python használatával. Ez a dokumentum áttekintést nyújt a Spark-alkalmazások Synapse-ban a Python nyelv használatával történő fejlesztéséről.

Jegyzetfüzet-munkamenetek létrehozása és futtatása

A Microsoft Fabric notebook egy webes felület, amellyel élő kódot, vizualizációkat és elbeszélő szöveget tartalmazó fájlokat hozhat létre. A notebookok kitűnően alkalmasak az ötletek kipróbálására és gyors kísérletek elvégzésére, amelyekkel megállapításokat tehet az adatokról. A jegyzetfüzeteket széles körben használják az adatok előkészítésében, az adatvizualizációkban, a gépi tanulásban és más big data-forgatókönyvekben is.

Ha a Pythont a Microsoft Fabric-jegyzetfüzetekben szeretné használni, módosítsa az elsődleges nyelvet a jegyzetfüzet tetején úgy, hogy a nyelvi beállítást PySpark (Python) értékre állítja.

Emellett több nyelvet is használhat egy jegyzetfüzetben a cella elején található nyelvvarázsló parancs megadásával.

%%pyspark
# Enter your Python code here

A Microsoft Fabric Analyticsben található jegyzetfüzetekről a Jegyzetfüzetek használata című témakörben olvashat bővebben.

Csomagok telepítése

A kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet érdemes lehet belefoglalni a programokba vagy projektekbe. Ha elérhetővé szeretné tenni a külső vagy helyileg létrehozott kódot az alkalmazások számára, telepíthet egy tárat az egyik munkaterületre vagy jegyzetfüzet-munkamenetre.

A Python-kódtárak kezelésével kapcsolatos további információkért lásd: Python-kódtár-kezelés.

Jegyzetfüzet-segédprogramok

A Microsoft Spark Utilities (MSSparkUtils) egy beépített csomag, amely segít a gyakori feladatok egyszerű végrehajtásában. Az MSSparkUtils használatával együttműködhet a fájlrendszerekkel, lekérheti a környezeti változókat, összekapcsolhatja a jegyzetfüzeteket, és titkos kódokkal dolgozhat. Az MSSparkUtils pySpark-jegyzetfüzetekhez támogatott.

Első lépésként futtassa a következő parancsokat:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

További információ a támogatott MSSparkUtils-parancsokról a Microsoft Spark Utilities használata című témakörben.

Pandas használata a Sparkban

A Sparkon futó Pandas API lehetővé teszi, hogy a Pandas számítási feladatait bármilyen méretre skálázza úgy, hogy több csomóponton futtatja. Ha már ismeri a pandast, és szeretné használni a Sparkot big data-adatokhoz, a Sparkon futó Pandas API azonnal hatékonyabbá teszi, és lehetővé teszi az alkalmazások migrálását a kód módosítása nélkül. Egyetlen kódbázissal rendelkezhet, amely a pandas (tesztek, kisebb adathalmazok) és a Spark (éles, elosztott adathalmazok) használatával is működik, és egyszerűen és többletterhelés nélkül válthat a pandas API és a Pandas API között a Sparkon.

Python-futtatókörnyezet

A Microsoft Fabric Runtime egy válogatott környezet, amely adatelemzésre és gépi tanulásra van optimalizálva. A Microsoft Fabric-futtatókörnyezet számos népszerű, nyílt forráskódú Python-kódtárat kínál, köztük olyan kódtárakat, mint a Pandas, a PyTorch, a Scikit-Learn, az XGBoost és sok más.

Python-vizualizáció

A Python-ökoszisztéma több gráfkódtárat is kínál, amelyek számos különböző funkcióval rendelkeznek. Alapértelmezés szerint a Microsoft Fabric összes Spark-példánya válogatott és népszerű nyílt forráskódú kódtárakat tartalmaz. További kódtárakat vagy verziókat is hozzáadhat vagy kezelhet a Microsoft Fabric könyvtárkezelési képességeivel.

További információ a Python-vizualizációk létrehozásáról a Python-vizualizációk megtekintésével.

Következő lépések