Sdílet prostřednictvím


Použití Pythonu pro Apache Spark

Microsoft Fabric poskytuje integrovanou podporu Pythonu pro Apache Spark. Podpora zahrnuje PySpark, který umožňuje uživatelům pracovat se Sparkem pomocí známých rozhraní Sparku nebo Pythonu.

Data můžete analyzovat pomocí Pythonu prostřednictvím definic dávkových úloh Sparku nebo pomocí interaktivních poznámkových bloků Prostředků infrastruktury. Tento článek obsahuje přehled vývoje aplikací Spark v Synapse pomocí jazyka Python.

Vytváření a spouštění relací poznámkového bloku

Poznámkový blok Microsoft Fabric je webové rozhraní, které umožňuje vytvářet soubory, které obsahují živý kód, vizualizace a text vyprávění. Poznámkové bloky jsou vhodným místem pro ověřování nápadů a rychlé experimenty, které vám pomohou získat poznatky z dat. Poznámkové bloky se také běžně používají při přípravě dat, vizualizaci dat, strojovém učení a dalších scénářích velkých objemů dat.

Pokud chcete začít s Pythonem v poznámkových blocích Microsoft Fabric, změňte primární jazyk v horní části poznámkového bloku nastavením jazykové možnosti na PySpark (Python).

%%pyspark
# Enter your Python code here

V jednom poznámkovém bloku můžete použít více jazyků zadáním příkazu magic jazyka na začátku buňky.

Další informace o poznámkovýchbloch

Instalace balíčků

Knihovny poskytují opakovaně použitelný kód, který můžete zahrnout do svých programů nebo projektů. Pokud chcete partnerovi zpřístupnit kód partnera nebo místně sestavený kód pro vaše aplikace, nainstalujte do relace poznámkového bloku knihovnu v řádku. Správce pracovního prostoru může také vytvořit prostředí, nainstalovat do ní knihovnu a připojit prostředí jako výchozí pracovní prostor v nastavení pracovního prostoru.

Další informace o správě knihoven v Microsoft Fabric najdete v tématu Správa knihoven Apache Spark.

Nástroje poznámkového bloku

Microsoft Spark Utilities (MSSparkUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy. MsSparkUtils můžete použít k práci se systémy souborů, k získání proměnných prostředí, ke zřetězení poznámkových bloků a práci s tajnými kódy. Nástroj MSSparkUtils je podporován pro poznámkové bloky PySpark.

Začněte spuštěním následujících příkazů:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Další informace o podporovanýchpříkazch

Použití Pandas ve Sparku

Rozhraní API Pandas ve Sparku umožňuje škálovat úlohy Pandas na libovolnou velikost tím, že ji spustíte napříč několika uzly. Pokud už knihovnu pandas znáte a chcete použít Spark pro velké objemy dat, rozhraní API pandas ve Sparku vám okamžitě produkuje produktivitu.

Aplikace můžete migrovat beze změny kódu. Můžete mít jediný základ kódu, který funguje s knihovnou pandas, pro testy a menší datové sady a se Sparkem pro produkční a distribuované datové sady. Mezi rozhraním PANDAS API a rozhraním Pandas API ve Sparku můžete snadno a bez režie přepínat.

Modul runtime Pythonu

Microsoft Fabric Runtime je kurátorované prostředí optimalizované pro datové vědy a strojové učení. Modul runtime Microsoft Fabric nabízí celou řadu oblíbených opensourcových knihoven Pythonu, včetně knihoven, jako jsou Pandas, PyTorch, scikit-learn a XGBoost.

Vizualizace v Pythonu

Ekosystém Pythonu nabízí několik knihoven grafů, které jsou součástí mnoha různých funkcí. Ve výchozím nastavení každá instance Sparku v Microsoft Fabric obsahuje sadu kurátorovaných a oblíbených opensourcových knihoven. Můžete také přidat nebo spravovat jiné knihovny nebo verze. Další informace o správě knihoven najdete v tématu Souhrn osvědčených postupů správy knihoven.

Další informace o vytváření vizualizací Pythonu najdete v tématu Vizualizace Pythonu.