Číst v angličtině

Sdílet prostřednictvím


Použití R pro Apache Spark

Microsoft Fabric poskytuje integrovanou podporu jazyka R pro Apache Spark. To zahrnuje podporu SparkR a sparklyr, která uživatelům umožňuje interakci se Sparkem pomocí známých rozhraní Spark nebo R. Data můžete analyzovat pomocí jazyka R prostřednictvím definic dávkových úloh Sparku nebo pomocí interaktivních poznámkových bloků Microsoft Fabric.

Tento dokument obsahuje přehled o vývoji aplikací Spark v Synapse pomocí jazyka R.

Požadavky

Vytváření a spouštění relací poznámkového bloku

Poznámkový blok Microsoft Fabric je webové rozhraní, které umožňuje vytvářet soubory, které obsahují živý kód, vizualizace a text vyprávění. Poznámkové bloky jsou vhodným místem pro ověřování nápadů a rychlé experimenty, které vám pomohou získat poznatky z dat. Poznámkové bloky se také běžně používají při přípravě dat, vizualizaci dat, strojovém učení a dalších scénářích velkých objemů dat.

Pokud chcete začít s jazykem R v poznámkových blocích Microsoft Fabric, změňte primární jazyk v horní části poznámkového bloku nastavením jazykové možnosti na SparkR (R).

Kromě toho můžete v jednom poznámkovém bloku použít více jazyků zadáním příkazu magic jazyka na začátku buňky.

%%sparkr
# Enter your R code here

Další informace o poznámkových blocích v Rámci Microsoft Fabric Analytics najdete v tématu Použití poznámkových bloků.

Instalace balíčků

Knihovny poskytují opakovaně použitelný kód, který můžete chtít zahrnout do svých programů nebo projektů. Pokud chcete zpřístupnit kód třetí strany nebo místně sestavený pro vaše aplikace, můžete knihovnu nainstalovat do jednoho z pracovních prostorů nebo relace poznámkového bloku.

Další informace o správě knihoven R najdete v tématu Správa knihoven jazyka R.

Nástroje poznámkového bloku

Microsoft Spark Utilities (MSSparkUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy. MsSparkUtils můžete použít k práci se systémy souborů, k získání proměnných prostředí, ke zřetězení poznámkových bloků a práci s tajnými kódy. MsSparkUtils je podporován pro poznámkové bloky R.

Začněte spuštěním následujících příkazů:

library(notebookutils)
mssparkutils.fs.help()

Další informace o podporovanýchpříkazch

Použití SparkR

SparkR je balíček R, který poskytuje lehký front-end pro použití Apache Sparku z R. SparkR poskytuje implementaci distribuovaného datového rámce, která podporuje operace, jako je výběr, filtrování, agregace atd. SparkR podporuje také distribuované strojové učení pomocí knihovny MLlib.

Další informace o používání SparkR najdete v tématu Jak používat SparkR.

Použití sparklyru

sparklyr je rozhraní R pro Apache Spark. Poskytuje mechanismus pro interakci se Sparkem pomocí známých rozhraní jazyka R. Minigrafyr můžete použít prostřednictvím definic dávkových úloh Sparku nebo s interaktivními poznámkovými bloky Microsoft Fabric.

Další informace o tom, jak používat sparklyr, najdete v tématu Jak používat sparklyr.

Použití Tidyverse

Tidyverse je kolekce balíčků R, které datoví vědci běžně používají při každodenních analýzách dat. Zahrnuje balíčky pro import dat (), vizualizaci dat (ggplot2readr), manipulaci s daty (dplyr, tidyr), funkční programování (purrr) a vytváření modelů (tidymodels) atd. Balíčky jsou tidyverse navržené tak, aby hladce spolupracovaly a dodržovaly konzistentní sadu principů návrhu. Microsoft Fabric distribuuje nejnovější stabilní verzi tidyverse s každou verzí modulu runtime.

Další informace o tom, jak používat Tidyverse, najdete v tématu Jak používat Tidyverse.

Vizualizace jazyka R

Ekosystém R nabízí několik knihoven grafů, které jsou součástí mnoha různých funkcí. Ve výchozím nastavení každá instance Sparku v Microsoft Fabric obsahuje sadu kurátorovaných a oblíbených opensourcových knihoven. Pomocí možností správy knihoven Microsoft Fabric můžete také přidávat nebo spravovat další knihovny nebo verze.

Další informace o vytváření vizualizací jazyka R najdete ve vizualizaci jazyka R.