Použití R pro Apache Spark
Microsoft Fabric poskytuje integrovanou podporu jazyka R pro Apache Spark. To zahrnuje podporu SparkR a sparklyr, která uživatelům umožňuje interakci se Sparkem pomocí známých rozhraní Spark nebo R. Data můžete analyzovat pomocí jazyka R prostřednictvím definic dávkových úloh Sparku nebo pomocí interaktivních poznámkových bloků Microsoft Fabric.
Tento dokument obsahuje přehled o vývoji aplikací Spark v Synapse pomocí jazyka R.
Získejte předplatné Microsoft Fabric. Nebo si zaregistrujte bezplatnou zkušební verzi Microsoft Fabricu.
Přihlaste se k Microsoft Fabric.
Pomocí přepínače prostředí na levé straně domovské stránky přepněte na prostředí Synapse Datová Věda.
Poznámkový blok Microsoft Fabric je webové rozhraní, které umožňuje vytvářet soubory, které obsahují živý kód, vizualizace a text vyprávění. Poznámkové bloky jsou vhodným místem pro ověřování nápadů a rychlé experimenty, které vám pomohou získat poznatky z dat. Poznámkové bloky se také běžně používají při přípravě dat, vizualizaci dat, strojovém učení a dalších scénářích velkých objemů dat.
Pokud chcete začít s jazykem R v poznámkových blocích Microsoft Fabric, změňte primární jazyk v horní části poznámkového bloku nastavením jazykové možnosti na SparkR (R).
Kromě toho můžete v jednom poznámkovém bloku použít více jazyků zadáním příkazu magic jazyka na začátku buňky.
%%sparkr
# Enter your R code here
Další informace o poznámkových blocích v Rámci Microsoft Fabric Analytics najdete v tématu Použití poznámkových bloků.
Knihovny poskytují opakovaně použitelný kód, který můžete chtít zahrnout do svých programů nebo projektů. Pokud chcete zpřístupnit kód třetí strany nebo místně sestavený pro vaše aplikace, můžete knihovnu nainstalovat do jednoho z pracovních prostorů nebo relace poznámkového bloku.
Další informace o správě knihoven R najdete v tématu Správa knihoven jazyka R.
Microsoft Spark Utilities (MSSparkUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy. MsSparkUtils můžete použít k práci se systémy souborů, k získání proměnných prostředí, ke zřetězení poznámkových bloků a práci s tajnými kódy. MsSparkUtils je podporován pro poznámkové bloky R.
Začněte spuštěním následujících příkazů:
library(notebookutils)
mssparkutils.fs.help()
Další informace o podporovanýchpříkazch
SparkR je balíček R, který poskytuje lehký front-end pro použití Apache Sparku z R. SparkR poskytuje implementaci distribuovaného datového rámce, která podporuje operace, jako je výběr, filtrování, agregace atd. SparkR podporuje také distribuované strojové učení pomocí knihovny MLlib.
Další informace o používání SparkR najdete v tématu Jak používat SparkR.
sparklyr je rozhraní R pro Apache Spark. Poskytuje mechanismus pro interakci se Sparkem pomocí známých rozhraní jazyka R. Minigrafyr můžete použít prostřednictvím definic dávkových úloh Sparku nebo s interaktivními poznámkovými bloky Microsoft Fabric.
Další informace o tom, jak používat sparklyr, najdete v tématu Jak používat sparklyr.
Tidyverse je kolekce balíčků R, které datoví vědci běžně používají při každodenních analýzách dat. Zahrnuje balíčky pro import dat (), vizualizaci dat (ggplot2
readr
), manipulaci s daty (dplyr
, tidyr
), funkční programování (purrr
) a vytváření modelů (tidymodels
) atd. Balíčky jsou tidyverse
navržené tak, aby hladce spolupracovaly a dodržovaly konzistentní sadu principů návrhu. Microsoft Fabric distribuuje nejnovější stabilní verzi tidyverse
s každou verzí modulu runtime.
Další informace o tom, jak používat Tidyverse, najdete v tématu Jak používat Tidyverse.
Ekosystém R nabízí několik knihoven grafů, které jsou součástí mnoha různých funkcí. Ve výchozím nastavení každá instance Sparku v Microsoft Fabric obsahuje sadu kurátorovaných a oblíbených opensourcových knihoven. Pomocí možností správy knihoven Microsoft Fabric můžete také přidávat nebo spravovat další knihovny nebo verze.
Další informace o vytváření vizualizací jazyka R najdete ve vizualizaci jazyka R.