Použití jazyka R pro Apache Spark

Microsoft Fabric poskytuje integrovanou podporu jazyka R pro Apache Spark. To zahrnuje podporu SparkR a sparklyr, která umožňuje uživatelům pracovat se Sparkem pomocí známých rozhraní Spark nebo R. Data můžete analyzovat pomocí jazyka R prostřednictvím definic dávkových úloh Sparku nebo pomocí interaktivních poznámkových bloků Microsoft Fabric.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.

Tento dokument obsahuje přehled vývoje aplikací Spark v Synapse pomocí jazyka R.

Požadavky

Vytváření a spouštění relací poznámkových bloků

Poznámkový blok Microsoft Fabric je webové rozhraní pro vytváření souborů, které obsahují živý kód, vizualizace a text vyprávění. Poznámkové bloky jsou vhodným místem pro ověřování nápadů a rychlé experimenty, které vám pomohou získat poznatky z dat. Poznámkové bloky se také často používají při přípravě dat, vizualizaci dat, strojovém učení a dalších scénářích s velkými objemy dat.

Pokud chcete začít používat jazyk R v poznámkových blocích Microsoft Fabric, změňte primární jazyk v horní části poznámkového bloku nastavením možnosti jazyka na SparkR (R).

Kromě toho můžete v jednom poznámkovém bloku použít více jazyků zadáním příkazu jazyka magic na začátku buňky.

%%sparkr
# Enter your R code here

Další informace o poznámkových blocích v rámci Microsoft Fabric Analytics najdete v tématu Používání poznámkových bloků.

Instalace balíčků

Knihovny poskytují opakovaně použitelný kód, který můžete chtít zahrnout do svých programů nebo projektů. Pokud chcete svým aplikacím zpřístupnit kód třetí strany nebo místně vytvořený kód, můžete do jednoho z pracovních prostorů nebo relace poznámkového bloku nainstalovat knihovnu.

Další informace o správě knihoven jazyka R najdete v tématu Správa knihoven jazyka R.

Nástroje poznámkových bloků

Microsoft Spark Utilities (MSSparkUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy. Pomocí nástroje MSSparkUtils můžete pracovat se systémy souborů, získávat proměnné prostředí, zřetězovat poznámkové bloky a pracovat s tajnými kódy. MsSparkUtils se podporuje pro poznámkové bloky jazyka R.

Začněte tím, že spustíte následující příkazy:

library(notebookutils)
mssparkutils.fs.help()

Další informace o podporovaných příkazech MSSparkUtils najdete v tématu Použití nástrojů Microsoft Spark Utilities.

Použití SparkR

SparkR je balíček R, který poskytuje jednoduchý front-end pro použití Apache Sparku z R. SparkR poskytuje implementaci distribuovaného datového rámce, která podporuje operace, jako je výběr, filtrování, agregace atd. SparkR také podporuje distribuované strojové učení pomocí MLlib.

Další informace o používání SparkR najdete v tématu Jak používat SparkR.

Použití sparklyru

sparklyr je rozhraní R pro Apache Spark. Poskytuje mechanismus pro interakci se Sparkem pomocí známých rozhraní R. Sparklyr můžete použít v definicích dávkových úloh Sparku nebo s interaktivními poznámkovými bloky Microsoft Fabric.

Další informace o tom, jak používat sparklyr, najdete v článku Jak používat sparklyr.

Poznámka

Použití SparkR a sparklyru ve stejné relaci poznámkového bloku se zatím nepodporuje.

Použití Tidyverse

Tidyverse je kolekce balíčků R, které datoví vědci běžně používají při každodenní analýze dat. Zahrnuje balíčky pro import dat (readr), vizualizaci dat (ggplot2), manipulaci s daty (dplyr, tidyr), funkční programování (purrr) a vytváření modelů (tidymodels) atd. Balíčky v tidyverse souboru jsou navržené tak, aby hladce spolupracovaly a dodržovaly konzistentní sadu principů návrhu. Microsoft Fabric distribuuje nejnovější stabilní verzi nástroje tidyverse s každou verzí modulu runtime.

Další informace o tom, jak používat Tidyverse, najdete v tématu Jak používat Tidyverse.

Vizualizace jazyka R

Ekosystém R nabízí několik knihoven grafů, které jsou dodávány s mnoha různými funkcemi. Ve výchozím nastavení každá instance Sparku v Microsoft Fabric obsahuje sadu kurátorovaných a oblíbených opensourcových knihoven. Pomocí funkcí správy knihoven Microsoft Fabric můžete také přidávat nebo spravovat další knihovny nebo verze.

Další informace o vytváření vizualizací jazyka R najdete v tématu Vizualizace jazyka R.

Další kroky