Použití jazyka R pro Apache Spark
Microsoft Fabric poskytuje integrovanou podporu jazyka R pro Apache Spark. To zahrnuje podporu SparkR a sparklyr, která umožňuje uživatelům pracovat se Sparkem pomocí známých rozhraní Spark nebo R. Data můžete analyzovat pomocí jazyka R prostřednictvím definic dávkových úloh Sparku nebo pomocí interaktivních poznámkových bloků Microsoft Fabric.
Důležité
Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.
Tento dokument obsahuje přehled vývoje aplikací Spark v Synapse pomocí jazyka R.
Požadavky
Předplatné Power BI Premium. Pokud ho nemáte, podívejte se na článek Jak koupit Power BI Premium.
Pracovní prostor Power BI s přiřazenou kapacitou Premium Pokud pracovní prostor nemáte, vytvořte ho podle kroků v tématu Vytvoření pracovního prostoru a přiřaďte ho ke kapacitě Premium.
Přihlaste se k Microsoft Fabric.
Vytváření a spouštění relací poznámkových bloků
Poznámkový blok Microsoft Fabric je webové rozhraní pro vytváření souborů, které obsahují živý kód, vizualizace a text vyprávění. Poznámkové bloky jsou vhodným místem pro ověřování nápadů a rychlé experimenty, které vám pomohou získat poznatky z dat. Poznámkové bloky se také často používají při přípravě dat, vizualizaci dat, strojovém učení a dalších scénářích s velkými objemy dat.
Pokud chcete začít používat jazyk R v poznámkových blocích Microsoft Fabric, změňte primární jazyk v horní části poznámkového bloku nastavením možnosti jazyka na SparkR (R).
Kromě toho můžete v jednom poznámkovém bloku použít více jazyků zadáním příkazu jazyka magic na začátku buňky.
%%sparkr
# Enter your R code here
Další informace o poznámkových blocích v rámci Microsoft Fabric Analytics najdete v tématu Používání poznámkových bloků.
Instalace balíčků
Knihovny poskytují opakovaně použitelný kód, který můžete chtít zahrnout do svých programů nebo projektů. Pokud chcete svým aplikacím zpřístupnit kód třetí strany nebo místně vytvořený kód, můžete do jednoho z pracovních prostorů nebo relace poznámkového bloku nainstalovat knihovnu.
Další informace o správě knihoven jazyka R najdete v tématu Správa knihoven jazyka R.
Nástroje poznámkových bloků
Microsoft Spark Utilities (MSSparkUtils) je integrovaný balíček, který vám pomůže snadno provádět běžné úlohy. Pomocí nástroje MSSparkUtils můžete pracovat se systémy souborů, získávat proměnné prostředí, zřetězovat poznámkové bloky a pracovat s tajnými kódy. MsSparkUtils se podporuje pro poznámkové bloky jazyka R.
Začněte tím, že spustíte následující příkazy:
library(notebookutils)
mssparkutils.fs.help()
Další informace o podporovaných příkazech MSSparkUtils najdete v tématu Použití nástrojů Microsoft Spark Utilities.
Použití SparkR
SparkR je balíček R, který poskytuje jednoduchý front-end pro použití Apache Sparku z R. SparkR poskytuje implementaci distribuovaného datového rámce, která podporuje operace, jako je výběr, filtrování, agregace atd. SparkR také podporuje distribuované strojové učení pomocí MLlib.
Další informace o používání SparkR najdete v tématu Jak používat SparkR.
Použití sparklyru
sparklyr je rozhraní R pro Apache Spark. Poskytuje mechanismus pro interakci se Sparkem pomocí známých rozhraní R. Sparklyr můžete použít v definicích dávkových úloh Sparku nebo s interaktivními poznámkovými bloky Microsoft Fabric.
Další informace o tom, jak používat sparklyr, najdete v článku Jak používat sparklyr.
Poznámka
Použití SparkR a sparklyru ve stejné relaci poznámkového bloku se zatím nepodporuje.
Použití Tidyverse
Tidyverse je kolekce balíčků R, které datoví vědci běžně používají při každodenní analýze dat. Zahrnuje balíčky pro import dat (readr
), vizualizaci dat (ggplot2
), manipulaci s daty (dplyr
, tidyr
), funkční programování (purrr
) a vytváření modelů (tidymodels
) atd. Balíčky v tidyverse
souboru jsou navržené tak, aby hladce spolupracovaly a dodržovaly konzistentní sadu principů návrhu. Microsoft Fabric distribuuje nejnovější stabilní verzi nástroje tidyverse
s každou verzí modulu runtime.
Další informace o tom, jak používat Tidyverse, najdete v tématu Jak používat Tidyverse.
Vizualizace jazyka R
Ekosystém R nabízí několik knihoven grafů, které jsou dodávány s mnoha různými funkcemi. Ve výchozím nastavení každá instance Sparku v Microsoft Fabric obsahuje sadu kurátorovaných a oblíbených opensourcových knihoven. Pomocí funkcí správy knihoven Microsoft Fabric můžete také přidávat nebo spravovat další knihovny nebo verze.
Další informace o vytváření vizualizací jazyka R najdete v tématu Vizualizace jazyka R.