Spouštění skriptů R

Článek
10/20/2020

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Přečtěte si informace o přesunu projektů strojového učení z ML Studia (classic) do Azure Machine Learning.
Přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Spustí skript R z experimentu Machine Learning Studio (classic)

Kategorie: Jazykové moduly jazyka R

Poznámka

Platí pro: pouze Machine Learning Studio (classic)

Podobné moduly pro přetažení jsou dostupné v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Execute R Script v Machine Learning Studiu (classic) volat a spouštět kód jazyka R v experimentech.

Přidáním kódu R do tohoto modulu můžete provádět různé přizpůsobené úlohy, které nejsou v sadě Studio dostupné (klasické). Příklad:

Vytváření vlastních transformací dat
Použití vlastních metrik k vyhodnocení predikcí
Vytváření modelů pomocí algoritmů, které nejsou implementovány jako samostatné moduly v sadě Studio (classic)

Verze jazyka R podporované v sadě Studio (Classic)

Studio (classic) podporuje typickou distribuci R, která je k dispozici z CRAN, a Microsoft R Open (MRO), která zahrnuje všechny základní balíčky R a balíčky Revo.

Můžete určit, kterou verzi jazyka R se má použít v experimentu. Do pracovního prostoru ale nemůžete nainstalovat žádnou jinou verzi jazyka R.

Než zvolíte distribuci jazyka R, doporučujeme určit, které balíčky potřebujete. Některé balíčky nejsou kompatibilní s CRAN R i Microsoft R Open.

Poznámka

V současné době je modul Create R Model omezený na konkrétní verzi jazyka R. Proto pokud v experimentu používáte vlastní model R, musí všechny moduly Execute R Script ve stejném experimentu používat stejnou verzi jazyka R. Podporovanou verzi jazyka R najdete v následujícím článku, balíčky R podporované aplikací Machine Learning Studio (classic).

Podporované balíčky R

Prostředí R v Machine Learning už má nainstalovaných více než 500 balíčků R. Samozřejmě ne všechny jsou standardně načteny, ale můžete je snadno načíst jako součást kódu R.

Pokud chcete získat seznam všech aktuálních balíčků, přidejte následující kód do modulu Execute R Script a spusťte ho.

data.set <- data.frame(installed.packages())
maml.mapOutputPort("data.set")

Toto téma obsahuje seznam balíčků podporovaných v Machine Learning a jejich kompatibilitu s CRAN R a Microsoft R Open, viz balíčky R podporované Machine Learning Studio (classic).

Instalace nových balíčků R

Do pracovního prostoru nainstalujete nové balíčky R pomocí modulu Execute R Script . Balíčky se musí nahrávat ve formátu zip. Když se experiment načte do prostředí modulu runtime Azure, balíčky se rozbalí a přidají se do prostředí R ve vašem pracovním prostoru experimentu. Další informace najdete v tématu Postup instalace nových balíčků R

Balíčky, které byly rozbalené, se v pracovním prostoru nezachovají, když experiment není spuštěný. Z tohoto důvodu musí být všechny další balíčky R, které plánujete použít, dostupné ve vašem pracovním prostoru nebo v úložišti Azure ve formátu zip.

Balíčky nelze sdílet mezi samostatnými instancemi modulu Execute R Script , protože každý modul může být načten do jiného kontejneru za běhu. Objekty R ale můžete sdílet mezi moduly jejich zveřejněním jako datové sady. Další informace najdete v tématu Předání objektů R mezi moduly.

Ukázkové experimenty

V galerii Azure AI existuje mnoho příkladů vlastních skriptů jazyka R:

Výkon studentů: Pomocí vlastního skriptu R zkombinujete výsledky vyhodnocení pro více modelů do jedné datové sady. Tato ukázka také používá kód jazyka R v modulu Execute R Script k výpočtu 16 sloupců závislých na čase.
Rakovina prsu: Používá vlastní kód v modulu Execute R Script k replikaci pozitivních příkladů a kombinování metrik.
Prognózování časových řad: Tato ukázka používá ke generování vlastních metrik skript R a jejich kombinování do jedné tabulky pomocí modulu Přidat řádky .

Postup konfigurace spouštění skriptu R

Pokud chcete nakonfigurovat modul Execute R Script , zadáte sadu volitelných vstupů a kód jazyka R, který se má spustit v pracovním prostoru.

Můžete také přidat soubory obsahující další kód jazyka R, pokud je připravíte v souboru zip archivu pro přílohu vstupu sady skriptů .

Pokud chcete nainstalovat další balíčky, zahrňte je do souboru zip archivu.

Přidejte do experimentu modul Spustit skript jazyka R . Tento modul najdete ve Machine Learning Studiu (classic) ve skupině Moduly jazyka R.
Připojení všechny vstupy potřebné skriptem. Vstupy můžou zahrnovat data, balíčky R, které jste přidali do pracovního prostoru ve formátu zip souboru a další kód R.
- Datová sada1: Prvním vstupem je připojení hlavní datové sady (volitelné). Vstupní datová sada musí být naformátovaná jako soubor CSV, TSV nebo ARFF nebo můžete připojit Machine Learning datovou sadu.
- Datová sada2: Druhý vstup (volitelné) podporuje přidání druhé datové sady. Tato datová sada musí být také naformátovaná jako soubor CSV, TSV nebo ARFF nebo můžete připojit Machine Learning datovou sadu.
- Sada skriptů: Třetí vstup, který je volitelný, přebírá soubor ve formátu .ZIP. Zipovaný soubor může obsahovat více souborů a více typů souborů. Komprimovaný archiv může například obsahovat kód R v souboru skriptu, objekty R pro použití skriptem, balíček R, který byl samotný součástí .ZIP formátu nebo datových sad v některém z podporovaných formátů.
Do textového pole Skript jazyka R zadejte skript jazyka R. To je nejjednodušší způsob, jak pracovat s datovými sadami na vstupních uzlech.

Abyste mohli začít, textové pole Skript jazyka R je předem vyplněné následujícím ukázkovým kódem, který můžete upravit nebo nahradit.
```
# Map 1-based optional input ports to variables
dataset1 <- maml.mapInputPort(1) # class: data.frame
dataset2 <- maml.mapInputPort(2) # class: data.frame

# Contents of optional Zip port are in ./src/
# source("src/yourfile.R");
# load("src/yourData.rdata");

# Sample operation
colnames(dataset2) <- c(dataset1['nombre_columna'])$nombre_columna;
data.set = dataset2;

# You'll see this output in the R Device port.
# It'll have your stdout, stderr and PNG graphics device(s).   

# Select data.frame to be sent to the output Dataset port
maml.mapOutputPort("data.set"); 
```
Další informace o použití vstupů a zápisu k výstupům najdete v ukázkách kódu jazyka R v tomto tématu.

Poznámka

Kód jazyka R, který běží v externích nástrojích, může potřebovat malé změny ke spuštění v experimentu azure ML. Například vstupní data, která zadáte ve formátu CSV, by se měla explicitně převést na datovou sadu, abyste je mohli použít ve svém kódu. Datové a sloupcové typy používané v jazyce R se také liší některými způsoby od datových a sloupcových typů používaných v Machine Learning. Podrobnosti najdete v části Technické poznámky .
Spuštění modulu R Script je spuštěné v sandboxu prostředí R, nedoporučuje se v tomto modulu nastavit připojení HTTP/SQL.
Náhodné počáteční hodnoty: Zadejte hodnotu, která se má použít v prostředí R jako náhodná počáteční hodnota. Tento parametr je ekvivalentní volání set.seed(value) v kódu jazyka R.
Verze jazyka R: Vyberte verzi jazyka R, která se má načíst v pracovním prostoru.
- CRAN R 3.1.0: Komplexní archivní síť R je úložiště pro jazyk open source R. Další informace najdete na webu CRAN.
- Microsoft R Open 3.2.2: MRO je rozšířená distribuce R od společnosti Microsoft Corporation. Jedná se o open source platformu založenou na modulu open source R a plně kompatibilní se všemi balíčky, skripty a aplikacemi R, které pracují se stejnou verzí jazyka R. MrO ale poskytuje lepší výkon oproti standardní distribuci jazyka R z důvodu použití vysoce výkonných matematických knihoven s více vlákny. Další informace najdete v tématu Microsoft R Open.
- Do pracovního prostoru nelze nainstalovat žádnou jinou verzi jazyka R.
- Machine Learning podporuje více verzí jazyka R, ale v jakémkoli experimentu je možné použít pouze jednu verzi.
Spusťte experiment nebo vyberte modul Spustit skript jazyka R a klikněte na Tlačítko Spustit.

Výsledky

Modul může vrátit více výstupů.

Pokud chcete datovou sadu získat zpět, měl by kód R vrátit jeden datový rámec R.
Obrázky můžete zobrazit v grafickém zařízení jazyka R, který se zobrazí v oblasti protokolu Machine Learning Studio (classic).
Pokud chcete zachovat obrázky, můžete je napsat do souboru nebo je serializovat do tabulkového formátu.
Objekty můžete uložit do pracovního prostoru.
Standardní zprávy a chyby z jazyka R se vrátí do protokolu modulu.

(1) Datová sada výsledků

Tento výstup obsahuje datový rámec, který vygeneruje kód R v modulu.

Vypíšete pouze jeden datový rámec. Jiné tabulkové objekty musí být převedeny na datový rámec pomocí funkcí R. Výstup datového rámce kódem R modulu se automaticky převede do interního formátu tabulky dat .

Chcete-li ověřit, že vrácený objekt je kompatibilní se sadou Studio (Classic), použijte is.data.frame, který musí vrátit hodnotu True.
Pokud chcete vrátit další objekty R, zkuste objekt serializovat do bajtového pole nebo použít funkci, která vrátí požadovaná data jako data.frame.

(2) Zařízení R

Zařízení R podporuje výstup konzoly (standardní výstup i standardní chybu) a zobrazení grafiky PNG pomocí interpretu R.

Pokud chcete zobrazit zprávy odeslané do konzoly R (standardní výstup a standardní chyba), klikněte pravým tlačítkem myši na modul po dokončení spuštění, vyberte zařízení R a vyberte Vizualizovat.
Pokud chcete zobrazit grafiku vygenerovanou na portu zařízení R, klikněte po dokončení spuštění na modul pravým tlačítkem myši, vyberte zařízení R a vyberte Vizualizovat.

Například následující obrázek je generován pouze několika řádky kódu R.

Example word cloud

Tyto ukázky a související ukázky najdete v galerii Azure AI.

Pokud chcete uložit image generované modulem Spustit skript jazyka R , klikněte pravým tlačítkem myši na obrázek a uložte místní kopii. Nebo můžete pomocí volání některé z funkcí grafického zařízení R napsat soubor obrázku do účtu úložiště objektů blob Azure přidruženého k experimentu, jak je popsáno v tomto příkladu.

Ukázkové skripty jazyka R a tipy jazyka R

Experiment můžete rozšířit pomocí vlastního skriptu jazyka R. Tato část obsahuje ukázkový kód pro některé běžné úlohy.

Přidání skriptu jazyka R jako vstupu

Modul Execute R Script podporuje použití libovolných souborů skriptů R jako vstupů, pokud jsou předem připravené a nahrané do vašeho pracovního prostoru jako součást souboru ZIP.

Chcete-li nahrát soubor ZIP obsahující kód R do pracovního prostoru, klepněte na tlačítko Nový, klepněte na položku Datová sada a pak vyberte Z místního souboru a možnost Zip.
Po nahrání zkomprimovaného balíčku do studia (Classic) ověřte, že je soubor zip dostupný v seznamu Uložené datové sady a pak datovou sadu připojte ke vstupnímu portu sady skriptů .
Pokud váš soubor zip obsahuje libovolný balíček R, který ještě není nainstalovaný v Machine Learning Studiu (classic), musíte balíček R nainstalovat jako součást vlastního kódu v modulu Execute R Script. Všechny soubory obsažené v souboru ZIP jsou k dispozici během běhu experimentu.

Pokud soubor sady skriptů obsahoval adresářovou strukturu, struktura se zachová. Musíte ale změnit kód tak, aby se předsoul adresář src na cestu.

Generování obrázků, modelů a dalších objektů

Pokud potřebujete vygenerovat obrázek nebo jakýkoli jiný libovolný objekt R, můžete ho serializovat do bajtového pole a pak jako datový.rámec, jak je znázorněno v tomto příkladu:

as.data.frame(as.integer(serialize(g,con=NULL)));

Graph datových rámců z https://igraph.org/r/ knihovny nepodporují serializaci jako datový rámec. Místo toho pomocí get.data.frame funkce v igraph balíčku vložte informace o hraničních a vrcholech do datového rámce.

vertices <- get.data.frame(g, what="vertices")

Pak můžete objekt grafu vrátit jako datový.frame, který můžete získat z modulu Execute R Script .

edges <- get.data.frame(g, what="edges")

Čtení ze vstupu a zápisu do výstupu

Následující příklad ukazuje, jak používat vstupní a výstupní porty. Načte vstupní data jako tabulku a připojí kopii tabulky k sobě, čímž efektivně zvětšuje velikost tabulky. Výsledek se pak odešle do výstupního portu.

# Map existing dataset to first input port  
dataset1 <- maml.mapInputPort(1) # class: data.frame  
# Concatenate dataset1 to dataset 1  
newdataset = rbind(dataset1, dataset1)  
# Send the combined dataset to the output port  
maml.mapOutputPort("newdataset");

Čtení souboru ZIP jako vstupu

Tento příklad ukazuje, jak přidat datovou sadu do Machine Learning Studia (classic) ve formátu zip a pak použít data jako vstup do modulu Execute R Script.

Vytvořte datový soubor ve formátu CSV a pojmenujte ho "mydatafile.csv".
Vytvořte soubor .ZIP a přidejte soubor CSV do archivu.
Upload zazipovaný soubor do vašeho pracovního prostoru Machine Learning, jak je popsáno tady: Rozbalte zazipované datové sady.
Připojení výsledné datové sady do vstupu ScriptBundle modulu Execute R Script. Jinými slovy, zatím ho nevybalujte!
Pomocí následujícího kódu si přečtěte data CSV ze zazipovaného souboru. V případě potřeby určete kódování, které se používá v datovém souboru, aby se zabránilo chybám později.

mydataset=read.csv("src/newdata.csv",encoding="UTF-8");  
nrow(mydataset);  
ncol(mydataset);  
# Map new dataset to the first output port  
maml.mapOutputPort("mydataset");

Poznámka

Všechna data předaná modulu Execute R Script se převedou do data.frame formátu pro použití s kódem R. To platí pro všechna data, která jsou kompatibilní s použitými DataTable format Machine Learning, včetně souborů CSV, souborů ARFF atd.

Replikace řádků

V této ukázce se dozvíte, jak replikovat pozitivní vzorky v datové sadě faktorem 20 k vyvážení vzorku.

dataset <- maml.mapInputPort(1)
data.set <- dataset[dataset[,1]==-1,]  
pos <- dataset[dataset[,1]==1,]  
for (i in 1:20) data.set <- rbind(data.set,pos)  
row.names(data.set) <- NULL
maml.mapOutputPort("data.set")

Volání vlastního učení na základě balíčku Arules

Nové balíčky R můžete do pracovního prostoru Machine Learning nainstalovat tak, že je nahrajete jako soubor .ZIP, jak je popsáno tady. Následující kód ukazuje, jak použít nahraný balíček.

Předpokládejme, že už arulesarulesViz byly do pracovního prostoru přidány balíčky.
Připojení nahraného .ZIP souboru do třetího vstupního portu modulu Execute R Script.
V textovém poli Skript jazyka R zavolejte následující algoritmus pravidel přidružení , který poskytuje balíček Arulesjazyka R, a použijte učení v úkolu analýzy koše trhu.

library("arules")  
library("arulesViz")  
dataset <- read.transactions(file="src/SalesReport.csv", rm.duplicates= TRUE,     format="single",sep=",",cols =c(1,2))
#dataset <- sapply(dataset,as.factor)  
basket <- apriori(dataset,parameter = list(sup = 0.5, conf = 0.9,target="rules"));  
inspect(basket)  
# if this is not NULL i.e. if there are rules
plot(basket)

Volání vlastního učení Naïve Bayes

Tento příklad ukazuje, jak volat knihovnu jazyka R, která není součástí studia (classic).

Upload komprimovaný soubor obsahující knihovnu e1071 do pracovního prostoru.
Připojení nahraného .ZIP souboru do třetího vstupního portu modulu Execute R Script.

V textovém poli Skript jazyka R použijte následující kód k implementaci learneru Naïve Bayes.

library(e1071)  
features <- get.feature.columns(dataset)  
labels   <- get.label.column(dataset)  
train.data <- data.frame(features, labels)  
feature.names <- get.feature.column.names(dataset)  
names(train.data) <- c(feature.names, "Class")  
model <- naiveBayes(Class ~ ., train.data)

Volání vlastního scoreru Naïve Bayes

Pokud máte existující model vytvořený knihovnou e1071 , můžete volat vlastní scorer poskytovaný knihovnou e1071 .

Pokud ale chcete provést bodování v samostatné instanci modulu Execute R Script , musíte zadat soubor ZIP obsahující e1071 knihovnu jako vstup do modulu bodování a načíst knihovnu. Důvodem je to, že každý modul běží nezávisle v kontejneru.

library(e1071)  
features <- get.feature.columns(dataset)  
scores <- predict(model, features)

Všechny moduly R, které jsou součástí jednoho experimentu, musí používat stejnou verzi modulu runtime R. Verze jazyka R, například použití CRANR v jednom modulu, a Microsoft R Open v jiném nelze kombinovat.

Zápis grafického souboru

Ačkoli Studio (classic) podporuje zobrazení souborů PNG pomocí výstupního portu zařízení R, můžete chtít vygenerovat výsledky jako soubor PDF v objektu blob v Azure Storage použít k vytváření sestav.

Tento příklad ukazuje, jak pomocí příkazu Execute R Script vygenerovat graf jako soubor PDF.

Přidejte do experimentu spustit skript jazyka R .

Vytvořte základní soubor PDF jako součást skriptu jazyka R a vraťte řetězec s kódováním Base64 souboru PDF z modulu Execute R Script .

d <- maml.mapInputPort(1)  
d$dteday <- as.numeric(d$dteday)  
pdf()  
plot(d)  
dev.off()  
library(caTools)  
b64ePDF <- function(filename) {  
            maxFileSizeInBytes <- 5 * 1024 * 1024 # 5 MB  
            return(base64encode(readBin(filename, "raw", n = maxFileSizeInBytes)))  
}  

d2 <- data.frame(pdf = b64ePDF("Rplots.pdf"))  

maml.mapOutputPort("d2");

Předejte tento výstup do modulu Export dat a uložte binární hodnoty do úložiště objektů blob v Azure.

Předání objektů R mezi moduly Execute R Script

Objekty R můžete předat mezi instancemi modulu Execute R Script pomocí interního mechanismu serializace. Tento příklad předpokládá, že chcete přesunout objekt R pojmenovaný A mezi dvěma moduly Execute R Script .

Přidejte do experimentu první modul Execute R Script a do textového pole Skript jazyka R zadejte následující kód, který vytvoří serializovaný objekt A jako sloupec ve výstupní tabulce dat modulu:
```
serialized <- as.integer(serialize(A,NULL))  
data.set <- data.frame(serialized,stringsAsFactors=FALSE)
maml.mapOutputPort("data.set")
```
Explicitní převod na celočíselné typy je povinný, protože funkce serializace vypíše data ve formátu RRaw, která není podporována Machine Learning.
Přidejte druhou instanci modulu Execute R Script a připojte ji k výstupnímu portu předchozího modulu.
Do textového pole Skript jazyka R zadejte následující kód, který extrahuje objekt A ze vstupní tabulky dat.
```
dataset <- maml.mapInputPort(1)  
A <- unserialize(as.raw(dataset$serialized))  
```

Instalace nových balíčků R

Ve výchozím nastavení můžete do Machine Learning přidat balíčky R, které nejsou nainstalované. Přidání nových balíčků vyžaduje tyto kroky:

Získejte binární soubory Windows balíčku ve formátu zip.
Zazipujte požadovaný balíček a všechny závislosti do nového komprimovaného archivovaného souboru s příponou .ZIP.
Upload zazipovaný soubor jako datovou sadu do pracovního prostoru.
Připojení novou datovou sadu do modulu Spustit skript jazyka R.
Nainstalujte balíček pomocí skriptu jazyka R v modulu.

Následující postup přidá nový balíček společně s jeho závislostmi.

Stáhněte soubor zip pro balíček, který chcete importovat do Machine Learning. Nezapomeňte získat Windows verzi zazipovaného souboru.

Poznámka

Pokud jste už extrahovali balíček R, který chcete použít ve svém pracovním prostoru, musíte balíček přezipovat nebo zadat původní soubor ZIP, když můžete nahrát balíček R do studia (classic).
Zkontrolujte všechny závislosti a pokud balíček potřebuje další balíčky, které ještě nejsou v Nástroji Azure ML Studio (classic), stáhněte je ve formátu zip a přidejte je do archivovaného souboru.
Klikněte pravým tlačítkem myši na soubor zip pro balíček, který chcete nahrát, a také na jeho závislosti, klikněte na tlačítko Odeslat a pak vyberte Komprimovanou (zipovanou) složku.

Tip

Komprimovaná složka by měla obsahovat alespoň jeden zipovaný soubor s cílovým balíčkem a další soubory ZIP obsahující požadované balíčky.
Upload jeden soubor ZIP obsahující všechny balíčky (stejně jako všechny volitelné soubory kódu R nebo datové soubory) do pracovního prostoru studia (classic).

Uděláte to tak, jako byste nahráli datovou sadu: Klikněte na Tlačítko Nový, klikněte na Datovou sadu a pak vyberte Z místního souboru a možnost Zip.
Otevřete seznam Uložených datových sad , klikněte na Moje datové sady a ověřte, že je soubor zip dostupný.
Přetáhněte ho do experimentu, klikněte pravým tlačítkem myši na datovou sadu a vyberte Vizualizovat a zobrazte soubory zahrnuté ve složce zip. Názvy souborů, které vidíte v seznamu Obsah , jsou názvy, na které musíte při instalaci balíčku odkazovat.

Předpokládejme například, že jste nahráli soubor s názvem NewRPackage.zip, který obsahuje tři balíčky R s názvem 001.zip, 002.zipa 003.zip. V seznamu Datových sad by název datové sady byl NewRPackage.zips obsahem 001.zip002.zipa 003.zip.
Připojení datové sady (NewRPackage.zip) na vstupní port sady skriptů.

V tomto okamžiku se vnější zip složka extrahuje do sandboxu pracovního prostoru v cestě src. Nyní byste měli k dispozici následující balíčky:
- src\001.zip
- src\002.zip
- src\003.zip
Pokud chcete nainstalovat balíčky R, extrahujete každý balíček ze souboru ZIP a pak načtete knihovnu s obsahem.

Předpokládejme například, že soubor src\001.zip obsahuje vlastní balíček code001R, spustíte následující skript:
```
# install R package contained in src\001.zip  
install.packages("src/001.zip", lib = ".", repos = NULL, verbose = TRUE)  
library(code001, lib.loc=".", verbose=TRUE)
```

Opakujte proces instalace pro všechny požadované balíčky.

# install R package contained in src\002.zip  
install.packages("src/002.zip", lib = ".", repos = NULL, verbose = TRUE)  
library(code002, lib.loc=".", verbose=TRUE)  
# install R package contained in src\003.zip  
install.packages("src/003.zip", lib = ".", repos = NULL, verbose = TRUE)  
library(code003, lib.loc=".", verbose=TRUE)

Poznámka

Pokud jsou mezi nainstalovanými několika balíčky nějaké závislosti, nezapomeňte nejprve nainstalovat požadované balíčky nebo se může zobrazit chyba.

Instalace všech balíčků R musí být provedena jako součást experimentu, aby se zajistilo, že všechny požadované balíčky jsou zahrnuty do pracovního prostoru, který se odesílá do fronty úloh Azure při spuštění experimentu.

Balíčky v pracovním prostoru se po spuštění experimentu nebo po zavření relace neuchovávají. Všechny balíčky, které jste nahráli jako zazipované soubory, se ale dají rychle extrahovat a používat při opětovném spuštění experimentu.

Technické poznámky

Optimalizace výkonu jazyka R v sadě Studio (Classic)

Aktuální výchozí paměť je 14 GB. Pokud se pokusíte manipulovat s velmi velkými datovými snímky pomocí modulu Execute R Script , může se zobrazit chybová zpráva o nedostatku paměti.

Pokud chcete zvýšit množství paměti používané skriptem jazyka R, můžete použít řádek podobný tomuto na začátku skriptu:

memory.limit(56000)

Uživatelem zadaný kód R běží 64bitový interpret R, který běží v Azure pomocí virtuálního počítače A8 s 56 GB paměti RAM. Ke zvýšení rychlosti kódu R můžete použít kompilátor za běhu poskytnutý v předinstalovaném balíčku kompilátoru .

Převod datových typů mezi R a Studio (classic)

Následující tabulka ukazuje, jak datové typy v jazyce R odpovídají datovým typům v Machine Learning:

Typ R	Typ studia (classic)
Integer	Integer
dvojité	dvojité
Complex	Complex Tento typ podporuje jenom podmnožina modulů.
Logické	Logická hodnota
Znak	Řetězec
Žádný	Nepodporováno
Difftime	TimeSpan
factor	kategorické
data.frame	Dataset

Sloupce datového typu lists v jazyce R nelze převést, protože prvky v takových sloupcích mohou být různé typy a velikosti. Například následující platný kód R selže, pokud se používá v modulu Execute R Script :

data.set <- data.frame(r=I(list(list(1,2,3),list(4,5))))  
maml.mapOutputPort("data.set")

Převod hodnot data a času

Machine Learning Studio (classic) používá různé typy datetime, než R. Pokud data, která analyzujete, obsahují data nebo času, měli byste mít na paměti následující požadavky na převod při přenosu existujícího kódu R do studia (classic):

Převod z Machine Learning Studia (classic) na R

Sloupce DateTime se převedou na vektory POSIXct. Každý jednotlivý prvek výsledného vektoru je však počet sekund od roku 1970-01-01T00:00:00.

V tomto převodu nejsou provedeny žádné úpravy časového pásma.

Převod z R na Studio (classic)

Vektory POSIXct se převedou na sloupce DateTime v časovém pásmu UTC.

Například 2011-03-27 01:30:00 PDT se převede na 2011-03-27T08:30:00Z, kde Z označuje, že čas je v UTC.

Tip

Při použití časů v modulu Execute R Script je nutné explicitně zadat časové razítka. Interpret jazyka R hostovaný v modulu Execute R Script nemá přístup k definicům místního časového pásma.

Sítě

Z bezpečnostních důvodů jsou všechny sítě z kódu R nebo do kódu R v modulech Execute R Script zablokované v Azure. Kromě toho je přístup k místním portům z skriptu Execute R zablokovaný.

Paralelní spouštění

V současné době se paralelní spouštění s více vlákny nepodporuje.

Očekávané vstupy

Název	Typ	Description
Datová sada 1	Tabulka dat	Vstupní datová sada 1
Datová sada 2	Tabulka dat	Vstupní datová sada 2
Sada skriptů	ZIP	Sada zdrojů jazyka R

Parametry modulu

Name	Rozsah	Typ	Výchozí	Description
Skript jazyka R	Všechny	Streamreader		`StreamReader` Určete, který odkazuje na zdroje skriptů jazyka R.
Náhodné počáteční	>=0	Integer		Definujte náhodnou počáteční hodnotu pro použití v prostředí R. Ekvivalent k `\"set.seed(value)\"`. Tento parametr je volitelný.

Výstupy

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Výstupní datová sada
Zařízení R	Tabulka dat	Výstup konzoly a grafické zařízení PNG z interpretu R

Viz také

Moduly jazyka R
Vytvoření modelu R
Kategorie a popisy modulů
Jazykové moduly Pythonu

Sdílet prostřednictvím

Spouštění skriptů R

Přehled modulu

Verze jazyka R podporované v sadě Studio (Classic)

Podporované balíčky R

Instalace nových balíčků R

Ukázkové experimenty

Postup konfigurace spouštění skriptu R

Výsledky

(1) Datová sada výsledků

(2) Zařízení R

Ukázkové skripty jazyka R a tipy jazyka R

Přidání skriptu jazyka R jako vstupu

Generování obrázků, modelů a dalších objektů

Čtení ze vstupu a zápisu do výstupu

Čtení souboru ZIP jako vstupu

Replikace řádků

Volání vlastního učení na základě balíčku Arules

Volání vlastního učení Naïve Bayes

Volání vlastního scoreru Naïve Bayes

Zápis grafického souboru

Předání objektů R mezi moduly Execute R Script

Instalace nových balíčků R

Technické poznámky

Optimalizace výkonu jazyka R v sadě Studio (Classic)

Převod datových typů mezi R a Studio (classic)

Převod hodnot data a času

Převod z Machine Learning Studia (classic) na R

Převod z R na Studio (classic)

Sítě

Paralelní spouštění

Očekávané vstupy

Parametry modulu

Výstupy

Viz také

Další materiály