Referenční informace: Virtuální počítač s Ubuntu (Linuxem) Datová Věda

Tento dokument obsahuje seznam dostupných nástrojů na virtuálním počítači s Ubuntu Datová Věda (DSVM).

Knihovny hlubokého učení

PyTorch

PyTorch je oblíbená vědecká výpočetní architektura s širokou podporou algoritmů strojového učení. Pokud má váš počítač integrovaný GPU, může tento GPU využít k urychlení hlubokého učení. PyTorch je k dispozici v py38_pytorch prostředí.

H2O

H2O je rychlá distribuovaná platforma strojového učení a prediktivní analýzy v paměti. Balíček Pythonu je nainstalovaný v kořenovém i py35 prostředí Anaconda. Nainstaluje se také balíček R.

Pokud chcete otevřít H2O z příkazového řádku, spusťte java -jar /dsvm/tools/h2o/current/h2o.jarpříkaz . Můžete nakonfigurovat různé dostupnémožnosti příkazového řádku. Pokud chcete začít, přejděte do webového uživatelského rozhraní http://localhost:54321 Flow. JupyterHub nabízí ukázkové poznámkové bloky.

TensorFlow

TensorFlow je knihovna hlubokého učení Google. Jedná se o opensourcovou softwarovou knihovnu pro numerické výpočty pomocí grafů toku dat. Pokud má váš počítač integrovaný GPU, může ho použít k urychlení hlubokého učení. TensorFlow je k dispozici v py38_tensorflow prostředí conda.

Python

Virtuální počítač Datová Věda (DSVM) má několik předinstalovaných prostředí Pythonu s Pythonem verze 3.8 nebo Python verze 3.6. Spuštěním conda env list v okně terminálu zobrazíte úplný seznam nainstalovaných prostředí.

Jupyter

DsVM se dodává také s Jupyterem, prostředím pro sdílení kódu a analýzou kódu. Jupyter je nainstalovaný na DSVM v těchto příchutích:

  • Jupyter Lab
  • Jupyter Notebooks
  • Jupyter Hub

Pokud chcete spustit Jupyter Lab, otevřete Jupyter z nabídky aplikace nebo vyberte ikonu plochy. Můžete také spustit jupyter lab z příkazového řádku a otevřít Jupyter Lab.

Pokud chcete otevřít poznámkový blok Jupyter, otevřete příkazový řádek a spusťte jupyter notebook.

Pokud chcete otevřít Jupyter Hub, otevřete v prohlížeči název DNS https://< VM nebo IP adresu>:8000/ . Musíte zadat své místní uživatelské jméno a heslo pro Linux.

Poznámka:

Upozornění na certifikát můžete ignorovat.

Poznámka:

U imagí Ubuntu se ve výchozím nastavení otevře port brány firewall 8000 při zřizování virtuálního počítače.

Samostatný Apache Spark

Samostatná instance Apache Sparku je předinstalovaná na virtuálním počítači pro datové vědy (DSVM) linuxového DSVM, která vám pomůže vyvíjet aplikace Spark místně před testováním a nasazením těchto aplikací ve velkých clusterech.

Programy PySpark můžete spouštět prostřednictvím jádra Jupyter. Po spuštění Jupyteru vyberte tlačítko Nový . Měl by se zobrazit seznam dostupných jader. Pokud zvolíte jádro Spark – Python, můžete sestavovat aplikace Spark pomocí jazyka Python . Můžete také použít integrované vývojové prostředí Pythonu – například VS. Kód nebo PyCharm – pro sestavení programu Spark.

V této samostatné instanci běží zásobník Sparku uvnitř volajícího klientského programu. Tato funkce usnadňuje řešení problémů v porovnání s vývojem v clusteru Spark.

IdEs a editory

Máte výběr z několika editorů kódu, včetně VS. Kód, PyCharm, IntelliJ, vi/Vim nebo Emacs.

VS. Kód, PyCharm a IntelliJ jsou grafické editory. Pokud je chcete použít, musíte být přihlášeni k grafické ploše. Otevřete je pomocí klávesových zkratek nabídky pro stolní počítače a aplikace.

Vim a Emacs jsou textové editory. Balíček doplňku ESS v Emacs usnadňuje práci s R v editoru Emacs. Další informace najdete na webu ESS.

Databáze

Grafický klient SQL

SQuirrel SQL, grafický klient SQL, se může připojit k různým databázím – například k Microsoft SQL Serveru nebo MySQL – a spouštět dotazy SQL. Nejrychlejší způsob, jak otevřít SQuirrel SQL, je použít nabídku aplikace z grafické relace plochy (například prostřednictvím klienta X2Go).

Před počátečním použitím nastavte ovladače a aliasy databáze. Ovladače JDBC najdete na adrese /usr/share/java/jdbcdrivers.

Další informace najdete v prostředku SQL SQuirrel.

Nástroje příkazového řádku pro přístup k Microsoft SQL Serveru

Balíček ovladače ODBC pro SQL Server obsahuje také dva nástroje příkazového řádku:

  • bcp: Nástroj bcp hromadně kopíruje data mezi instancí Microsoft SQL Serveru a datovým souborem v uživatelském formátu. Nástroj bcp můžete použít k importu velkého počtu nových řádků do tabulek SQL Serveru nebo k exportu dat z tabulek do datových souborů. Pokud chcete importovat data do tabulky, musíte použít formátový soubor vytvořený pro tuto tabulku. Je nutné porozumět struktuře tabulky a typům dat, která jsou platná pro jeho sloupce.

Další informace najdete v Připojení s bcp.

  • sqlcmd: Příkazy jazyka Transact-SQL můžete zadat pomocí nástroje sqlcmd. Na příkazovém řádku můžete také zadat systémové procedury a soubory skriptů. Tento nástroj používá rozhraní ODBC ke spouštění dávek Jazyka Transact-SQL.

    Další informace najdete v tématu Připojení s nástrojem sqlcmd.

    Poznámka:

    Tento nástroj má několik rozdílů mezi jeho verzemi platformy Linux a Windows. Podrobnosti najdete v dokumentaci.

Knihovny přístupu k databázím

Knihovny jazyka R a Python jsou k dispozici pro přístup k databázi:

  • V jazyce R můžete pomocí balíčků dplyr rodBC dotazovat nebo spouštět příkazy SQL na databázovém serveru.
  • Knihovna pyodbc v Pythonu poskytuje přístup k databázi pomocí rozhraní ODBC jako podkladové vrstvy.

Nástroje Azure

Na virtuálním počítači jsou nainstalované tyto nástroje Azure:

  • Azure CLI: Pomocí rozhraní příkazového řádku v Azure můžete vytvářet a spravovat prostředky Azure prostřednictvím příkazů prostředí. Pokud chcete otevřít nástroje Azure, zadejte nápovědu k Azure. Další informace najdete na stránce dokumentace k Azure CLI.

  • Průzkumník služby Azure Storage: Průzkumník služby Azure Storage je grafický nástroj, pomocí kterého můžete procházet objekty uložené v účtu úložiště Azure a nahrávat a stahovat data do a z objektů blob Azure. K Průzkumník služby Storage se dostanete z ikony zástupce na ploše. Můžete ho také otevřít z příkazového řádku prostředí, pokud zadáte StorageExplorer. Musíte být přihlášení z klienta X2Go nebo musíte mít nastavené předávání X11.

  • Knihovny Azure: Jedná se o některé z předinstalovaných knihoven:

    • Python: Python nabízí knihovny azure, azureml, pydocumentdb a pyodbc související s Azure. S prvními třemi knihovnami můžete přistupovat ke službám Azure Storage, azure Machine Učení a Azure Cosmos DB (databáze NoSQL v Azure). Čtvrtá knihovna pyodbc (spolu s ovladačem Microsoft ODBC pro SQL Server) umožňuje přístup k SQL Serveru, Azure SQL Database a Azure Synapse Analytics z Pythonu prostřednictvím rozhraní ODBC. Zadáním seznamu pip zobrazíte všechny uvedené knihovny. Nezapomeňte tento příkaz spustit v prostředích Pythonu 2.7 a 3.5.
    • R: Azure Machine Učení a RODBC jsou knihovny související s Azure v R.
    • Java: Adresář /dsvm/sdk/AzureSDKJava obsahuje seznam knihoven Azure Java, které najdete v adresáři /dsvm/sdk/AzureSDKJava na virtuálním počítači. Klíčové knihovny jsou rozhraní API pro úložiště a správu Azure, Azure Cosmos DB a ovladače JDBC pro SQL Server.

Azure Machine Learning

Plně spravovaná cloudová služba Azure Machine Učení umožňuje vytvářet, nasazovat a sdílet řešení prediktivní analýzy. Experimenty a modely můžete vytvářet v studio Azure Machine Learning. Navštivte web Microsoft Azure Machine Učení, abyste k němu měli přístup z webového prohlížeče na virtuálním počítači Datová Věda.

Po přihlášení k studio Azure Machine Learning můžete pomocí plátna pro experimentování vytvořit logický tok pro algoritmy strojového učení. Máte také přístup k poznámkovému bloku Jupyter hostovaným na Učení Azure Machine. Tento poznámkový blok může bez problémů pracovat s experimenty v studio Azure Machine Learning.

Pokud chcete zprovoznit vytvořené modely strojového učení, zabalte je do rozhraní webové služby. Zprovoznění modelu strojového učení umožňuje klientům napsané v libovolném jazyce vyvolat předpovědi z těchto modelů. Další informace najdete v dokumentaci ke službě Machine Učení.

Na virtuálním počítači můžete také sestavovat modely v R nebo Pythonu a pak je nasadit v produkčním prostředí na Učení Azure Machine. Nainstalovali jsme knihovny v R (AzureML) a Pythonu (azureml), aby se tato funkce povolila.

Poznámka:

Tyto pokyny jsme napsali pro verzi Datová Věda Virtual Machine Windows. Pokyny se ale týkají nasazení modelu Azure Machine Učení na virtuální počítač s Linuxem.

Nástroje strojového učení

Virtuální počítač se dodává s předkompilovanými nástroji a algoritmy strojového učení, které jsou předinstalované místně. Tady jsou některé z nich:

  • Vowpal Wabbit: Algoritmus rychlého online učení

  • xgboost: Tento nástroj poskytuje optimalizované a posílené algoritmy stromové struktury.

  • Rattle: Grafický nástroj založený na jazyce R pro snadné zkoumání a modelování dat

  • Python: Anaconda Python je součástí algoritmů strojového učení s knihovnami, jako je Scikit-learn. Pomocí příkazu můžete nainstalovat další knihovny.pip install

  • LightGBM: Rychlá, distribuovaná a vysoce výkonná architektura pro zvýšení výkonu na základě algoritmů rozhodovacího stromu

  • R: Pro jazyk R je k dispozici bohatá knihovna funkcí strojového učení. Mezi předinstalované knihovny patří lm, glm, randomForest a rpart. Další knihovny můžete nainstalovat pomocí tohoto příkazu:

    install.packages(<lib name>)
    

Tady jsou další informace o prvních třech nástrojích strojového učení v seznamu.

Vowpal Wabbit

Vowpal Wabbit je systém strojového učení, který používá

  • active
  • allreduce
  • Hash
  • interaktivní učení
  • learning2search
  • Online
  • Snížení

Techniky.

Pomocí těchto příkazů spusťte nástroj v základním příkladu:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Tento adresář nabízí další, větší ukázky. Další informace o Vowpal Wabbit najdete v této části GitHubu a wikiwebu Vowpal Wabbit.

xgboost

Knihovna xgboost je navržena a optimalizována pro zesílené (stromové) algoritmy. Knihovna xgboost odesílá výpočetní limity počítačů do extrémních hodnot potřebných k přesnému, přenosnému a škálovatelnému posílení stromu ve velkém měřítku.

Knihovna xgboost je k dispozici jako prostředek příkazového řádku i jako knihovna R. Pokud chcete použít tuto knihovnu v jazyce R, můžete do prostředí zadat jazyk R , aby se spustila interaktivní relace jazyka R, a načíst knihovnu.

Tento jednoduchý příklad ukazuje spuštění xgboost v příkazovém řádku R:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Pokud chcete spustit příkazový řádek xgboost, spusťte v prostředí tyto příkazy:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Další informace o xgboost najdete na stránce dokumentace xgboost a jeho úložišti GitHub.

Rattle

Rattle (R Analytical Tool To Lvydělat Easily) používá grafické uživatelské rozhraní pro zkoumání a modelování dat. IT

  • představuje statistické a vizuální souhrny dat.
  • transformuje data, která lze snadno modelovat.
  • vytváří modely bez dohledu i modely pod dohledem z dat.
  • představuje výkon modelů graficky
  • skóre nových datových sad

Vygeneruje také kód R, který replikuje operace Rattle v uživatelském rozhraní. Tento kód můžete spustit přímo v jazyce R nebo ho použít jako výchozí bod pro další analýzu.

Pokud chcete spustit Rattle, musíte pracovat v grafické přihlašovací relaci plochy. V terminálu zadejte R , aby se otevřelo prostředí R. Na příkazovém řádku jazyka R zadejte tento příkaz:

library(rattle)
rattle()

Otevře se grafické rozhraní se sadou karet. Tyto kroky rychlého startu v Rattle používají ukázkovou sadu dat o počasí k sestavení modelu. V některých krocích se zobrazí výzva k automatické instalaci a načtení konkrétních požadovaných balíčků R, které ještě nejsou v systému.

Poznámka:

Pokud nemáte přístupová oprávnění k instalaci balíčku v systémovém adresáři (výchozí nastavení), můžete si v okně konzoly R všimnout výzvy k instalaci balíčků do osobní knihovny. Pokud na tyto výzvy narazíte, odpovězte y .

  1. Vyberte Execute (Provést).
  2. Zobrazí se dialogové okno s dotazem, jestli chcete použít ukázkovou sadu dat o počasí. Vyberte Ano , aby se načetl příklad.
  3. Výběr karty Model
  4. Výběr možnosti Provést pro vytvoření rozhodovacího stromu
  5. Výběrem možnosti Kreslení zobrazíte rozhodovací strom.
  6. Vyberte možnost Doménová struktura a výběrem možnosti Provést sestavte náhodnou doménovou strukturu.
  7. Výběr karty Vyhodnocení
  8. Vyberte možnost Riziko a výběrem možnosti Spustit zobrazte dva grafy výkonu rizika (kumulativní).
  9. Výběrem karty Protokol zobrazíte vygenerovaný kód R pro předchozí operace.
    • Kvůli chybě v aktuální verzi Rattle je nutné vložit # znak před export tohoto protokolu do textu protokolu.
  10. Výběrem tlačítka Exportovat uložte soubor skriptu jazyka R s názvem weather_script. R do domovské složky

Můžete ukončit Rattle a R. Teď můžete upravit vygenerovaný skript jazyka R. Skript můžete použít také tak, jak je, a kdykoli ho spustit, abyste opakovali vše, co bylo provedeno v uživatelském rozhraní Rattle. Zejména pro začátečníky v jazyce R se to hodí k rychlé analýze a strojovému učení v jednoduchém grafickém rozhraní a automatickému generování kódu v jazyce R pro úpravy nebo učení.

Další kroky

Další dotazy najdete v tématu Vytvoření lístku podpory.