Dokumentacja: Maszyna wirtualna z systemem Ubuntu (Linux) Nauka o danych

Ten dokument zawiera listę dostępnych narzędzi na maszynie wirtualnej z systemem Ubuntu Nauka o danych (DSVM).

Biblioteki uczenia głębokiego

PyTorch

PyTorch to popularna struktura obliczeń naukowych z szeroką obsługą algorytmów uczenia maszynowego. Jeśli maszyna ma wbudowany procesor GPU, może użyć tego procesora GPU w celu przyspieszenia uczenia głębokiego. Narzędzie PyTorch jest dostępne w py38_pytorch środowisku.

H2O

H2O to szybka, rozproszona platforma do uczenia maszynowego i analizy predykcyjnej. Pakiet języka Python jest instalowany zarówno w środowiskach root, jak i py35 Anaconda. Instalowany jest również pakiet języka R.

Aby otworzyć H2O z wiersza polecenia, uruchom polecenie java -jar /dsvm/tools/h2o/current/h2o.jar. Można skonfigurować różne dostępneopcje wiersza polecenia. Przejdź do internetowego interfejsu użytkownika usługi Flow, aby http://localhost:54321 rozpocząć pracę. Aplikacja JupyterHub oferuje przykładowe notesy.

TensorFlow

TensorFlow to biblioteka uczenia głębokiego Google. Jest to biblioteka oprogramowania typu open source do obliczeń liczbowych przy użyciu wykresów przepływu danych. Jeśli maszyna ma wbudowany procesor GPU, może użyć tego procesora GPU do przyspieszenia uczenia głębokiego. TensorFlow jest dostępny w py38_tensorflow środowisku conda.

Python

Maszyna wirtualna Nauka o danych ma wiele wstępnie zainstalowanych środowisk języka Python z językiem Python w wersji 3.8 lub Python w wersji 3.6. Uruchom polecenie conda env list w oknie terminalu, aby wyświetlić pełną listę zainstalowanych środowisk.

Jupyter

Maszyna DSVM jest również dostarczana z oprogramowaniem Jupyter, środowiskiem udostępniania kodu i analizy kodu. Program Jupyter jest zainstalowany na maszynie DSVM w następujących wersjach:

  • Jupyter Lab
  • Notes Jupyter
  • Jupyter Hub

Aby uruchomić narzędzie Jupyter Lab, otwórz aplikację Jupyter z menu aplikacji lub wybierz ikonę pulpitu. Możesz również uruchomić polecenie jupyter lab z poziomu wiersza polecenia, aby otworzyć laboratorium Jupyter Lab.

Aby otworzyć notes Jupyter, otwórz wiersz polecenia i uruchom polecenie jupyter notebook.

Aby otworzyć centrum Jupyter Hub, otwórz nazwę DNS maszyny wirtualnej https://< VM lub adres> IP:8000/ w przeglądarce. Musisz podać lokalną nazwę użytkownika i hasło systemu Linux.

Uwaga

Możesz zignorować wszystkie ostrzeżenia dotyczące certyfikatu.

Uwaga

W przypadku obrazów systemu Ubuntu port zapory 8000 jest domyślnie otwarty po aprowizacji maszyny wirtualnej.

Autonomiczna platforma Apache Spark

Autonomiczne wystąpienie platformy Apache Spark jest wstępnie zainstalowane na maszynie DSVM systemu Linux, aby ułatwić lokalne opracowywanie aplikacji Spark przed przetestowaniem i wdrożeniem tych aplikacji w dużych klastrach.

Programy PySpark można uruchamiać za pośrednictwem jądra Jupyter. Po uruchomieniu programu Jupyter wybierz przycisk Nowy . Lista dostępnych jąder powinna stać się widoczna. Aplikacje platformy Spark można tworzyć przy użyciu języka Python, jeśli wybierzesz jądro Spark — Python . Możesz również użyć środowiska IDE języka Python — na przykład programu VS. Kod lub PyCharm — aby skompilować program Spark.

W tym autonomicznym wystąpieniu stos Spark działa wewnątrz wywołującego programu klienckiego. Ta funkcja ułatwia szybsze i łatwiejsze rozwiązywanie problemów w porównaniu z programowaniem w klastrze Spark.

Środowiska IDE i edytory

Istnieje wybór kilku edytorów kodu, w tym programu VS. Code, PyCharm, IntelliJ, vi/Vim lub Emacs.

VS. Code, PyCharm i IntelliJ to edytory graficzne. Aby ich używać, musisz zalogować się do pulpitu graficznego. Otwierasz je przy użyciu skrótów menu pulpitu i aplikacji.

Vim i Emacs są edytorami opartymi na tekście. W systemie Emacs pakiet dodatku ESS ułatwia pracę z językiem R w edytorze Emacs. Aby uzyskać więcej informacji, odwiedź witrynę internetową pakietu ESS.

Bazy danych

Graficzny klient SQL

Język SQuirrel SQL, graficzny klient SQL, może łączyć się z różnymi bazami danych — na przykład z programem Microsoft SQL Server lub MySQL — i uruchamiać zapytania SQL. Najszybszym sposobem otwarcia bazy danych SQuirrel SQL jest użycie menu aplikacji z poziomu sesji pulpitu graficznego (na przykład za pośrednictwem klienta X2Go)

Przed początkowym użyciem skonfiguruj sterowniki i aliasy bazy danych. Sterowniki JDBC można znaleźć na stronie /usr/share/java/jdbcdrivers.

Aby uzyskać więcej informacji, odwiedź zasób SQuirrel SQL .

Narzędzia wiersza polecenia umożliwiające uzyskiwanie dostępu do programu Microsoft SQL Server

Pakiet sterowników ODBC dla programu SQL Server zawiera również dwa narzędzia wiersza polecenia:

  • bcp: narzędzie bcp zbiorczo kopiuje dane między wystąpieniem programu Microsoft SQL Server i plikiem danych w formacie określonym przez użytkownika. Narzędzie bcp umożliwia importowanie dużej liczby nowych wierszy do tabel programu SQL Server lub eksportowanie danych z tabel do plików danych. Aby zaimportować dane do tabeli, musisz użyć pliku formatu utworzonego dla tej tabeli. Musisz zrozumieć strukturę tabeli i typy danych, które są prawidłowe dla jego kolumn.

Aby uzyskać więcej informacji, odwiedź stronę Połączenie ing with bcp (Połączenie ing with bcp).

  • sqlcmd: możesz wprowadzić instrukcje Języka Transact-SQL za pomocą narzędzia sqlcmd. Można również wprowadzić procedury systemowe i pliki skryptów w wierszu polecenia. To narzędzie używa odBC do uruchamiania partii Transact-SQL.

    Aby uzyskać więcej informacji, odwiedź stronę Połączenie z narzędziem sqlcmd.

    Uwaga

    Istnieją pewne różnice w tym narzędziu między wersjami platformy Linux i Windows. Zapoznaj się z dokumentacją, aby uzyskać szczegółowe informacje.

Biblioteki dostępu do bazy danych

Biblioteki języka R i Python są dostępne do uzyskiwania dostępu do bazy danych:

  • W języku R można użyć pakietów dplyr RODBC do wykonywania zapytań lub uruchamiania instrukcji SQL na serwerze bazy danych
  • W języku Python biblioteka pyodbc zapewnia dostęp do bazy danych za pomocą odBC jako podstawowej warstwy

Narzędzia platformy Azure

Te narzędzia platformy Azure są instalowane na maszynie wirtualnej:

  • Interfejs wiersza polecenia platformy Azure: interfejs wiersza polecenia na platformie Azure umożliwia tworzenie zasobów platformy Azure i zarządzanie nimi za pomocą poleceń powłoki. Aby otworzyć narzędzia platformy Azure, wprowadź pomoc platformy Azure. Aby uzyskać więcej informacji, odwiedź stronę dokumentacji interfejsu wiersza polecenia platformy Azure.

  • Eksplorator usługi Azure Storage: Eksplorator usługi Azure Storage to narzędzie graficzne, którego można użyć do przeglądania obiektów przechowywanych na koncie usługi Azure Storage oraz przekazywania i pobierania danych do i z obiektów blob platformy Azure. Dostęp do Eksplorator usługi Storage można uzyskać z poziomu ikony skrótu pulpitu. Można go również otworzyć z poziomu monitu powłoki, jeśli wprowadzisz wartość StorageExplorer. Musisz zalogować się z klienta X2Go lub skonfigurować przekazywanie X11.

  • Biblioteki platformy Azure: oto niektóre wstępnie zainstalowane biblioteki:

    • Python: Język Python oferuje biblioteki platformy Azure, azureml, pydocumentdb i pyodbc powiązane z platformą Azure. Za pomocą pierwszych trzech bibliotek można uzyskać dostęp do usług magazynu platformy Azure, usługi Azure Machine Edukacja i usługi Azure Cosmos DB (bazy danych NoSQL na platformie Azure). Czwarta biblioteka pyodbc (wraz ze sterownikiem Microsoft ODBC dla programu SQL Server) umożliwia dostęp do programu SQL Server, usługi Azure SQL Database i usługi Azure Synapse Analytics z języka Python za pośrednictwem interfejsu ODBC. Wprowadź listę pip, aby wyświetlić wszystkie wymienione biblioteki. Pamiętaj, aby uruchomić to polecenie w środowiskach python 2.7 i 3.5.
    • R: Azure Machine Edukacja i RODBC to biblioteki związane z platformą Azure w języku R.
    • Java: Katalog /dsvm/sdk/AzureSDKJava zawiera listę bibliotek Java platformy Azure, które można znaleźć w katalogu /dsvm/sdk/AzureSDKJava na maszynie wirtualnej. Biblioteki kluczy to interfejsy API magazynu i zarządzania platformy Azure, usługi Azure Cosmos DB i JDBC dla programu SQL Server.

Azure Machine Learning

W pełni zarządzana usługa Azure Machine Edukacja w chmurze umożliwia tworzenie, wdrażanie i udostępnianie rozwiązań analizy predykcyjnej. Eksperymenty i modele można tworzyć w usłudze Azure Machine Edukacja Studio. Odwiedź witrynę Microsoft Azure Machine Edukacja, aby uzyskać do niej dostęp z przeglądarki internetowej na maszynie wirtualnej Nauka o danych.

Po zalogowaniu się do usługi Azure Machine Edukacja Studio możesz użyć kanwy eksperymentowania, aby utworzyć przepływ logiczny dla algorytmów uczenia maszynowego. Masz również dostęp do notesu Jupyter hostowanego na maszynie azure Edukacja. Ten notes może bezproblemowo współpracować z eksperymentami w usłudze Azure Machine Edukacja Studio.

Aby operacjonalizować utworzone modele uczenia maszynowego, opakuj je w interfejsie usługi internetowej. Operacjonalizacja modelu uczenia maszynowego umożliwia klientom napisanym w dowolnym języku wywoływanie przewidywań z tych modeli. Aby uzyskać więcej informacji, odwiedź stronę Machine Edukacja documentation (Dokumentacja usługi Machine Edukacja).

Możesz również tworzyć modele w języku R lub Python na maszynie wirtualnej, a następnie wdrażać je w środowisku produkcyjnym na platformie Azure Machine Edukacja. Biblioteki zostały zainstalowane w języku R (AzureML) i python (azureml), aby włączyć tę funkcję.

Uwaga

Napisaliśmy te instrukcje dotyczące Nauka o danych wersji systemu Windows maszyny wirtualnej. Jednak instrukcje obejmują wdrożenia modelu usługi Azure Machine Edukacja na maszynie wirtualnej z systemem Linux.

Narzędzia do uczenia maszynowego

Maszyna wirtualna zawiera wstępnie skompilowane narzędzia i algorytmy uczenia maszynowego, wszystkie wstępnie zainstalowane lokalnie. Są to:

  • Vowpal Wabbit: Szybki algorytm uczenia online

  • xgboost: to narzędzie zapewnia zoptymalizowane, wzmocnione algorytmy drzewa

  • Grzechotanie: oparte na języku R narzędzie graficzne umożliwiające łatwe eksplorowanie i modelowanie danych

  • Python: język Python platformy Anaconda jest dostarczany z algorytmami uczenia maszynowego z bibliotekami takimi jak Scikit-learn. Możesz zainstalować inne biblioteki za pip install pomocą polecenia

  • LightGBM: szybka, rozproszona, wysokowydajna struktura zwiększająca gradient na podstawie algorytmów drzewa decyzyjnego

  • R: Bogata biblioteka funkcji uczenia maszynowego jest dostępna dla języka R. Wstępnie zainstalowane biblioteki to lm, glm, randomForest i rpart. Możesz zainstalować inne biblioteki za pomocą tego polecenia:

    install.packages(<lib name>)
    

Oto więcej informacji na temat pierwszych trzech narzędzi uczenia maszynowego na liście.

Vowpal Wabbit

Vowpal Wabbit to system uczenia maszynowego używa

  • aktywne
  • allreduce
  • Mieszania
  • interaktywne uczenie
  • learning2search
  • online
  • Redukcji

Technik.

Użyj tych poleceń, aby uruchomić narzędzie w podstawowym przykładzie:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Ten katalog oferuje inne, większe pokazy. Odwiedź tę sekcję serwisu GitHub i strony typu wiki Vowpal Wabbit, aby uzyskać więcej informacji na temat Vowpal Wabbit.

xgboost

Biblioteka xgboost została zaprojektowana i zoptymalizowana pod kątem wzmocnionych algorytmów (drzewa). Biblioteka xgboost wypycha limity obliczeń maszyn do skrajności potrzebnych do dokładnego, przenośnego i skalowalnego zwiększania drzewa na dużą skalę.

Biblioteka xgboost jest udostępniana zarówno jako zasób wiersza polecenia, jak i biblioteka języka R. Aby użyć tej biblioteki w języku R, możesz wprowadzić język R w powłoce, aby rozpocząć interaktywną sesję języka R i załadować bibliotekę.

W tym prostym przykładzie pokazano, jak uruchomić bibliotekę xgboost w wierszu polecenia języka R:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Aby uruchomić wiersz polecenia xgboost, uruchom następujące polecenia w powłoce:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Aby uzyskać więcej informacji na temat biblioteki xgboost, odwiedź stronę dokumentacji biblioteki xgboost i jej repozytorium GitHub.

Rattle

Grzechot (RAa morski Tool To L zarabia Easily) używa opartej na graficznym interfejsie użytkownika eksploracji i modelowania danych. Środowisko

  • przedstawia statystyczne i wizualne podsumowania danych
  • przekształca dane, które można łatwo modelować
  • kompiluje zarówno modele nienadzorowane, jak i nadzorowane z danych
  • przedstawia graficznie wydajność modeli
  • ocenia nowe zestawy danych

Generuje również kod języka R, który replikuje operacje rattle w interfejsie użytkownika. Możesz uruchomić ten kod bezpośrednio w języku R lub użyć go jako punktu wyjścia do dalszej analizy.

Aby uruchomić program Rattle, musisz pracować w sesji logowania na pulpicie graficznym. W terminalu wprowadź R, aby otworzyć środowisko języka R. W wierszu polecenia języka R wprowadź następujące polecenie:

library(rattle)
rattle()

Zostanie otwarty interfejs graficzny z zestawem kart. Te kroki w przewodniku Szybki start w usłudze Rattle używają przykładowego zestawu danych pogodowych w celu utworzenia modelu. W niektórych krokach zostanie wyświetlony monit o automatyczne zainstalowanie i załadowanie określonych, wymaganych pakietów języka R, które nie są jeszcze w systemie.

Uwaga

Jeśli nie masz uprawnień dostępu do instalowania pakietu w katalogu systemowym (ustawienie domyślne), w oknie konsoli języka R może zostać wyświetlony monit o zainstalowanie pakietów w bibliotece osobistej. Odpowiedz y , jeśli napotkasz te monity.

  1. Wybierz przycisk Wykonaj.
  2. Zostanie wyświetlone okno dialogowe z pytaniem, czy chcesz użyć przykładowego zestawu danych pogodowych. Wybierz pozycję Tak , aby załadować przykład
  3. Wybieranie karty Model
  4. Wybierz pozycję Wykonaj , aby utworzyć drzewo decyzyjne
  5. Wybierz pozycję Rysuj , aby wyświetlić drzewo decyzyjne
  6. Wybierz opcję Las i wybierz pozycję Wykonaj, aby utworzyć las losowy
  7. Wybierz kartę Ocena
  8. Wybierz opcję Ryzyko i wybierz pozycję Wykonaj, aby wyświetlić dwa wykresy wydajności ryzyka (skumulowane)
  9. Wybierz kartę Dziennik, aby wyświetlić wygenerowany kod języka R dla poprzednich operacji
    • Ze względu na usterkę w bieżącej wersji programu Rattle należy wstawić znak przed pozycją # Eksportuj ten dziennik w tekście dziennika
  10. Wybierz przycisk Eksportuj, aby zapisać plik skryptu języka R o nazwie weather_script. R, do folderu macierzystego

Możesz zamknąć rattle i R. Teraz możesz zmodyfikować wygenerowany skrypt języka R. Możesz również użyć skryptu w taki sposób, jak to jest, i uruchomić go w dowolnym momencie, aby powtórzyć wszystko, co zostało zrobione w interfejsie użytkownika rattle. Dla początkujących w języku R szczególnie nadaje się to do szybkiej analizy i uczenia maszynowego w prostym interfejsie graficznym, automatycznie generując kod w języku R w celu modyfikacji lub uczenia.

Następne kroki

Aby uzyskać więcej pytań, rozważ utworzenie biletu pomocy technicznej