Nauka o danych za pomocą Data Science Virtual Machine systemu Windows

Windows Data Science Virtual Machine (DSVM) to zaawansowane środowisko deweloperskie do nauki o danych, w którym można wykonywać zadania eksploracji i modelowania danych. Środowisko jest już skompilowane i połączone z kilkoma popularnymi narzędziami do analizy danych, które ułatwiają rozpoczęcie analizy wdrożeń lokalnych, w chmurze lub hybrydowych.

Maszyna DSVM ściśle współpracuje z usługami platformy Azure. Może odczytywać i przetwarzać dane, które są już przechowywane na platformie Azure, w Azure Synapse (dawniej SQL DW), Azure Data Lake, Azure Storage lub Azure Cosmos DB. Może również korzystać z innych narzędzi analitycznych, takich jak Usługa Azure Machine Learning.

W tym artykule dowiesz się, jak używać maszyny DSVM do wykonywania zadań nauki o danych i interakcji z innymi usługami platformy Azure. Poniżej przedstawiono niektóre czynności, które można wykonać na maszynie DSVM:

  • Używanie Jupyter Notebook do eksperymentowania z danymi w przeglądarce przy użyciu języków Python 2, Python 3 i Microsoft R. (Microsoft R jest wersją języka R gotową do użycia w przedsiębiorstwie zaprojektowaną pod kątem wydajności).

  • Eksploruj dane i twórz modele lokalnie na maszynie DSVM przy użyciu Microsoft Machine Learning Server i języka Python.

  • Administrowanie zasobami platformy Azure przy użyciu Azure Portal lub programu PowerShell.

  • Rozszerz miejsce do magazynowania i udostępnij zestawy danych/kod na dużą skalę w całym zespole, tworząc udział Azure Files jako dysk możliwy do zainstalowania na maszynie DSVM.

  • Udostępnianie kodu zespołowi przy użyciu usługi GitHub. Uzyskaj dostęp do repozytorium przy użyciu wstępnie zainstalowanych klientów Git: powłoki Git Bash i graficznego interfejsu użytkownika usługi Git.

  • Uzyskaj dostęp do usług danych i analiz platformy Azure, takich jak Azure Blob Storage, Azure Cosmos DB, Azure Synapse (dawniej SQL DW) i Azure SQL Database.

  • Twórz raporty i pulpit nawigacyjny przy użyciu wystąpienia Power BI Desktop, które jest wstępnie zainstalowane na maszynie DSVM, i wdrażaj je w chmurze.

  • Zainstaluj dodatkowe narzędzia na maszynie wirtualnej.

Uwaga

Dodatkowe opłaty za użycie dotyczą wielu usług magazynu i analiz danych wymienionych w tym artykule. Aby uzyskać szczegółowe informacje, zobacz stronę cennika platformy Azure .

Wymagania wstępne

Uwaga

Zalecamy korzystanie z modułu Azure Az programu PowerShell do interakcji z platformą Azure. Zobacz Instalowanie programu Azure PowerShell, aby rozpocząć. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az PowerShell, zobacz Migracja programu Azure PowerShell z modułu AzureRM do modułu Az.

Korzystanie z notesów Jupyter

Jupyter Notebook udostępnia oparte na przeglądarce środowisko IDE do eksploracji i modelowania danych. Możesz użyć języka Python 2, Python 3 lub R w Jupyter Notebook.

Aby uruchomić Jupyter Notebook, wybierz ikonę Jupyter Notebook w menu Start lub na pulpicie. W wierszu polecenia maszyny DSVM można również uruchomić polecenie jupyter notebook z katalogu, w którym masz istniejące notesy lub gdzie chcesz utworzyć nowe notesy.

Po uruchomieniu /notebooks programu Jupyter przejdź do katalogu, na przykład notesów wstępnie spakowanych do maszyny DSVM. Co możesz teraz zrobić:

  • Wybierz notes, aby wyświetlić kod.
  • Uruchom każdą komórkę, wybierając klawisze Shift+Enter.
  • Uruchom cały notes, wybierając pozycję Uruchom komórkę>.
  • Utwórz nowy notes, wybierając ikonę Jupyter (w lewym górnym rogu), wybierając przycisk Nowy po prawej stronie, a następnie wybierając język notesu (nazywany również jądrami).

Uwaga

Obecnie obsługiwane są jądra python 2.7, Python 3.6, R, Julia i PySpark w programie Jupyter. Jądro języka R obsługuje programowanie zarówno w języku open source R, jak i Microsoft R.

Gdy jesteś w notesie, możesz eksplorować dane, kompilować model i testować model przy użyciu wybranej biblioteki.

Eksplorowanie danych i opracowywanie modeli za pomocą Microsoft Machine Learning Server

Uwaga

Wsparcie dla autonomicznej Machine Learning Server zakończy się 1 lipca 2021 r. Usuniemy go z obrazów MASZYN DSVM po 30 czerwca. Istniejące wdrożenia będą nadal mieć dostęp do oprogramowania, ale ze względu na datę zakończenia wsparcia technicznego po 1 lipca 2021 r. nie będzie już wsparcia technicznego.

Aby przeprowadzić analizę danych bezpośrednio na maszynie DSVM, możesz użyć języków takich jak R i Python.

W przypadku języka R można użyć R Tools for Visual Studio. Firma Microsoft udostępniła dodatkowe biblioteki na podstawie języka CRAN R typu open source, aby umożliwić skalowalną analizę i możliwość analizowania danych większych niż rozmiar pamięci dozwolony w równoległej analizie fragmentowanej.

W przypadku języka Python możesz użyć środowiska IDE, takiego jak Visual Studio Community Edition, które ma wstępnie zainstalowane rozszerzenie Python Tools for Visual Studio (PTVS). Domyślnie tylko środowisko Conda w języku Python 3.6 jest skonfigurowane na serwerze PTVS. Aby włączyć środowisko Anaconda Python 2.7, wykonaj następujące kroki:

  1. Utwórz środowiska niestandardowe dla każdej wersji, przechodząc do pozycji Narzędzia Python>Tools>Python Environments, a następnie wybierając pozycję + Niestandardowe w wersji Visual Studio Community Edition.
  2. Podaj opis i ustaw ścieżkę prefiksu środowiska jako c:\anaconda\envs\python2 dla środowiska Anaconda Python 2.7.
  3. Wybierz pozycję Automatycznie wykryj>zastosuj , aby zapisać środowisko.

Aby uzyskać więcej informacji na temat tworzenia środowisk języka Python, zobacz dokumentację PTVS .

Teraz skonfigurujesz tworzenie nowego projektu w języku Python. Przejdź do pozycji Plik>nowy>projekt>Python i wybierz typ kompilnej aplikacji w języku Python. Środowisko języka Python dla bieżącego projektu można ustawić na żądaną wersję (Python 2.7 lub 3.6), klikając prawym przyciskiem myszy środowiska języka Python , a następnie wybierając polecenie Dodaj/Usuń środowiska języka Python. Więcej informacji na temat pracy z ptVS można znaleźć w dokumentacji produktu.

Zarządzanie zasobami platformy Azure

Maszyna DSVM nie umożliwia tylko lokalnego kompilowania rozwiązania analitycznego na maszynie wirtualnej. Umożliwia również dostęp do usług na platformie Azure w chmurze. Platforma Azure udostępnia kilka usług obliczeniowych, magazynu, analizy danych i innych usług, do których można administrować maszyną DSVM i uzyskiwać do tego dostęp.

Aby administrować subskrypcją platformy Azure i zasobami w chmurze, dostępne są dwie opcje:

Rozszerzanie magazynu przy użyciu udostępnionych systemów plików

Analitycy danych mogą udostępniać duże zestawy danych, kod lub inne zasoby w zespole. Maszyna DSVM ma około 45 GB dostępnego miejsca. Aby rozszerzyć magazyn, możesz użyć Azure Files i zainstalować go na co najmniej jednym wystąpieniu maszyny DSVM lub uzyskać do niego dostęp za pośrednictwem interfejsu API REST. Możesz również użyć Azure Portal lub użyć Azure PowerShell, aby dodać dodatkowe dedykowane dyski danych.

Uwaga

Maksymalna ilość miejsca w udziale Azure Files wynosi 5 TB. Limit rozmiaru każdego pliku wynosi 1 TB.

Tego skryptu można użyć w Azure PowerShell do utworzenia udziału Azure Files:

# Authenticate to Azure.
Connect-AzAccount
# Select your subscription
Get-AzSubscription –SubscriptionName "<your subscription name>" | Select-AzSubscription
# Create a new resource group.
New-AzResourceGroup -Name <dsvmdatarg>
# Create a new storage account. You can reuse existing storage account if you want.
New-AzStorageAccount -Name <mydatadisk> -ResourceGroupName <dsvmdatarg> -Location "<Azure Data Center Name For eg. South Central US>" -Type "Standard_LRS"
# Set your current working storage account
Set-AzCurrentStorageAccount –ResourceGroupName "<dsvmdatarg>" –StorageAccountName <mydatadisk>

# Create an Azure Files share
$s = New-AzStorageShare <<teamsharename>>
# Create a directory under the file share. You can give it any name
New-AzStorageDirectory -Share $s -Path <directory name>
# List the share to confirm that everything worked
Get-AzStorageFile -Share $s

Po utworzeniu udziału Azure Files możesz zainstalować go na dowolnej maszynie wirtualnej na platformie Azure. Zalecamy umieszczenie maszyny wirtualnej w tym samym centrum danych platformy Azure co konto magazynu, aby uniknąć opóźnień i opłat za transfer danych. Poniżej przedstawiono polecenia Azure PowerShell do zainstalowania dysku na maszynie DSVM:

# Get the storage key of the storage account that has the Azure Files share from the Azure portal. Store it securely on the VM to avoid being prompted in the next command.
cmdkey /add:<<mydatadisk>>.file.core.windows.net /user:<<mydatadisk>> /pass:<storage key>

# Mount the Azure Files share as drive Z on the VM. You can choose another drive letter if you want.
net use z:  \\<mydatadisk>.file.core.windows.net\<<teamsharename>>

Teraz możesz uzyskać dostęp do tego dysku, tak jak w przypadku dowolnego normalnego dysku na maszynie wirtualnej.

Udostępnianie kodu w usłudze GitHub

GitHub to repozytorium kodu, w którym można znaleźć przykłady kodu i źródła dla różnych narzędzi przy użyciu technologii udostępnianych przez społeczność deweloperów. Używa usługi Git jako technologii do śledzenia i przechowywania wersji plików kodu. GitHub to również platforma, na której można utworzyć własne repozytorium do przechowywania udostępnionego kodu i dokumentacji zespołu, implementowania kontroli wersji oraz kontrolowania, kto ma dostęp do wyświetlania i współtworzenia kodu.

Odwiedź strony pomocy usługi GitHub , aby uzyskać więcej informacji na temat korzystania z usługi Git. Możesz użyć usługi GitHub jako jednego ze sposobów współpracy z zespołem, używania kodu opracowanego przez społeczność i współtworzenia kodu z powrotem do społeczności.

Maszyna DSVM jest ładowana z narzędziami klienckimi w wierszu polecenia i graficznym interfejsem użytkownika w celu uzyskania dostępu do repozytorium GitHub. Narzędzie wiersza polecenia współdziałające z usługami Git i GitHub nosi nazwę Git Bash. Program Visual Studio jest zainstalowany na maszynie DSVM i ma rozszerzenia Git. Ikony tych narzędzi można znaleźć w menu Start i na pulpicie.

Aby pobrać kod z repozytorium GitHub, użyj git clone polecenia . Aby na przykład pobrać repozytorium nauki o danych opublikowane przez firmę Microsoft do bieżącego katalogu, możesz uruchomić następujące polecenie w powłoce Git Bash:

git clone https://github.com/Azure/DataScienceVM.git

W programie Visual Studio można wykonać tę samą operację klonowania. Poniższy zrzut ekranu przedstawia sposób uzyskiwania dostępu do narzędzi Git i GitHub w programie Visual Studio:

Zrzut ekranu programu Visual Studio z wyświetlonym połączeniem usługi GitHub

Więcej informacji na temat korzystania z usługi Git do pracy z repozytorium GitHub można znaleźć w zasobach dostępnych na github.com. Ściągawka jest przydatnym odwołaniem.

Uzyskiwanie dostępu do usług danych i analiz platformy Azure

Azure Blob Storage

Azure Blob Storage to niezawodna, ekonomiczna usługa magazynu w chmurze dla dużych i małych danych. W tej sekcji opisano sposób przenoszenia danych do usługi Blob Storage i uzyskiwania dostępu do danych przechowywanych w obiekcie blob platformy Azure.

Wymagania wstępne

  • Utwórz konto usługi Azure Blob Storage na podstawie Azure Portal.

    Zrzut ekranu przedstawiający proces tworzenia konta magazynu w Azure Portal

  • Upewnij się, że narzędzie AzCopy wiersza polecenia jest wstępnie zainstalowane: C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy.exe. Katalog zawierający azcopy.exe znajduje się już w zmiennej środowiskowej PATH, dzięki czemu można uniknąć wpisywania pełnej ścieżki polecenia podczas uruchamiania tego narzędzia. Aby uzyskać więcej informacji na temat narzędzia AzCopy, zobacz dokumentację narzędzia AzCopy.

  • Uruchom narzędzie Eksplorator usługi Azure Storage. Możesz pobrać go ze strony internetowej Eksplorator usługi Storage.

    Zrzut ekranu przedstawiający Eksplorator usługi Azure Storage uzyskiwania dostępu do konta magazynu

Przenoszenie danych z maszyny wirtualnej do obiektu blob platformy Azure: AzCopy

Aby przenieść dane między lokalnymi plikami i usługą Blob Storage, możesz użyć narzędzia AzCopy w wierszu polecenia lub w programie PowerShell:

AzCopy /Source:C:\myfolder /Dest:https://<mystorageaccount>.blob.core.windows.net/<mycontainer> /DestKey:<storage account key> /Pattern:abc.txt

Zastąp ciąg C:\myfolder ścieżką, w której jest przechowywany plik, ciąg mystorageaccount nazwą konta usługi Blob Storage, nazwą kontenera mycontainer i kluczem konta magazynu obiektów blob kluczem dostępu. Poświadczenia konta magazynu można znaleźć w Azure Portal.

Uruchom polecenie AzCopy w programie PowerShell lub w wierszu polecenia. Oto przykład użycia polecenia AzCopy:

# Copy *.sql from a local machine to an Azure blob
"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Source:"c:\Aaqs\Data Science Scripts" /Dest:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /DestKey:[ENTER STORAGE KEY] /S /Pattern:*.sql

# Copy back all files from an Azure blob container to a local machine

"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Dest:"c:\Aaqs\Data Science Scripts\temp" /Source:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /SourceKey:[ENTER STORAGE KEY] /S

Po uruchomieniu polecenia AzCopy w celu skopiowania do obiektu blob platformy Azure plik zostanie wyświetlony w Eksplorator usługi Azure Storage.

Zrzut ekranu przedstawiający konto magazynu z wyświetlonym przekazanym plikiem CSV

Przenoszenie danych z maszyny wirtualnej do obiektu blob platformy Azure: Eksplorator usługi Azure Storage

Możesz również przekazać dane z pliku lokalnego na maszynie wirtualnej przy użyciu Eksplorator usługi Azure Storage:

  • Aby przekazać dane do kontenera, wybierz kontener docelowy i wybierz przycisk Przekaż. Zrzut ekranu przedstawiający przycisk przekazywania w Eksplorator usługi Azure Storage
  • Wybierz wielokropek (...) po prawej stronie pola Pliki , wybierz jeden lub wiele plików do przekazania z systemu plików, a następnie wybierz pozycję Przekaż , aby rozpocząć przekazywanie plików. Zrzut ekranu przedstawiający okno dialogowe Przekazywanie plików

Odczytywanie danych z obiektu blob platformy Azure: Python ODBC

Za pomocą biblioteki BlobService można odczytywać dane bezpośrednio z obiektu blob w Jupyter Notebook lub w programie języka Python.

Najpierw zaimportuj wymagane pakiety:

import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from time import time
import pyodbc
import os
from azure.storage.blob import BlobService
import tables
import time
import zipfile
import random

Następnie podłącz poświadczenia konta usługi Blob Storage i odczytaj dane z obiektu blob:

CONTAINERNAME = 'xxx'
STORAGEACCOUNTNAME = 'xxxx'
STORAGEACCOUNTKEY = 'xxxxxxxxxxxxxxxx'
BLOBNAME = 'nyctaxidataset/nyctaxitrip/trip_data_1.csv'
localfilename = 'trip_data_1.csv'
LOCALDIRECTORY = os.getcwd()
LOCALFILE =  os.path.join(LOCALDIRECTORY, localfilename)

#download from blob
t1 = time.time()
blob_service = BlobService(account_name=STORAGEACCOUNTNAME,account_key=STORAGEACCOUNTKEY)
blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILE)
t2 = time.time()
print(("It takes %s seconds to download "+BLOBNAME) % (t2 - t1))

#unzip downloaded files if needed
#with zipfile.ZipFile(ZIPPEDLOCALFILE, "r") as z:
#    z.extractall(LOCALDIRECTORY)

df1 = pd.read_csv(LOCALFILE, header=0)
df1.columns = ['medallion','hack_license','vendor_id','rate_code','store_and_fwd_flag','pickup_datetime','dropoff_datetime','passenger_count','trip_time_in_secs','trip_distance','pickup_longitude','pickup_latitude','dropoff_longitude','dropoff_latitude']
print 'the size of the data is: %d rows and  %d columns' % df1.shape

Dane są odczytywane jako ramka danych:

Zrzut ekranu przedstawiający pierwsze 10 wierszy danych

Azure Synapse Analytics i bazy danych

Azure Synapse Analytics to elastyczny magazyn danych jako usługa z SQL Server klasy korporacyjnej.

Możesz aprowizować usługę Azure Synapse Analytics, postępując zgodnie z instrukcjami w tym artykule. Po aprowizacji usługi Azure Synapse Analytics możesz użyć tego przewodnika do przekazywania, eksploracji i modelowania danych przy użyciu danych w usłudze Azure Synapse Analytics.

Azure Cosmos DB

Usługa Azure Cosmos DB to baza danych NoSQL w chmurze. Można go używać do pracy z dokumentami, takimi jak JSON, oraz do przechowywania i wykonywania zapytań dotyczących dokumentów.

Aby uzyskać dostęp do usługi Azure Cosmos DB z maszyny DSVM, wykonaj następujące kroki wstępne:

  1. Zestaw SDK języka Python usługi Azure Cosmos DB jest już zainstalowany na maszynie DSVM. Aby ją zaktualizować, uruchom polecenie pip install pydocumentdb --upgrade w wierszu polecenia.

  2. Utwórz konto i bazę danych usługi Azure Cosmos DB na podstawie Azure Portal.

  3. Pobierz narzędzie do migracji danych usługi Azure Cosmos DB z Centrum pobierania Microsoft i wyodrębnij go do wybranego katalogu.

  4. Zaimportuj dane JSON (dane wulkanu) przechowywane w publicznym obiekcie blob do usługi Azure Cosmos DB przy użyciu następujących parametrów polecenia do narzędzia do migracji. (Użyj dtui.exe z katalogu, w którym zainstalowano narzędzie do migracji danych usługi Azure Cosmos DB). Wprowadź lokalizację źródłową i docelową z następującymi parametrami:

    /s:JsonFile /s.Files:https://data.humdata.org/dataset/a60ac839-920d-435a-bf7d-25855602699d/resource/7234d067-2d74-449a-9c61-22ae6d98d928/download/volcano.json /t:DocumentDBBulk /t.ConnectionString:AccountEndpoint=https://[DocDBAccountName].documents.azure.com:443/;AccountKey=[[KEY];Database=volcano /t.Collection:volcano1

Po zaimportowaniu danych możesz przejść do programu Jupyter i otworzyć notes o nazwie DocumentDBSample. Zawiera kod języka Python umożliwiający dostęp do usługi Azure Cosmos DB i wykonywanie niektórych podstawowych zapytań. Więcej informacji na temat usługi Azure Cosmos DB można uzyskać, odwiedzając stronę dokumentacji usługi.

Korzystanie z raportów i pulpitów nawigacyjnych usługi Power BI

Możesz zwizualizować plik JSON wulkanu z poprzedniego przykładu usługi Azure Cosmos DB w Power BI Desktop, aby uzyskać wgląd w dane wizualne. Szczegółowe kroki są dostępne w artykule dotyczącym usługi Power BI. Poniżej przedstawiono kroki wysokiego poziomu:

  1. Otwórz program Power BI Desktop i wybierz pozycję Pobierz dane. Określ adres URL jako: https://cahandson.blob.core.windows.net/samples/volcano.json.
  2. Powinny zostać wyświetlone rekordy JSON zaimportowane jako lista. Przekonwertuj listę na tabelę, aby usługa Power BI mogła z nią pracować.
  3. Rozwiń kolumny, wybierając ikonę rozwijania (strzałki).
  4. Zwróć uwagę, że lokalizacja jest polem Rekord . Rozwiń rekord i wybierz tylko współrzędne. Współrzędna jest kolumną listy.
  5. Dodaj nową kolumnę, aby przekonwertować kolumnę współrzędnych listy na kolumnę latlong rozdzielaną przecinkami. Połącz dwa elementy w polu listy współrzędnych przy użyciu formuły Text.From([coordinates]{1})&","&Text.From([coordinates]{0}).
  6. Przekonwertuj kolumnę Podniesienie uprawnień na dziesiętną i wybierz przyciski Zamknij i Zastosuj .

Zamiast powyższych kroków możesz wkleić następujący kod. Wykonuje skrypty kroków używanych w Edytor zaawansowany w usłudze Power BI w celu zapisania przekształceń danych w języku zapytań.

let
    Source = Json.Document(Web.Contents("https://cahandson.blob.core.windows.net/samples/volcano.json")),
    #"Converted to Table" = Table.FromList(Source, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
    #"Expanded Column1" = Table.ExpandRecordColumn(#"Converted to Table", "Column1", {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}, {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}),
    #"Expanded Location" = Table.ExpandRecordColumn(#"Expanded Column1", "Location", {"coordinates"}, {"coordinates"}),
    #"Added Custom" = Table.AddColumn(#"Expanded Location", "LatLong", each Text.From([coordinates]{1})&","&Text.From([coordinates]{0})),
    #"Changed Type" = Table.TransformColumnTypes(#"Added Custom",{{"Elevation", type number}})
in
    #"Changed Type"

Masz teraz dane w modelu danych usługi Power BI. Wystąpienie Power BI Desktop powinno wyglądać następująco:

Power BI Desktop

Możesz rozpocząć tworzenie raportów i wizualizacji przy użyciu modelu danych. Aby utworzyć raport, możesz wykonać kroki opisane w tym artykule usługi Power BI .

Dynamiczne skalowanie maszyny DSVM

Maszynę DSVM można skalować w górę i w dół, aby zaspokoić potrzeby projektu. Jeśli nie musisz używać maszyny wirtualnej wieczorem lub w weekendy, możesz zamknąć maszynę wirtualną z Azure Portal.

Uwaga

Opłaty za obliczenia są naliczane, jeśli używasz tylko przycisku zamykania systemu operacyjnego na maszynie wirtualnej. Zamiast tego należy cofnąć przydział maszyny DSVM przy użyciu Azure Portal lub Cloud Shell.

Może być konieczne obsłużenie analizy na dużą skalę i wymaga większej ilości procesora CPU, pamięci lub pojemności dysku. Jeśli tak, możesz znaleźć wybór rozmiarów maszyn wirtualnych pod względem rdzeni procesora CPU, wystąpień opartych na procesorze GPU na potrzeby uczenia głębokiego, pojemności pamięci i dysków (w tym dysków półprzewodnikowych), które spełniają potrzeby obliczeniowe i budżetowe. Pełna lista maszyn wirtualnych wraz z cennikiem obliczeń godzinowych jest dostępna na stronie cennika usługi Azure Virtual Machines.

Dodawanie kolejnych narzędzi

Narzędzia wstępnie utworzone w maszynie DSVM mogą sprostać wielu typowym potrzebom analizy danych. Pozwala to zaoszczędzić czas, ponieważ nie trzeba instalować i konfigurować środowisk pojedynczo. Oszczędza również pieniądze, ponieważ płacisz tylko za używane zasoby.

Aby ulepszyć środowisko analityczne, możesz użyć innych usług danych i analiz platformy Azure profilowanych w tym artykule. W niektórych przypadkach może być konieczne dodatkowe narzędzia, w tym niektóre zastrzeżone narzędzia partnerskie. Masz pełny dostęp administracyjny na maszynie wirtualnej, aby zainstalować potrzebne nowe narzędzia. Możesz również zainstalować dodatkowe pakiety w języku Python i R, które nie są wstępnie zainstalowane. W przypadku języka Python można użyć polecenia conda lub pip. W przypadku języka R można użyć w konsoli języka R lub użyć install.packages() środowiska IDE i wybrać pozycję Pakietyinstaluj pakiety>.

Uczenie głębokie

Oprócz przykładów opartych na strukturze można uzyskać zestaw kompleksowych przewodników, które zostały zweryfikowane na maszynie DSVM. Te przewodniki ułatwiają szybkie rozpoczęcie tworzenia aplikacji uczenia głębokiego w domenach, takich jak obraz i opis tekstu/języka.

Podsumowanie

W tym artykule opisano niektóre czynności, które można wykonać w witrynie Microsoft Data Science Virtual Machine. Istnieje wiele innych czynności, które można zrobić, aby maszyna DSVM była skutecznym środowiskiem analitycznym.