Science des données avec une Data Science Virtual Machine Windows

Article
06/17/2024

La machine virtuelle Windows Data Science Virtual Machine (DSVM) est un puissant environnement de développement de la science des données qui prend en charge les tâches d’exploration et de modélisation des données. L'environnement est préinstallé et fourni avec plusieurs outils d'analytique de données populaires qui facilitent le démarrage de l'analyse pour les déploiements locaux, cloud ou hybride.

L’environnement DSVM opère en étroite collaboration avec les services Azure. Il peut lire et traiter des données déjà stockées sur Azure, dans Azure Synapse (anciennement SQL DW), Azure Data Lake, Stockage Azure ou Azure Cosmos DB. Il peut aussi tirer parti d’autres outils d’analytique comme Azure Machine Learning.

Dans cet article, vous apprendrez à utiliser votre DSVM pour gérer des tâches de science des données et interagir avec d’autres services Azure. Il s’agit d'un échantillon des tâches que le DSVM peut couvrir :

Utilisez un Jupyter Notebook pour expérimenter vos données dans un navigateur, en utilisant Python 2, Python 3 et Microsoft R. (Microsoft R est une version de R destinée aux entreprises et conçue pour une haute performance.)
Explorer les données et développer des modèles localement sur la machine virtuelle DSVM, en utilisant Microsoft Machine Learning Server et Python.
Gérez vos ressources Azure à l’aide du Portail Azure ou de PowerShell.
Augmentez votre espace de stockage et partagez des jeux de données ou de codes à grande échelle avec l’ensemble de votre équipe, grâce à un partage Azure Files en tant que lecteur montable sur votre machine virtuelle DSVM.
Partagez du code avec votre équipe grâce à GitHub. Accédez à votre référentiel grâce aux clients Git préinstallés : Git Bash et Git GUI.
Accéder aux services de données et d’analytique Azure :
- Stockage Blob Azure
- Azure Cosmos DB
- Azure Synapse (anciennement SQL DW)
- Azure SQL Database
Générez des rapports et un tableau de bord avec l’instance Power BI Desktop, préinstallée sur la machine virtuelle DSVM, et déployez-les dans le cloud.
Installez d’autres outils sur votre machine virtuelle.

Remarque

Des frais d’utilisation supplémentaires s’appliquent pour la plupart des services de stockage et d’analytique des données mentionnés dans cet article. Pour plus d’informations, consultez la page sur la tarification d’Azure.

Prérequis

Un abonnement Azure. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
Une machine virtuelle DSVM approvisionnée sur le Portail Azure. Pour plus d’informations, consultez la ressource Création d’une machine virtuelle.

Remarque

Nous vous recommandons d’utiliser le module Azure Az PowerShell pour interagir avec Azure. Pour bien démarrer, consultez Installer Azure PowerShell. Pour savoir comment migrer vers le module Az PowerShell, consultez Migrer Azure PowerShell depuis AzureRM vers Az.

Utiliser des notebooks Jupyter

Jupyter Notebook fournit un IDE basé sur navigateur pour l’exploration et la modélisation des données. Vous pouvez utiliser Python 2, Python 3 ou R dans un notebook Jupyter.

Pour démarrer Jupyter Notebook, sélectionnez l’icône Jupyter Notebook dans le menu Démarrer ou sur le Bureau. Dans l’invite de commandes de la machine virtuelle DSVM, vous pouvez également exécuter la commande jupyter notebook à partir du répertoire qui héberge les Notebooks existants ou celui dans lequel vous souhaitez créer de nouveaux bloc-notes.

Après avoir démarré Jupyter, accédez au répertoire /notebooks. Le répertoire auquel vous accédez héberge les types de bloc-notes qui sont prépackagés dans la machine virtuelle DSVM. Vous pouvez :

Sélectionner le notebook pour visualiser le code.
Sélectionnez Maj+Entrer pour exécuter chaque cellule.
Sélectionnez Cellule>Exécuter pour exécuter l’ensemble du bloc-notes.
Créez un nouveau bloc-notes ; sélectionnez l’icône Jupyter (dans le coin supérieur gauche), sélectionnez le bouton Nouveau, puis choisissez le langage du bloc-notes (également connu sous le nom de noyaux).

Remarque

Pour l'instant, les noyaux Python 2.7, Python 3.6, R, Julia et PySpark dans Jupyter sont pris en charge. Le noyau R prend en charge la programmation dans R open source et Microsoft R. Dans le bloc-notes, vous pouvez explorer vos données, générer votre modèle et tester ce modèle avec votre choix de bibliothèques.

Explorer les données et développer des modèles avec Microsoft Machine Learning Server

Remarque

Le support de Machine Learning Server autonome a pris fin le 1er juillet 2021. Nous l’avons supprimé des images de la machine virtuelle DSVM après le 30 juin 2021. Les déploiements existants peuvent toujours accéder au logiciel. Cependant, leur prise en charge a expiré après le 1er juillet 2021.

Vous pouvez utiliser R et Python pour vos analytique de données directement sur la machine virtuelle DSVM.

Pour R, vous pouvez utiliser Outils R pour Visual Studio. Microsoft fournit d’autres bibliothèques, en plus de la ressource CRAN R open source. Ces bibliothèques permettent d’effectuer des analyses évolutives et d’analyser des masses de données qui dépassent les limites de la taille de la mémoire de l’analyse parallèle en segments.

Pour Python, vous pouvez utiliser un IDE comme Visual Studio Community Edition, dans lequel l’extension Python Tools pour Visual Studio (PTVS) est préinstallée. Par défaut, seul Python 3.6, l’environnement racine de Conda, est configuré sur PTVS. Pour activer Anaconda Python 2.7 :

Créez des environnements personnalisés pour chaque version. Sélectionnez Tools>Python Tools>Python Environments, puis sélectionnez + Custom dans Visual Studio Community Edition.
Fournissez une description et définissez le chemin du préfixe d’environnement comme suit : c:\anaconda\envs\python2 pour Anaconda Python 2.7.
Sélectionnez Détection automatique>Appliquer pour enregistrer l’environnement.

Pour plus d’informations sur la création d’environnements Python, consultez la documentation PTVS.

Vous pouvez maintenant créer un projet Python. Sélectionnez Fichier>Nouveau>projet>Python, et sélectionnez le type d’application Python que vous souhaitez générer. Vous pouvez définir l’environnement Python pour le projet en cours selon la version souhaitée (Python 2.7 ou 3.6) en effectuant un clic droit sur Environnements Python, puis en sélectionnant Ajouter/Supprimer les environnements Python. Consultez la documentation du produit pour plus d’informations sur l’utilisation de PTVS.

Gérer des ressources Azure

La machine virtuelle DSVM vous permet de construire votre solution analytique localement sur la machine virtuelle. Elle vous permet aussi d’accéder à des services sur la plateforme cloud Azure. Azure fournit plusieurs services, notamment de calcul, de stockage, d’analytique données et autres, que vous pouvez administrer et auxquels vous pouvez accéder à partir de votre machine virtuelle DSVM.

Vous disposez de deux options pour administrer votre abonnement Azure et vos ressources cloud :

Accédez au Portail Azure dans votre navigateur.
Utiliser des scripts PowerShell. Exécutez Azure PowerShell à partir d’un raccourci du bureau ou du menu Démarrer. Pour plus d’informations, consultez la documentation Microsoft Azure PowerShell.

Étendre le stockage à l’aide de systèmes de fichiers partagés

Les scientifiques des données peuvent partager des jeux de données volumineux, du code ou d’autres ressources au sein de leur équipe. La machine virtuelle DSVM dispose d’environ 45 Go d’espace disponible. Pour étendre votre stockage, vous pouvez utiliser Azure Files et le monter sur une ou plusieurs instances de la machine virtuelle DSVM, ou y accéder via une API REST. Vous pouvez également utiliser le Portail Azure ou Azure PowerShell pour ajouter des disques de données supplémentaires dédiés.

Remarque

L’espace maximal sur un partage de fichiers Azure est de 5 To. Chaque fichier a une limite de taille de 1 To.

Le présent script Azure PowerShell crée un partage Azure Files :

# Authenticate to Azure.
Connect-AzAccount
# Select your subscription
Get-AzSubscription –SubscriptionName "<your subscription name>" | Select-AzSubscription
# Create a new resource group.
New-AzResourceGroup -Name <dsvmdatarg>
# Create a new storage account. You can reuse existing storage account if you want.
New-AzStorageAccount -Name <mydatadisk> -ResourceGroupName <dsvmdatarg> -Location "<Azure Data Center Name For eg. South Central US>" -Type "Standard_LRS"
# Set your current working storage account
Set-AzCurrentStorageAccount –ResourceGroupName "<dsvmdatarg>" –StorageAccountName <mydatadisk>

# Create an Azure Files share
$s = New-AzStorageShare <<teamsharename>>
# Create a directory under the file share. You can give it any name
New-AzStorageDirectory -Share $s -Path <directory name>
# List the share to confirm that everything worked
Get-AzStorageFile -Share $s

Vous pouvez monter un partage Azure Files sur n’importe quelle machine virtuelle dans Azure. Nous vous suggérons de placer la machine virtuelle et le compte de stockage dans le même centre de données Azure pour éviter les frais de latence et de transfert de données. Ces commandes Azure PowerShell montent le lecteur sur la machine virtuelle DSVM :

# Get the storage key of the storage account that has the Azure Files share from the Azure portal. Store it securely on the VM to avoid being prompted in the next command.
cmdkey /add:<<mydatadisk>>.file.core.windows.net /user:<<mydatadisk>> /pass:<storage key>

# Mount the Azure Files share as drive Z on the VM. You can choose another drive letter if you want.
net use z:  \\<mydatadisk>.file.core.windows.net\<<teamsharename>>

Vous pouvez accéder à ce lecteur comme à tout autre lecteur normal de la machine virtuelle.

Le référentiel de code GitHub héberge des échantillons de code et des sources de code pour de nombreux outils partagés par la communauté des développeurs. Il utilise la technologie Git pour suivre et stocker les versions des fichiers de code. GitHub sert également de plateforme pour créer votre propre référentiel. Votre référentiel peut stocker le code et la documentation partagés de votre équipe, mettre en place un contrôle de version et contrôler les autorisations d’accès pour les parties prenantes qui souhaitent consulter et apporter leur contribution au code. GitHub favorise la collaboration au sein de votre équipe, l’utilisation du code développé par la communauté. De plus, GitHub permet de contribuer au code de la communauté. Visitez les pages de support GitHub pour plus d’informations sur Git.

La machine virtuelle DSVM est livrée avec des outils clients en ligne de commande et dans l’interface graphique pour accéder au référentiel GitHub. L’outil en ligne de commande Git Bash fonctionne avec Git et GitHub. Visual Studio est installé sur la DSVM et comprend les extensions Git. Le menu Démarrer et le bureau contiennent des icônes pour ces outils.

Utilisez la commande git clone pour télécharger le code d’un référentiel GitHub. Par exemple, pour télécharger le référentiel de science des données publié par Microsoft dans le répertoire actuel, exécutez la commande suivante dans Git Bash :

git clone https://github.com/Azure/DataScienceVM.git

Visual Studio peut gérer la même opération de clonage. La présente capture d’écran indique comment accéder aux outils Git et GitHub dans Visual Studio :

Vous pouvez utiliser des ressources github.com disponibles dans votre référentiel GitHub. Pour plus d’informations, consultez la ressource aide-mémoire GitHub.

Accéder aux services de données et d’analytique Azure

stockage d’objets blob Azure

Le stockage Azure Blob est un service de stockage cloud fiable et économique pour les petites et grandes ressources de données. La présente section décrit comment déplacer des données vers le stockage Blob et comment accéder aux données stockées dans un blob Azure.

Prérequis

Un compte de stockage Blob Azure créé dans le Portail Azure.
Confirmez que l’outil de ligne de commande AzCopy est préinstallé, en utilisant cette commande :

C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy.exe

Le répertoire hébergeant azcopy.exe se trouve déjà dans votre variable d’environnement PATH, ce qui vous permet d’éviter de saisir le chemin de commande complet lorsque vous exécutez cet outil. Pour plus d’informations sur l’outil AzCopy, lisez la documentation AzCopy.
Lancez l’outil Azure Storage Explorer. Vous pouvez le télécharger à partir de la page web Explorateur Stockage.

Déplacer des données d’une machine virtuelle vers un objet blob Azure : AzCopy

Pour déplacer des données entre vos fichiers locaux et le stockage d’objets blob, vous pouvez utiliser AzCopy sur la ligne de commande ou dans PowerShell :

AzCopy /Source:C:\myfolder /Dest:https://<mystorageaccount>.blob.core.windows.net/<mycontainer> /DestKey:<storage account key> /Pattern:abc.txt

Remplacez C :\myfolder par le chemin d’accès du répertoire hébergeant votre fichier
Remplacez mystorageaccount par le nom de votre compte de stockage Blob
Remplacez mycontainer par le nom du conteneur
Remplacer la clé de compte de stockage par votre clé d’accès de stockage Blob

Vous trouverez les informations d’identification de votre compte de stockage dans le portail Azure.

Exécutez la commande AzCopy dans PowerShell ou à partir d’une invite de commandes. Voici des exemples de commandes AzCopy :

# Copy *.sql from a local machine to an Azure blob
"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Source:"c:\Aaqs\Data Science Scripts" /Dest:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /DestKey:[ENTER STORAGE KEY] /S /Pattern:*.sql

# Copy back all files from an Azure blob container to a local machine

"C:\Program Files (x86)\Microsoft SDKs\Azure\AzCopy\azcopy" /Dest:"c:\Aaqs\Data Science Scripts\temp" /Source:https://[ENTER STORAGE ACCOUNT].blob.core.windows.net/[ENTER CONTAINER] /SourceKey:[ENTER STORAGE KEY] /S

Après avoir exécuté la commande AzCopy pour copier le fichier dans un blob Azure, votre fichier apparaîtra dans l’Explorateur de Stockage Azure.

Déplacer des données d’une machine virtuelle vers un objet blob Azure : Explorateur de stockage Azure

Vous pouvez également télécharger des données à partir du fichier local de votre machine virtuelle à l’aide l’Explorateur de Stockage Azure :

Pour télécharger des données dans un conteneur, sélectionnez le conteneur cible et cliquez sur le bouton Télécharger.
À droite de la case Fichiers, sélectionnez les points de suspension (...), sélectionnez un ou plusieurs fichiers à télécharger à partir du système de fichiers et sélectionnez Télécharger pour commencer à télécharger les fichiers.

Lire des données à partir d’un objet blob : Python ODBC

La bibliothèque BlobService peut lire des données directement à partir d’un blob situé dans un Jupyter Notebook ou dans un programme Python. Commencez par importer les packages requis :

import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
from time import time
import pyodbc
import os
from azure.storage.blob import BlobService
import tables
import time
import zipfile
import random

Saisissez les identifiants de votre compte de stockage Blob et lisez les données du blob :

CONTAINERNAME = 'xxx'
STORAGEACCOUNTNAME = 'xxxx'
STORAGEACCOUNTKEY = 'xxxxxxxxxxxxxxxx'
BLOBNAME = 'nyctaxidataset/nyctaxitrip/trip_data_1.csv'
localfilename = 'trip_data_1.csv'
LOCALDIRECTORY = os.getcwd()
LOCALFILE =  os.path.join(LOCALDIRECTORY, localfilename)

#download from blob
t1 = time.time()
blob_service = BlobService(account_name=STORAGEACCOUNTNAME,account_key=STORAGEACCOUNTKEY)
blob_service.get_blob_to_path(CONTAINERNAME,BLOBNAME,LOCALFILE)
t2 = time.time()
print(("It takes %s seconds to download "+BLOBNAME) % (t2 - t1))

#unzip downloaded files if needed
#with zipfile.ZipFile(ZIPPEDLOCALFILE, "r") as z:
#    z.extractall(LOCALDIRECTORY)

df1 = pd.read_csv(LOCALFILE, header=0)
df1.columns = ['medallion','hack_license','vendor_id','rate_code','store_and_fwd_flag','pickup_datetime','dropoff_datetime','passenger_count','trip_time_in_secs','trip_distance','pickup_longitude','pickup_latitude','dropoff_longitude','dropoff_latitude']
print 'the size of the data is: %d rows and  %d columns' % df1.shape

Les données sont lues en tant que trame de données :

Azure Synapse Analytics et les bases de données

Azure Synapse Analytics est un « entrepôt de données élastiques sous forme de service », offrant une expérience SQL Server de niveau professionnel. La présente ressource décrit comment approvisionner Azure Synapse Analytics. Une fois que vous avez approvisionné Azure Synapse Analytics, ce guide vous indiquera comment gérer le téléchargement, l’exploration et la modélisation des données à l’aide d’Azure Synapse Analytics.

Azure Cosmos DB

Azure Cosmos DB est une base de données NoSQL basée sur le cloud. Il peut traiter des documents JSON, par exemple, et peut les stocker et les interroger. Cet exemple décrit comment accéder à Azure Cosmos DB à partir de la machine virtuelle DSVM :

Le Kit de développement logiciel (SDK) Azure Cosmos DB Python est déjà installé sur la DSVM. Pour le mettre à jour, exécutez pip install pydocumentdb --upgrade à partir d’une invite de commandes.
Créez un compte et une base de données Azure Cosmos DB à partir du portail Azure.
Téléchargez Azure Cosmos DB Data Migration Tool à partir du centre de téléchargement Microsoft. Ensuite, extrayez le fichier dans un répertoire de votre choix.
Importez les données JSON (données volcaniques) stockées dans un blob public dans Azure Cosmos DB à l’aide des paramètres de commande suivants de l’outil de migration. (Utilisez dtui.exe à partir du répertoire où vous avez installé l’outil de migration de données Azure Cosmos DB.) Entrez les paramètres d'emplacement source et cible suivant :

/s:JsonFile /s.Files:https://data.humdata.org/dataset/a60ac839-920d-435a-bf7d-25855602699d/resource/7234d067-2d74-449a-9c61-22ae6d98d928/download/volcano.json /t:DocumentDBBulk /t.ConnectionString:AccountEndpoint=https://[DocDBAccountName].documents.azure.com:443/;AccountKey=[[KEY];Database=volcano /t.Collection:volcano1

Une fois les données importées, vous pouvez accéder à Jupyter et ouvrir le notebook intitulé DocumentDBSample. Il contient du code Python pour accéder à Azure Cosmos DB, et pour effectuer des requêtes basiques. Consultez la page de documentation du service Azure Cosmos DB pour plus d’informations sur Azure Cosmos DB.

Utiliser des rapports et des tableaux de bord Power BI

Vous pouvez visualiser le fichier JSON Volcano décrit dans l’exemple précédent d’Azure Cosmos DB dans Power BI Desktop, pour avoir un aperçu visuel des données existantes. Le présent article de Power BI présente des étapes détaillées. Voici les étapes à suivre au plus haut niveau :

Ouvrez Power BI Desktop et sélectionnez obtenir les données. Spécifiez l’URL suivante : https://cahandson.blob.core.windows.net/samples/volcano.json.
Les enregistrements JSON, importés sous forme de liste, doivent devenir visibles. Convertissez la liste en tableau afin que Power BI puisse l’utiliser.
Sélectionnez l’icône de développement (flèche) pour développer les colonnes.
L’emplacement est un champ d’enregistrement. Développez l'enregistrement et sélectionnez uniquement les coordonnées. Une coordonnée est une colonne de liste.
Ajoutez une nouvelle colonne pour convertir la colonne de coordonnées de liste en colonne LatLong séparée par des virgules. Utilisez la formule Text.From([coordinates]{1})&","&Text.From([coordinates]{0}) pour concaténer les deux éléments du champ de la liste de coordonnées.
Convertissez la colonne Élévation en valeur décimale et sélectionnez les boutons Fermer et Appliquer.

Vous pouvez utiliser le code suivant comme alternative aux étapes précédentes. Il décrit les étapes utilisées dans l’éditeur avancé de Power BI qui permet d’écrire les transformations de données dans un langage de requête :

let
    Source = Json.Document(Web.Contents("https://cahandson.blob.core.windows.net/samples/volcano.json")),
    #"Converted to Table" = Table.FromList(Source, Splitter.SplitByNothing(), null, null, ExtraValues.Error),
    #"Expanded Column1" = Table.ExpandRecordColumn(#"Converted to Table", "Column1", {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}, {"Volcano Name", "Country", "Region", "Location", "Elevation", "Type", "Status", "Last Known Eruption", "id"}),
    #"Expanded Location" = Table.ExpandRecordColumn(#"Expanded Column1", "Location", {"coordinates"}, {"coordinates"}),
    #"Added Custom" = Table.AddColumn(#"Expanded Location", "LatLong", each Text.From([coordinates]{1})&","&Text.From([coordinates]{0})),
    #"Changed Type" = Table.TransformColumnTypes(#"Added Custom",{{"Elevation", type number}})
in
    #"Changed Type"

Vous disposez maintenant des données dans votre modèle de données Power BI. Votre instance de Power BI Desktop doit apparaître comme suit :

Vous pouvez commencer à créer des rapports et des visualisations à l’aide du modèle de données. Le présent article de Power BI décrit comment générer un rapport.

Mettre à l’échelle la DSVM de manière dynamique

Vous pouvez augmenter ou diminuer la taille de la machine virtuelle DSVM pour couvrir les besoins de votre projet. Si vous n’avez pas besoin d’utiliser la machine virtuelle le soir ou le week-end, vous pouvez simplement l’arrêter à partir du portail Azure.

Remarque

Vous devez payer des frais de calcul si vous n’utilisez que le bouton d’arrêt du système d’exploitation de la machine virtuelle. Vous devez plutôt libérer votre machine virtuelle DSVM à l’aide du Portail Azure ou de Cloud Shell.

Pour un projet d’analyse à grande échelle, vous aurez peut-être besoin d’une capacité de processeur, de mémoire ou de disque supplémentaire. Si tel est le cas, vous pouvez trouver des machines virtuelles avec différents nombres de cœurs de processeur, de capacité de mémoire, de types de disques (y compris les disques durs) et des instances basées sur le GPU de l’apprentissage profond. Ces machines virtuelles répondent à vos besoins en matière de calcul et de budget. La page de tarification des machines virtuelles Azure affiche la liste complète des machines virtuelles, ainsi que leur tarif horaire.

Ajouter d’autres outils

La machine virtuelle DSVM offre des outils prédéfinis qui peuvent répondre à de nombreux besoins courants en matière d’analytique des données. Elles permettent de gagner en temps, car il n’est pas nécessaire d'installer et de configurer individuellement les environnements. Elles vous permettent également de faire des économies, car vous ne payez que les ressources que vous utilisez.

Vous pouvez utiliser d’autres services de données et d’analytique Azure présentés dans cet article pour améliorer votre environnement d’analytique. Dans certains cas, vous devrez peut-être utiliser d’autres outils, notamment des outils partenaires propriétaires spécifiques. Vous disposez d’un accès administratif complet à la machine virtuelle pour installer les outils dont vous avez besoin. Vous pouvez également installer d’autres packages dans Python et R qui ne sont pas préinstallés. Pour Python, vous pouvez utiliser conda ou pip. Pour R, vous pouvez utiliser install.packages() dans la console R, ou utiliser l’IDE et sélectionner Packages>Installer les packages.

Apprentissage approfondi

En plus des échantillons basés sur l’infrastructure, vous pouvez obtenir un ensemble d’exemples complets qui ont été validés sur la machine virtuelle DSVM. Ces guides vous aideront à démarrer le développement d’applications d’apprentissage profond dans les domaines de l’analyse d'images, de textes et de langues.

Exécution de réseaux neuronaux sur différents frameworks : cette procédure pas à pas montre comment migrer du code d’un framework vers un autre. Le guide décrit également comment comparer les modèles et les performances d’exécution d'une infrastructure à une autre.
Un guide pratique permettant d’élaborer une solution complète pour détecter des produits dans des images : la technique de détection d’images permet de localiser et de classer des objets dans des images. Les retombées concrètes de cette technologie semblent très prometteuses dans de nombreux domaines professionnels. Par exemple, les revendeurs peuvent utiliser cette technique pour identifier un produit qu’un client a choisi dans un rayon. Ces informations aident les magasins de vente au détail à gérer les inventaires de produits.
Deep learning pour l’audio : ce tutoriel montre comment entraîner un modèle de deep learning pour la détection d’événements audio sur le jeu de données de sons urbains. Il fournit également une vue d’ensemble de l’utilisation des données audio.
Classification de documents texte : cette procédure pas à pas montre comment créer et entraîner deux architectures de réseau neuronal : réseau d’attention hiérarchisée et réseau à mémoire à long ou court terme. Ces réseaux neuronaux utilisent l’API Keras de l’apprentissage profond pour classer les documents texte.

Résumé

Cet article décrit certaines des actions possibles sur la Microsoft Data Science Virtual Machine. Il existe bien d’autres actions que vous pouvez effectuer pour faire de la DSVM un environnement d’analytique efficace.

Partage via

Science des données avec une Data Science Virtual Machine Windows

Prérequis

Utiliser des notebooks Jupyter

Explorer les données et développer des modèles avec Microsoft Machine Learning Server

Gérer des ressources Azure

Étendre le stockage à l’aide de systèmes de fichiers partagés

Accéder aux services de données et d’analytique Azure

stockage d’objets blob Azure

Prérequis

Déplacer des données d’une machine virtuelle vers un objet blob Azure : AzCopy

Déplacer des données d’une machine virtuelle vers un objet blob Azure : Explorateur de stockage Azure

Lire des données à partir d’un objet blob : Python ODBC

Azure Synapse Analytics et les bases de données

Azure Cosmos DB

Utiliser des rapports et des tableaux de bord Power BI

Mettre à l’échelle la DSVM de manière dynamique

Ajouter d’autres outils

Apprentissage approfondi

Résumé

Commentaires

Commentaires

Ressources supplémentaires

Partage via

Science des données avec une Data Science Virtual Machine Windows

Prérequis

Utiliser des notebooks Jupyter

Explorer les données et développer des modèles avec Microsoft Machine Learning Server

Gérer des ressources Azure

Étendre le stockage à l’aide de systèmes de fichiers partagés

Partager du code dans GitHub

Accéder aux services de données et d’analytique Azure

stockage d’objets blob Azure

Prérequis

Déplacer des données d’une machine virtuelle vers un objet blob Azure : AzCopy

Déplacer des données d’une machine virtuelle vers un objet blob Azure : Explorateur de stockage Azure

Lire des données à partir d’un objet blob : Python ODBC

Azure Synapse Analytics et les bases de données

Azure Cosmos DB

Utiliser des rapports et des tableaux de bord Power BI

Mettre à l’échelle la DSVM de manière dynamique

Ajouter d’autres outils

Apprentissage approfondi

Résumé

Commentaires

Commentaires

Ressources supplémentaires