Share via


Référence : Ubuntu (Linux) Data Science Virtual Machine

Ce document présente la liste des outils disponibles sur votre machine virtuelle Ubuntu Science des données (DSVM).

Bibliothèques d’apprentissage profond

PyTorch

PyTorch est une infrastructure de calcul scientifique populaire, avec une prise en charge étendue des algorithmes de Machine Learning. Si votre ordinateur dispose d’un GPU intégré, il peut utiliser ce GPU pour accélérer le deep learning. PyTorch est disponible dans l’environnement py38_pytorch .

H2O

H2O est une plateforme d’analyse prédictive et d’apprentissage automatique rapide, en mémoire et distribuée. Un package Python est installé dans les environnements Anaconda racine et py35. Un package R est également installé.

Pour ouvrir H2O à partir de la ligne de commande, exécutez java -jar /dsvm/tools/h2o/current/h2o.jar. Vous pouvez configurer différentes options de ligne de commande disponibles. Accédez à l’interface utilisateur web Flow pour http://localhost:54321 commencer. JupyterHub propose des exemples de notebooks.

TensorFlow

TensorFlow est la bibliothèque d’apprentissage profond Google. C’est une bibliothèque de logiciels open source destinée aux calculs numériques à l’aide de graphes de flux de données. Si votre machine dispose d’un GPU intégré, il peut utiliser ce GPU pour accélérer le Deep Learning. TensorFlow est disponible dans l’environnement conda py38_tensorflow.

Python

La machine virtuelle Science des données (DSVM) a plusieurs environnements Python préinstallés, avec Python version 3.8 ou Python version 3.6. Exécutez conda env list dans une fenêtre de terminal pour afficher la liste complète des environnements installés.

Jupyter

La machine virtuelle DSVM est également fournie avec Jupyter, un environnement de partage de code et d’analyse du code. Jupyter est installé sur la machine virtuelle DSVM dans ces versions :

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Pour lancer Jupyter Lab, ouvrez Jupyter dans le menu de l’application ou sélectionnez l’icône de bureau. Vous pouvez également exécuter à jupyter lab partir d’une ligne de commande pour ouvrir Jupyter Lab.

Pour ouvrir Jupyter Notebook, ouvrez une ligne de commande et exécutez jupyter notebook.

Pour ouvrir Jupyter Hub, ouvrez https://< VM DNS name or IP address> :8000/ in a browser. Vous devez fournir votre nom d’utilisateur et mot de passe Linux local.

Remarque

Vous pouvez ignorer les avertissements de certificat.

Remarque

Pour les images Ubuntu, le port de pare-feu 8000 est ouvert par défaut lorsque la machine virtuelle est approvisionnée.

Instance autonome d’Apache Spark

Une instance autonome d’Apache Spark est préinstallée sur la machine virtuelle DSVM Linux pour vous aider à développer des applications Spark localement avant de tester et de déployer ces applications sur de grands clusters.

Vous pouvez exécuter des programmes PySpark via le noyau Jupyter. Lorsque Jupyter démarre, sélectionnez le bouton Nouveau . Une liste de noyaux disponibles doit devenir visible. Vous pouvez créer des applications Spark avec le langage Python si vous choisissez le noyau Spark - Python . Vous pouvez également utiliser un IDE Python , par exemple, VS. Code ou PyCharm : pour générer votre programme Spark.

Dans cette instance autonome, la pile Spark s’exécute à l’intérieur du programme client appelant. Cette fonctionnalité permet de résoudre plus rapidement et plus facilement les problèmes, par rapport au développement sur un cluster Spark.

IDE et éditeurs

Vous avez le choix entre plusieurs éditeurs de code, y compris VS. Code, PyCharm, IntelliJ, vi/Vim ou Emacs.

VS.Code, PyCharm et IntelliJ sont des éditeurs graphiques. Pour les utiliser, vous devez être connecté à un environnement de bureau graphique. Utilisez les raccourcis du menu de l’application et du bureau pour les ouvrir.

Vim et Emacs sont des éditeurs de texte. Sur Emacs, le package de module complémentaire ESS facilite l’utilisation de R dans l’éditeur Emacs. Pour plus d’informations, visitez le site web ess.

Bases de données

Client SQL graphique

SQuirrel SQL, un client SQL graphique, peut se connecter à différentes bases de données ( par exemple, Microsoft SQL Server ou MySQL) et exécuter des requêtes SQL. La façon la plus rapide d’ouvrir SQuirrel SQL consiste à utiliser le menu de l’application à partir d’une session de bureau graphique (par exemple, via le client X2Go)

Avant l’utilisation initiale, configurez vos pilotes et alias de base de données. Vous trouverez les pilotes JDBC sur /usr/share/java/jdbcdrivers.

Pour plus d’informations, consultez la ressource SQuirrel SQL .

Outils en ligne de commande pour l’accès à Microsoft SQL Server

Le package de pilotes ODBC pour SQL Server comprend également deux outils en ligne de commande :

  • bcp : l’outil bcp copie en bloc les données entre une instance de Microsoft SQL Server et un fichier de données, dans un format spécifié par l’utilisateur. Vous pouvez utiliser l’utilitaire bcp pour importer un grand nombre de nouvelles lignes dans des tables SQL Server, ou pour exporter des données hors des tables sous forme de fichiers de données. Pour importer des données dans une table, vous devez utiliser un fichier de format créé pour cette table. Vous devez comprendre la structure de la table et les types de données valides pour ses colonnes.

Pour plus d’informations, consultez Connecter ing avec bcp.

  • sqlcmd : Vous pouvez entrer des instructions Transact-SQL avec l’outil sqlcmd. Vous pouvez également entrer des procédures système et des fichiers de script à l’invite de commandes. Cet outil utilise ODBC pour exécuter des lots Transact-SQL.

    Pour plus d’informations, consultez Connecter ing avec sqlcmd.

    Remarque

    Il existe des différences dans cet outil entre ses versions de plateforme Linux et Windows. Pour plus d’informations, passez en revue la documentation.

Bibliothèques pour l’accès aux bases de données

Les bibliothèques R et Python sont disponibles pour l’accès aux bases de données :

  • Dans R, vous pouvez utiliser les packages dplyr RODBC pour interroger ou exécuter des instructions SQL sur le serveur de base de données
  • Dans Python, la bibliothèque pyodbc fournit un accès à la base de données avec ODBC comme couche sous-jacente

Outils Azure

Ces outils Azure sont installés sur la machine virtuelle :

  • Azure CLI : vous pouvez utiliser l’interface de ligne de commande Azure pour créer et gérer des ressources Azure par le biais de commandes dans un interpréteur. Pour ouvrir les outils Azure, entrez azure help. Pour plus d’informations, consultez la page de documentation Azure CLI.

  • Explorateur Stockage Azure : Explorateur Stockage Azure est un outil graphique que vous pouvez utiliser pour parcourir les objets que vous avez stockés dans votre compte de stockage Azure, et pour charger et télécharger des données vers et depuis des objets blob Azure. Vous pouvez accéder à l’Explorateur de stockage à partir de l’icône de raccourci sur le bureau. Vous pouvez également l’ouvrir à partir d’une invite d’interpréteur de commandes si vous entrez Stockage Explorer. Vous devez être connecté à partir d’un client X2Go ou avoir configuré le transfert X11.

  • Bibliothèques Azure : voici quelques-unes des bibliothèques préinstallées :

    • Python : Python propose les bibliothèques azure, azureml, pydocumentdb et pyodbc associées à Azure. Avec les trois premières bibliothèques, vous pouvez accéder aux services de stockage Azure, à Azure Machine Learning et à Azure Cosmos DB (base de données NoSQL sur Azure). La quatrième bibliothèque, pyodbc (ainsi que le pilote Microsoft ODBC pour SQL Server), permet l’accès à SQL Server, Azure SQL Database et Azure Synapse Analytics à partir de Python via une interface ODBC. Entrez la liste pip pour afficher toutes les bibliothèques répertoriées. Veillez à exécuter cette commande dans les environnements Python 2.7 et 3.5.
    • R : Azure Machine Apprentissage et RODBC sont les bibliothèques associées à Azure dans R.
    • Java : Le répertoire /dsvm/sdk/AzureSDKJava contient la liste des bibliothèques Java Azure dans le répertoire /dsvm/sdk/AzureSDKJava sur la machine virtuelle. Les bibliothèques principales sont les API de gestion et de stockage Azure, Azure Cosmos DB et les pilotes JDBC pour SQL Server.

Azure Machine Learning

Le service cloud Azure Machine entièrement managé Apprentissage vous permet de créer, déployer et partager des solutions d’analyse prédictive. Vous pouvez créer vos expériences et modèles dans Azure Machine Apprentissage Studio. Visitez microsoft Azure Machine Apprentissage pour y accéder à partir d’un navigateur web sur la machine virtuelle Science des données.

Une fois connecté à Azure Machine Learning Studio, vous pouvez utiliser un canevas d’expérimentation permettant de générer un flux logique pour les algorithmes de Machine Learning. Vous avez également accès à un notebook Jupyter hébergé sur Azure Machine Apprentissage. Ce notebook peut fonctionner en toute transparence avec les expériences dans Azure Machine Apprentissage Studio.

Pour opérationnaliser les modèles Machine Learning que vous avez créés, encapsulez-les dans une interface de service web. L’opérationnalisation du modèle Machine Learning permet aux clients écrits dans n’importe quel langage d’appeler des prédictions à partir de ces modèles. Pour plus d’informations, consultez la documentation machine Apprentissage.

Vous pouvez également générer vos modèles en R ou Python sur la machine virtuelle, puis les déployer en production sur Azure Machine Learning. Nous avons installé des bibliothèques dans R (AzureML) et Python (azureml) pour activer cette fonctionnalité.

Remarque

Nous avons écrit ces instructions pour la version Science des données Virtual Machine Windows. Toutefois, les instructions couvrent les déploiements de modèles Azure Machine Apprentissage sur la machine virtuelle Linux.

Outils de Machine Learning

La machine virtuelle est fournie avec des outils et algorithmes machine learning précompilés, tous préinstallés localement. Il s’agit notamment des paramètres suivants :

  • Vowpal Wabbit : algorithme d’apprentissage en ligne rapide

  • xgboost : cet outil fournit des algorithmes d’arborescence optimisés et optimisés

  • Rattle : outil graphique basé sur R pour faciliter l’exploration et la modélisation des données

  • Python : Anaconda Python est fourni avec des algorithmes de machine learning et des bibliothèques comme Scikit-learn. Vous pouvez installer d’autres bibliothèques avec la pip install commande

  • LightGBM : infrastructure d’amélioration de dégradé rapide, distribuée et distribuée basée sur des algorithmes d’arbre de décision

  • R : une bibliothèque riche de fonctions machine learning est disponible pour R. Les bibliothèques préinstallées incluent lm, glm, randomForest et rpart. Vous pouvez installer d’autres bibliothèques avec cette commande :

    install.packages(<lib name>)
    

Voici plus d’informations sur les trois premiers outils machine learning de la liste.

Vowpal Wabbit

Vowpal Wabbit est un système d’apprentissage automatique utilise

  • active
  • allreduce
  • hachage
  • apprentissage interactif
  • learning2search
  • en ligne
  • Réductions

techniques.

Utilisez ces commandes pour exécuter l’outil sur un exemple de base :

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Ce répertoire offre d’autres démonstrations plus volumineuses. Visitez cette section de GitHub et le wiki Vowpal Wabbit pour plus d’informations sur Vowpal Wabbit.

xgboost

La bibliothèque xgboost a été conçue et optimisée pour les algorithmes (d’arborescence) optimisés. La bibliothèque xgboost pousse les limites de calcul des machines aux extrêmes nécessaires pour améliorer l’arborescence à grande échelle précise, portable et évolutive.

La bibliothèque xgboost est fournie en tant que ressource de ligne de commande et bibliothèque R. Pour utiliser cette bibliothèque en R, vous pouvez entrer R dans l’interpréteur de commandes pour démarrer une session R interactive et charger la bibliothèque.

Cet exemple simple montre comment exécuter xgboost dans une invite R :

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Pour exécuter la ligne de commande xgboost, exécutez ces commandes dans l’interpréteur de commandes :

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Pour plus d’informations sur xgboost, visitez la page de documentation xgboost et son dépôt GitHub.

Rattle

Rattle (RAnalytical Tool To Learn Easily, « outil analytique pour apprendre facilement ») utilise la modélisation et l’exploration des données via une interface graphique utilisateur. Informatique

  • présente des résumés statistiques et visuels des données
  • transforme les données qui peuvent être facilement modélisées
  • génère des modèles non supervisés et supervisés à partir des données
  • présente les performances des modèles graphiquement
  • score de nouveaux jeux de données

Il génère également du code R, qui réplique les opérations Rattle dans l’interface utilisateur. Vous pouvez exécuter ce code directement dans R ou l’utiliser comme point de départ pour une analyse plus approfondie.

Pour exécuter Rattle, vous devez utiliser une session de connexion de bureau graphique. Dans le terminal, entrez R pour ouvrir l’environnement R. À l’invite R, entrez cette commande :

library(rattle)
rattle()

Une interface graphique, avec un ensemble d’onglets, s’ouvre ensuite. Ces étapes de démarrage rapide dans Rattle utilisent un exemple de jeu de données météorologiques pour créer un modèle. Dans certaines des étapes, vous recevez des invites pour installer et charger automatiquement des packages R spécifiques qui ne sont pas déjà sur le système.

Remarque

Si vous n’avez pas d’autorisations d’accès pour installer le package dans le répertoire système (valeur par défaut), vous remarquerez peut-être une invite sur votre fenêtre de console R pour installer des packages dans votre bibliothèque personnelle. Répondez à y si vous rencontrez ces invites.

  1. Sélectionnez Exécuter
  2. Une boîte de dialogue s’affiche, vous demandant si vous souhaitez utiliser l’exemple de jeu de données météorologiques. Sélectionnez Oui pour charger l’exemple
  3. Sélectionnez l’onglet Model.
  4. Sélectionner Exécuter pour générer un arbre de décision
  5. Sélectionner Dessiner pour afficher l’arbre de décision
  6. Sélectionnez l’option Forêt, puis exécutez pour générer une forêt aléatoire
  7. Sélectionnez l’onglet Évaluer
  8. Sélectionnez l’option Risque, puis exécutez pour afficher deux tracés de performances à risque (cumulé)
  9. Sélectionnez l’onglet Journal pour afficher le code R généré pour les opérations précédentes
    • En raison d’un bogue dans la version actuelle de Rattle, vous devez insérer un # caractère devant Exporter ce journal dans le texte du journal.
  10. Sélectionnez le bouton Exporter pour enregistrer le fichier de script R, nommé weather_script. R, dans le dossier d’accueil

Vous pouvez quitter Rattle et R, et modifier le script R généré. Vous pouvez également utiliser le script tel quel et l’exécuter à tout moment pour répéter tout ce qui a été effectué dans l’interface utilisateur Rattle. Pour les débutants en R en particulier, cela se prête à une analyse rapide et au Machine Learning dans une interface graphique simple, tout en générant automatiquement du code en R pour la modification ou l’apprentissage.

Étapes suivantes

Pour plus de questions, envisagez de créer un ticket de support