Linux および Windows 用の Azure Data Science Virtual Machine とは

Data Science Virtual Machine (DSVM) とは、データ サイエンス専用に構築された Azure クラウド プラットフォーム上のカスタマイズされた VM イメージです。 多くのよく使われるデータ サイエンス ツールが事前にインストールおよび構成されており、高度な分析のためのインテリジェントなアプリケーションの構築をすぐに始めることができます。

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 プレビュー バージョンはサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

DSVM を利用できる OS:

  • Windows Server 2019
  • Ubuntu 20.04 LTS

さらに、大規模で分散されたディープ ラーニング ワークロード向けに最適化された Azure Marketplace の Ubuntu 20.04 イメージである Azure DSVM for PyTorch (プレビュー) をご提供できる運びとなりました。 これは、セットアップ コストを削減し、価値創出までの時間を短縮するために、最新の PyTorch バージョンでプレインストールされ、検証されています。 さまざまな最適化機能 (ONNX ランタイム、DeepSpeed、MSCCL、ORTMoE、Fairscale、Nvidia Apex) と、Ubuntu、Python、PyTorch、CUDA の最新の互換性のあるバージョンを備えた最新のスタックがパッケージ化されて提供されます。

Azure Machine Learning との比較

DSVM がデータ サイエンス向けにカスタマイズされた VM イメージであるのに対し、Azure Machine Learning (AzureML) は、次の機能を含んだエンド ツー エンドのプラットフォームです。

  • フル マネージドのコンピューティング
    • コンピューティング インスタンス
    • 分散 ML タスク用のコンピューティング クラスター
    • リアルタイム スコアリング用の推論クラスター
  • データストア (例: Blob、ADLS Gen2、SQL DB)
  • 実験の追跡
  • モデル管理
  • ノートブック
  • 環境 (Conda と R の依存関係の管理)
  • ラベル付け
  • パイプライン (エンド ツー エンドのデータ サイエンス ワークフローの自動化)

AzureML コンピューティング インスタンスとの比較

Azure Machine Learning コンピューティング インスタンスがフル構成のマネージド VM イメージであるのに対し、DSVM はアンマネージド VM です。

2 つの製品の主な違いは次のとおりです。

特徴量 データ サイエンス
VM
AzureML
コンピューティング インスタンス
フル マネージド いいえ はい
言語サポート Python、R、Julia、SQL、C#、
Java、Node.js、F#
Python と R
オペレーティング システム Ubuntu
Windows
Ubuntu
事前構成済みの GPU オプション はい はい
スケールアップ オプション はい はい
SSH アクセス はい はい
RDP アクセス はい いいえ
組み込み
ホスト ノートブック
いいえ
(別途構成が必要)
はい
組み込み SSO いいえ
(別途構成が必要)
はい
組み込みコラボレーション いいえ はい
プレインストールされているツール Jupyter(lab), VSCode,
Visual Studio、PyCharm、Juno、
Power BI Desktop、SSMS、
Microsoft Office 365、Apache Drill
Jupyter(lab)

サンプル ユース ケース

以下では、DSVM のお客様の一般的な使用例をいくつか紹介します。

短期的な実験と評価

DSVM を使用すると、特に公開されているサンプルとチュートリアルのいくつかを試すことで、新しいデータ サイエンス ツールを評価または学習できます。

GPU を使用したディープ ラーニング

DSVM では、トレーニング モデルはグラフィックス処理装置 (GPU) ベースのハードウェア上でディープ ラーニング アルゴリズムを使用できます。 Azure プラットフォームの VM スケーリング機能を利用することにより、DSVM はニーズに応じてクラウドで GPU ベースのハードウェアを使用するのに役立ちます。 大規模モデルをトレーニングするときや、同じ OS ディスクを保持しつつ高速計算が必要なときに、GPU ベースの VM に切り替えることができます。 DSVM を使用して、N シリーズ GPU 対応の任意の仮想マシン SKU を選択できます。 Azure 無料アカウントでは、GPU 対応の仮想マシン SKU がサポートされないので注意してください。

Windows エディションの DSVM には、GPU ドライバー、フレームワーク、および GPU バージョンのディープ ラーニング フレームワークが事前インストールされています。 Linux エディションでは、GPU のディープ ラーニングは、Ubuntu の DSVM で有効になります。

Ubuntu または Windows エディションの DSVM を、GPU ベースでない Azure 仮想マシンにデプロイすることもできます。 この場合、すべてのディープ ラーニング フレームワークは CPU モードにフォールバックはします。

使用可能なディープ ラーニングと AI のフレームワークの詳細について学習してください。

データ サイエンスのトレーニングと教育

データ サイエンスのクラスを教える企業のトレーナーや教育担当者は、通常、仮想マシン イメージを提供します。 そのイメージにより、受講者が一貫したセットアップを行い、サンプルが予想どおりに動作するようにすることができます。

DSVM は、一貫したセットアップでオンデマンドの環境を作成するため、サポートと非互換性の問題を軽減できます。 このような環境を頻繁に構築する必要がある場合 (特に短期間のトレーニング クラスの場合)、非常にメリットがあります。

DSVM に含まれているもの

Windows と Linux の両方の DSVM 上で使用できるツールの完全な一覧については、こちらを参照してください。

次のステップ

詳細については、次の記事を参照してください。