クイック スタート:Linux (Ubuntu) Data Science Virtual Machine を設定する

Ubuntu 20.04 Data Science Virtual Machine (DSVM) と Azure DSVM for PyTorch を起動して実行します。

前提条件

Ubuntu 20.04 Data Science Virtual Machine または Azure DSVM for PyTorch を作成するには、Azure サブスクリプションが必要です。 Azure を無料で試す

注意

Azure 無料アカウントでは、GPU 対応の仮想マシン SKU がサポートされません。

Linux データ サイエンス仮想マシンの作成

次の手順では、Ubuntu 20.04 Data Science Virtual Machine (DSVM) または Azure DSVM for PyTorch のいずれかのインスタンスを作成する方法について説明します。

  1. Azure ポータルにアクセスします。 まだサインインしていない場合は、Azure アカウントにサインインするように求めるメッセージが表示されることがあります

  2. 仮想マシンのリストを見つけます。 最初に「data science virtual machine」と入力し、次に [Data Science Virtual Machine- Ubuntu 20.04] または [Azure DSVM for PyTorch] を選択します

  3. 次のウィンドウで [作成] を選択します

  4. [仮想マシンの作成] ブレードにリダイレクトされます

  5. ウィザードの各手順を構成するために、次の情報を入力します。

    1. [基本] :

      • サブスクリプション:複数のサブスクリプションがある場合は、マシンが作成されて課金されるサブスクリプションを選択します。 そのサブスクリプションに対するリソース作成権限が必要です。

      • リソース グループ: 新しいグループを作成するか、既存のものを使用します。

      • [仮想マシン名] : 仮想マシンの名前を入力します。 この名前は Azure portal で使用されます。

      • [リージョン] :最適なデータ センターを選択します。 ネットワーク アクセスを最速にするために、データの大半が存在するデータセンターか、物理的に最も近くにあるデータセンターを選びます。 詳細については、「Azure の地域」を参照してください

      • イメージ: 既定値を変更しないでください。

      • Size:このオプションには、一般的なワークロードに適したサイズが自動的に設定されます。 詳細については、Azure の Linux VM サイズに関するページを参照してください。

      • [認証の種類] : 設定を迅速に行うには、[パスワード] を選択します。

        Note

        JupyterHub を使用する予定の場合は、JupyterHub は SSH 公開キーを使用するように構成されていないため、必ず [パスワード] を選択します。

      • [ユーザー名] : 管理者のユーザー名を入力します。 このユーザー名を使用して、仮想マシンにログインします。 このユーザー名は、Azure ユーザー名と一致する必要はありません。 大文字は使用 "しない" でください。

        重要

        ユーザー名に大文字を使用すると、JupyterHub が機能しなくなり、500 内部サーバー エラーが発生します。

      • パスワード:仮想マシンへのログインに使用するパスワードを入力します。

    2. [Review + create](レビュー + 作成) を選択します。

    3. [レビュー + 作成]

      • 入力したすべての情報が正しいことを確認します。
      • [作成] を選択します

    プロビジョニング プロセスは 5 分ほどかかります。 Azure portal に状態が表示されます。

Ubuntu Data Science Virtual Machine にアクセスする方法

Ubuntu DSVM には、次の 4 つの方法のいずれかでアクセスできます。

  • ターミナル セッションの場合の SSH
  • グラフィカル セッション用の xrdp
  • グラフィカル セッションの場合の X2Go
  • Jupyter Notebook の場合の JupyterHub と JupyterLab

SSH

SSH 認証を使用して VM を構成した場合、テキスト シェル インターフェイスの手順 3 の [基本] セクションで作成したアカウント資格情報を使用してサインインできます。 詳細については、Linux VM への接続の詳細を参照してください。

xrdp

xrdp は、Linux グラフィカル セッションにアクセスするための標準ツールです。 既定ではディストリビューションにこのツールは含まれていませんが、インストール方法についてはこちらの手順を参照してください。

X2Go

Note

テストでは、パフォーマンスは X11 転送よりも X2Go クライアントの方が優れていました。 グラフィカル デスクトップ インターフェイスでは、X2Go クライアントを使用することをお勧めします。

Linux VM は既に X2Go Server でプロビジョニングされ、クライアント接続を受け入れる準備ができています。 Linux VM のグラフィカル デスクトップに接続するには、クライアントで次の手順を実行します。

  1. X2Goのページから、お使いのクライアント プラットフォーム向けの X2Go クライアントをダウンロードしてインストールします。

  2. 仮想マシンのパブリック IP アドレスをメモします。 Azure portal で、作成した仮想マシンを開いてこの情報を見つけます。

    仮想マシンのパブリック IP アドレスを示すスクリーンショット。

  3. X2Go クライアントを実行します。 [新しいセッション] ウィンドウが自動的にポップアップ表示されない場合は、[セッション] > [新しいセッション] に移動します。

  4. 結果の構成ウィンドウで、次の構成パラメーターを入力します。

    • [Session] \(セッション) タブ:
      • ホスト: 先ほどメモした VM の IP アドレスを入力します。
      • [Login](ログイン) : Linux VM 上のユーザー名を入力します。
      • SSH ポート: 22 のままにします。 これが既定値です。
      • [Session Type](セッションの種類) : 値を XFCE に変更します。 現在、Linux VM でサポートされるのは XFCE デスクトップのみです。
    • [Media](メディア) タブ: 音声のサポートとクライアントの印刷を使用しない場合は、それらをオフにできます。
    • [Shared folders](共有フォルダー) : このタブを使用して、VM にマウントするクライアント マシン ディレクトリを追加します。

    新しい X2Go セッションの基本設定を示すスクリーンショット。

  5. [OK] を選択します。

  6. VM のサインイン画面を表示するには、X2Go ウィンドウの右側のペインにあるボックスを選択します。

  7. VM のパスワードを入力します。

  8. [OK] を選択します。

  9. 接続プロセスを完了するには、ファイアウォールをバイパスするためのアクセス許可を X2Go に付与することが必要な場合があります。

  10. これで、Ubuntu DSVM のグラフィカル インターフェイスが表示されます。

JupyterHub と JupyterLab

Ubuntu DSVM は、マルチユーザーの Jupyter サーバーである JupyterHub を実行します。 接続するには、次の手順を実行します。

  1. VM のパブリック IP アドレスをメモします。 この値を見つけるには、次のスクリーンショットに示すように、Azure portal で VM を検索して選択します。

    VM のパブリック IP アドレスが強調表示されているスクリーンショット。

  2. ローカル コンピューターから Web ブラウザーを開き、https:your-vm-ip:8000 に移動します。"your-vm-ip" は、先ほどメモした IP アドレスに置き換えます。

  3. ブラウザーでページを直接開くことができなくなる場合があります。 証明書エラーが発生している可能性があります。 DSVM は、自己署名証明書を使用してセキュリティを提供します。 ほとんどのブラウザーでは、この警告の後に選択して進むことができます。 多くのブラウザーでは、Web セッション全体の証明書に関する何らかの視覚的な警告が引き続き提供されます。

    Note

    ブラウザーに ERR_EMPTY_RESPONSE というエラー メッセージが表示された場合は、HTTPS プロトコルを明示的に使用してマシンにアクセスしていることを確認してください。 HTTP または Web アドレスだけでは、この手順では機能しません。 アドレス行に https:// なしで Web アドレスを入力すると、ほとんどのブラウザーでは既定で http に設定されるので、このエラーが表示されます。

  4. 次のスクリーンショットに示すように、VM を作成するときに使ったユーザー名とパスワードを入力してサインインします。

    JupyterHub のサインイン画面のスクリーンショット。

    Note

    この段階で 500 エラーが発生した場合、ユーザー名に大文字を使用した可能性があります。 これは、JupyterHub と、それが使用する PAMAuthenticator の間の既知の相互作用です。 "このページに到達できない" というエラーが返される場合は、おそらくネットワーク セキュリティ グループのアクセス許可を調整する必要があります。 Azure portal で、リソース グループ内のネットワーク セキュリティ グループ リソースを見つけます。 パブリック インターネットから JupyterHub にアクセスするには、ポート 8000 を開放する必要があります。 (Just-In-Time アクセスの構成を強くおすすめします。この図を見ると、VM が Just-In-Time アクセスを使用するように構成されていることがわかります。詳細については、「Just-In-Time アクセスを使用して管理ポートをセキュリティで保護する」を参照してください。

    ネットワーク セキュリティ グループの構成値のスクリーンショット。

  5. 使用可能なサンプル ノートブックを参照します。

次世代の Jupyter Notebook と JupyterHub である JupyterLab も利用できます。 これにアクセスするには、JupyterHub にサインインし、URL https://your-vm-ip:8000/user/your-username/lab を参照します。"your-username" は VM の構成時に選択したユーザー名に置き換えます。 ここでも、潜在的な証明書エラーによって、サイトへのアクセスが最初はブロックされる可能性があります。

JupyterLab を既定のノートブック サーバーとして設定するには、次の行を /etc/jupyterhub/jupyterhub_config.py に追加します。

c.Spawner.default_url = '/lab'

次のステップ

  • Data Science Virtual Machine for Linux でのデータ サイエンスに関するチュートリアルでは、ここでプロビジョニングされた Linux DSVM を使用して、一般的なデータ サイエンス タスクをいくつか実行する方法を示します。
  • この記事で説明しているツールを試して、DSVM 上のさまざまなデータ サイエンス ツールを確認します。 VM にインストールされているツールの基本的な概要と詳細情報を入手できる場所は、仮想マシン内のシェルで dsvm-more-info を実行して確認することもできます。
  • Team Data Science Process を使用して、分析ソリューションを体系的に構築する方法を確認します。
  • Azure AI サービスを使用する機械学習とデータ分析のサンプルについては、Azure AI Gallery を参照してください。
  • この仮想マシンに適したリファレンス ドキュメントを参照してください。