Share via


Data Science Virtual Machine でサポートされているデータ プラットフォーム

Data Science Virtual Machine (DSVM) を使用すると、さまざまなデータ プラットフォームに対して分析リソースを構築できます。 リモート データ プラットフォームへのインターフェイスに加えて、DSVM は、迅速な開発およびプロトタイプ作成のためのローカル インスタンスを提供します。

DSVM は、次のデータ プラットフォーム ツールをサポートします。

SQL Server Developer エディション

カテゴリ
紹介 ローカルのリレーショナル データベース インスタンス
サポートされている DSVM エディション Windows 2019、Linux (SQL Server 2019)
標準的な使用
  • 小規模なデータセットを使用した迅速なローカル開発
  • In-Database R の実行
サンプルへのリンク
  • New York City データセットの小さなサンプルが、次の SQL データベースに読み込まれます。
    nyctaxi
  • Microsoft Machine Learning Server およびデータベース内の分析を示す Jupyter サンプルは次の場所にあります。
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
DSVM 上の関連ツール
  • SQL Server Management Studio
  • ODBC および JDBC ドライバー
  • pyodbc、RODBC

Note

SQL Server Developer エディションは、開発およびテスト目的でのみ使用できます。 実稼働環境で実行するには、ライセンスまたはいずれかの SQL Server VM が必要です。

Note

Machine Learning Server スタンドアロンのサポートは 2021 年 7 月 1 日に終了しました。 これは 6 月 30 日以降、DSVM イメージから削除されます。 既存のデプロイは引き続きソフトウェアにアクセスできますが、サポート終了日に達したため、2021 年 7 月 1 日以降、サポートはなくなりました。

Note

SQL Server Developer エディションは、2021 年 11 月末をもって DSVM イメージから削除されます。 既存のデプロイには、今後も SQL Server Developer エディションがインストールされます。 新しいデプロイで SQL Server Developer エディションにアクセスできるようにする場合は、Docker サポート経由で SQL Server Developer エディションをインストールして使用できます。 詳細については、「クイック スタート: Docker を使用して SQL Server Linux コンテナー イメージを実行する」を参照してください。

Windows

セットアップ

データベース サーバーは既に事前構成されていて、SQL Server に関連する Windows サービス (SQL Server (MSSQLSERVER) など) は自動的に実行されるように設定されています。 手動で行う唯一の手順は、Microsoft Machine Learning Server を使用してデータベース内分析を有効にすることです。 次のコマンドを実行して、SQL Server Management Studio (SSMS) で 1 回限りの操作として分析を有効にします。 このコマンドは、マシン管理者としてログインし、SSMS で新しいクエリを開き、master データベースを選択した後で実行してください。

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(%COMPUTERNAME% を自分の VM 名に置き換えます。)

SQL Server Management Studio を実行するには、プログラムの一覧から "SQL Server Management Studio" を探すか、または Windows Search を使用してこれを探して実行します。 資格情報の入力を求められたら、[Windows 認証] を選択し、[SQL Server 名] フィールドにマシン名または localhost を使用します。

使用と実行方法

既定では、既定のデータベース インスタンスがあるデータベース サーバーは自動的に実行されます。 VM 上の SQL Server Management Studio などのツールを使用して、SQL Server データベースにローカルでアクセスできます。 ローカル管理者アカウントには、データベースへの管理者アクセス権があります。

さらに、DSVM には、次の相手と通信するための ODBC ドライバーと JDBC ドライバーが付属しています。

  • SQL Server
  • Azure SQL データベース
  • Python などの複数の言語で記述されたアプリケーションや Machine Learning Server から受け取る Azure Synapse Analytics リソース。

DSVM での構成とインストール方法

SQL Server は、標準の方法でインストールされます。 これは、C:\Program Files\Microsoft SQL Server にあります。 データベース内 Machine Learning Server インスタンスは、C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES にあります。 DSVM には、C:\Program Files\Microsoft\R Server\R_SERVER にインストールされる別個のスタンドアロン Machine Learning Server インスタンスもあります。 これらの 2 つの Machine Learning Server インスタンスは、ライブラリを共有しません。

Ubuntu

SQL Server Developer エディションを使用するには、まず Ubuntu DSVM にインストールする必要があります。 詳細については、、「クイック スタート: Ubuntu に SQL Server をインストールし、データベースを作成する」を参照してください。

Apache Spark 2.x (スタンドアロン)

カテゴリ
紹介 広く普及した Apache Spark プラットフォームのスタンドアロン (シングル ノード インプロセス) インスタンス、高速で大規模なデータ処理および機械学習のためのシステム
サポートされている DSVM エディション Linux
標準的な使用
  • 小規模なデータセットを使用してローカルで Spark/PySpark アプリケーションを迅速に開発し、後で Azure HDInsight などの大規模 Spark クラスターにデプロイする
  • Microsoft Machine Learning Server Spark コンテキストをテストする
  • SparkML または Microsoft のオープン ソース MMLSpark ライブラリを使用して ML アプリケーションを構築する
サンプルへのリンク Jupyter サンプル:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark コンテキスト): /dsvm/samples/MRS/MRSSparkContextSample.R

DSVM 上の関連ツール
  • PySpark、Scala
  • Jupyter (Spark/PySpark カーネル)
  • Microsoft Machine Learning Server、SparkR、Sparklyr
  • Apache Drill

使用方法

spark-submit または pyspark コマンドを実行して、コマンド ラインで Spark ジョブを送信できます。 Spark カーネルで新しいノートブックを作成して、Jupyter ノートブックを作成することもできます。

R から Spark を使用するには、DSVM で使用可能な SparkR、Sparklyr、Microsoft Machine Learning Server などのライブラリを使用します。 前出の表のサンプルへのリンクを参照してください。

セットアップ

Ubuntu Linux DSVM エディション上の Microsoft Machine Learning Server で Spark コンテキストで実行する前に、1 回限りのセットアップ手順を実行して、単一ノードのローカル Hadoop の HDFS および Yarn インスタンスを有効にする必要があります。 Hadoop サービスはインストールされていますが、既定では DSVM で無効になっています。 これらを有効にするために、まず次のコマンドを root 権限で実行します。

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Hadoop 関連サービスが不要になったときに停止するには、systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn を実行します。

MRS をリモート Spark コンテキスト (DSVM 上のスタンドアロン Spark インスタンス) で開発およびテストする方法を示すサンプルが提供されていて、/dsvm/samples/MRS ディレクトリで入手できます。

DSVM での構成とインストール方法

プラットフォーム インストール場所 ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Azure Blob Storage または Azure Data Lake Storage から、Microsoft MMLSpark 機械学習ライブラリを使用してデータにアクセスするためのライブラリは、$SPARK_HOME/jars にプレインストールされています。 これらの JAR は Spark の起動時に自動的に読み込まれます。 既定では、Spark はローカル ディスク上に配置されたデータを使用します。

DSVM 上の Spark インスタンスは、Blob Storage または Azure Data Lake Storage に格納されているデータにアクセスできます。 まず $SPARK_HOME/conf/core-site.xml.template にあるテンプレートに基づいて、core-site.xml ファイルを作成して構成する必要があります。 Blob ストレージと Azure Data Lake Storage にアクセスするための適切な資格情報も必要です。 テンプレート ファイルは、Blob ストレージおよび Azure Data Lake Storage の構成にプレースホルダーを使用します。

Azure Data Lake Storage サービス資格情報の作成方法の詳細については、Azure Data Lake Storage Gen1 を使用した認証に関する記事を参照してください。 Blob ストレージまたは Azure Data Lake Storage の資格情報を core-site.xml ファイルに入力すると、URI プレフィックス wasb:// または adl:// を使用して、それらのソースに格納されたデータを参照できます。