Data Science Virtual Machine에서 지원되는 데이터 플랫폼

DSVM(Data Science Virtual Machine)을 사용하면 광범위한 데이터 플랫폼에 대한 분석 리소스를 빌드할 수 있습니다. 원격 데이터 플랫폼에 대 한 인터페이스를 외에도 DSVM 신속 하 게 개발 및 프로토타입 생성에 대 한 로컬 인스턴스를 제공합니다.

DSVM은 다음과 같은 데이터 플랫폼 도구를 지원합니다.

SQL Server Developer Edition

범주
이것은 무엇인가요? 로컬 관계형 데이터베이스 인스턴스
지원되는 DSVM 버전 Windows 2019, Linux(SQL Server 2019)
일반적인 사용 용도
  • 더 작은 데이터 세트로 신속한 로컬 개발
  • In-database R 실행
샘플에 대한 링크
  • 뉴욕 시 데이터 세트의 작은 샘플이 다음 SQL 데이터베이스로 로드됩니다.
    nyctaxi
  • 다음에서 Microsoft Machine Learning Server 및 데이터베이스 내 분석을 보여 주는 Jupyter 샘플을 찾습니다.
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
DSVM의 관련 도구
  • SQL Server Management Studio
  • ODBC/JDBC 드라이버
  • pyodbc, RODBC

참고 항목

SQL Server Developer 버전은 개발 및 테스트 목적으로만 사용할 수 있습니다. 프로덕션에서 실행하려면 라이선스나 SQL Server VM 중 하나가 필요합니다.

참고 항목

Machine Learning Server 독립 실행형에 대한 지원은 2021년 7월 1일에 종료되었습니다. 6월 30일 이후에 DSVM 이미지에서 이를 제거합니다. 기존 배포에서는 소프트웨어에 계속 액세스할 수 있지만 지원 종료 날짜가 다가왔기 때문에 해당 지원은 2021년 7월 1일 이후에 종료되었습니다.

참고 항목

2021년 11월 말까지 DSVM 이미지에서 SQL Server Developer Edition을 제거할 예정입니다. 기존 배포는 SQL Server Developer Edition을 계속 설치할 수 있습니다. 새 배포에서 SQL Server Developer Edition에 액세스하려면 Docker 지원을 통해 SQL Server Developer Edition을 설치하고 사용할 수 있습니다. 자세한 내용은 빠른 시작: Docker로 SQL Server 컨테이너 이미지 실행을 참조하세요.

Windows

설정

데이터베이스 서버는 이미 사전 구성되어 있으며 SQL Server와 관련된 Windows 서비스(예: SQL Server (MSSQLSERVER))는 자동으로 실행되도록 설정되어 있습니다. 수동 단계는 Microsoft Machine Learning Server를 사용하여 데이터베이스 내 분석을 사용하도록 설정하는 것뿐입니다. SSMS(SQL Server Management Studio)에서 분석을 일회용 작업으로 사용하도록 설정하려면 다음 명령을 실행합니다. 컴퓨터 관리자로 로그인한 후 이 명령을 실행하고 SSMS에서 새 쿼리를 열고 master 데이터베이스를 선택합니다.

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(%COMPUTERNAME%을 VM 이름으로 바꿉니다.)

SQL Server Management Studio를 실행하려면 프로그램 목록에서 'SQL Server Management Studio'를 검색하거나 Windows 검색을 사용하여 그것을 찾아 실행할 수 있습니다. 자격 증명을 묻는 메시지가 나타나면 Windows 인증을 선택하고 SQL Server 이름 필드에 컴퓨터 이름 또는 localhost를 사용합니다.

사용 및 실행 방법

기본 데이터베이스 인스턴스가 설치된 데이터베이스 서버는 기본적으로 자동 실행됩니다. Microsoft SQL Server 데이터베이스에 로컬로 액세스하려면 VM에서 SQL Server Management Studio와 같은 도구를 사용할 수 있습니다. 로컬 관리자 계정에는 데이터베이스에 대한 관리자 액세스 권한이 있습니다.

또한 DSVM에는 통신할 수 있는 ODBC 및 JDBC 드라이버가 함께 제공됨

  • SQL Server
  • Azure SQL 데이터베이스
  • Python 및 Machine Learning Server를 포함하여 여러 언어로 작성된 애플리케이션의 Azure Synapse Analytics 리소스입니다.

DSVM에서 구성 및 설치 방법

SQL Server는 표준 방식으로 설치됩니다. 이 파일은 C:\Program Files\Microsoft SQL Server에서 찾을 수 있습니다. C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES에서 In-Database Machine Learning Server 인스턴스를 찾을 수 있습니다. DSVM에는 C:\Program Files\Microsoft\R Server\R_SERVER에 설치된 별도의 독립 실행형 Machine Learning Server 인스턴스도 있습니다. 이러한 두 Machine Learning Server 인스턴스는 라이브러리를 공유하지 않습니다.

Ubuntu

사용하기 전에 먼저 Ubuntu DSVM에 SQL Server Developer Edition을 설치해야 합니다. 자세한 내용은 빠른 시작: Ubuntu에 SQL Server 설치 및 데이터베이스 만들기를 참조하세요.

Apache Spark 2.x (독립 실행형)

범주
이것은 무엇인가요? 빠른 대규모 데이터 처리 및 기계 학습을 위한 시스템인, 많이 사용되는 Apache Spark 플랫폼의 독립 실행형(단일 노드 In Process) 인스턴스
지원되는 DSVM 버전 Linux
일반적인 사용 용도
  • 더 작은 데이터 세트를 사용하여 로컬에서 빠르게 Spark/PySpark 애플리케이션을 개발하고 나중에 Azure HDInsight와 같은 큰 Spark 클러스터에 배포
  • Microsoft Machine Learning Server Spark 컨텍스트를 테스트
  • SparkML 또는 Microsoft 오픈 소스 MMLSpark 라이브러리를 사용하여 ML 애플리케이션 빌드
샘플에 대한 링크 Jupyter 샘플:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server(Spark 컨텍스트): /dsvm/samples/MRS/MRSSparkContextSample.R

DSVM의 관련 도구
  • PySpark, Scala
  • Jupyter (Spark/PySpark 커널)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

사용 방법

spark-submit 또는 pyspark 명령을 실행하여 명령줄에서 Spark 작업을 제출할 수 있습니다. Spark 커널로 새 Notebook을 만들어 Jupyter Notebook을 만들 수도 있습니다.

R에서 Spark를 사용하려면 DSVM에서 사용할 수 있는 SparkR, Sparklyr 및 Microsoft Machine Learning Server와 같은 라이브러리를 사용합니다. 위 표의 샘플 링크를 참조하세요.

설정

Ubuntu Linux DSVM 버전에서 Microsoft Machine Learning Server에 Spark 컨텍스트를 실행하기 전에 일회성 설정 단계를 수행하여 로컬 단일 노드 Hadoop HDFS 및 Yarn 인스턴스를 사용하도록 설정해야 합니다. 기본적으로 Hadoop 서비스는 설치되지만 DSVM에서 사용하지 않도록 설정됩니다. 이를 사용하도록 설정하려면 처음에 루트로 다음 명령을 실행합니다.

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Hadoop 관련 서비스가 더 이상 필요하지 않을 때 중지하려면 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn을 실행합니다.

원격 Spark 컨텍스트(DSVM의 독립 실행형 Spark 인스턴스)에서 MRS를 개발하고 테스트하는 방법을 보여 주는 샘플은 /dsvm/samples/MRS 디렉터리에서 사용할 수 있습니다.

DSVM에서 구성 및 설치 방법

플랫폼 설치 위치($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Microsoft MMLSpark 기계 학습 라이브러리를 사용하여 Azure Blob Storage 또는 Azure Data Lake Storage(ADLS)의 데이터에 액세스하기 위한 라이브러리는 $SPARK_HOME/jars에 미리 설치되어 있습니다. 이러한 JAR은 Spark가 시작될 때 자동으로 로드됩니다. 기본적으로 Spark는 로컬 디스크에 있는 데이터를 사용합니다.

DSVM의 Spark 인스턴스는 Blob Storage 또는 Azure Data Lake Storage에 저장된 데이터에 액세스할 수 있습니다. 먼저 $SPARK_HOME/conf/core-site.xml.template에 있는 템플릿을 기반으로 core-site.xml 파일을 만들고 구성해야 합니다. 또한 Blob Storage 및 Azure Data Lake Storage에 액세스하는 데 적절한 자격 증명이 있어야 합니다. 템플릿 파일은 Blob Storage 및 Azure Data Lake Storage 구성에 자리 표시자를 사용합니다.

Azure Data Lake Storage 서비스 자격 증명을 만드는 방법에 대한 자세한 내용은 Azure Data Lake Storage Gen1을 사용한 인증을 참조하세요. Blob Storage 또는 Azure Data Lake Storage에 대한 자격 증명을 core-site.xml 파일에 입력하고 나면 URI 접두사 wasb:// 또는 adl://을 통해 해당 원본에 저장된 데이터를 참조할 수 있습니다.