Plataformas de datos admitidas en Data Science Virtual Machine
Con Data Science Virtual Machine (DSVM), puede crear los recursos de análisis en una amplia gama de plataformas de datos. Además de interfaces para plataformas de datos remotos, DSVM proporciona una instancia local para el desarrollo rápido y la creación de prototipos.
DSVM admite estas herramientas de plataforma de datos:
SQL Server Developer Edition
Category | Value |
---|---|
¿Qué es? | Una instancia de base de datos relacional local |
Ediciones de DSVM admitidas | Windows 2019, Linux (SQL Server 2019) |
Usos típicos |
|
Vínculos a ejemplos |
|
Herramientas relacionadas en DSVM |
|
Nota
SQL Server Developer Edition solo puede utilizarse para fines de desarrollo y prueba. Se necesita una licencia o una de las máquinas virtuales de SQL Server para ejecutarlo en producción.
Nota:
La compatibilidad con Machine Learning Server independiente finalizó el 1 de julio de 2021. Lo quitaremos de las imágenes de DSVM después del 30 de junio. Las implementaciones existentes seguirán teniendo acceso al software, pero debido a la fecha de finalización del soporte técnico alcanzado, la compatibilidad con ella finalizó después del 1 de julio de 2021.
Nota:
Quitaremos SQL Server Developer Edition de las imágenes de DSVM a finales de noviembre de 2021. Las implementaciones existentes seguirán teniendo SQL Server Developer Edition instalado. En las nuevas implementaciones, si desea tener acceso a SQL Server Developer Edition, puede instalar y usar SQL Server Developer Edition a través de la compatibilidad con Docker. Visite Inicio rápido: Ejecución de imágenes de contenedor de SQL Server con Docker para obtener más información.
Windows
Configurar
El servidor de bases de datos ya está preconfigurado y los servicios de Windows relacionados con SQL Server (por ejemplo, SQL Server (MSSQLSERVER)
) están configurados para ejecutarse automáticamente. El único paso manual implica habilitar el análisis en base de datos mediante el uso de Microsoft Machine Learning Server. Ejecute el siguiente comando para habilitar el análisis como una acción única en SQL Server Management Studio (SSMS). Ejecute este comando después de iniciar sesión como administrador de la máquina, abra una nueva consulta en SSMS y seleccione la base de datos master
:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Reemplace %COMPUTERNAME% por el nombre de la máquina virtual).
Para ejecutar SQL Server Management Studio, puede buscar "SQL Server Management Studio" en la lista de programas o usar la búsqueda de Windows para buscarlo y ejecutarlo. Cuando se le pidan credenciales, seleccione Autenticación de Windows y use el nombre del equipo o localhost
en el campo Nombre de SQL Server.
Cómo usarla y ejecutarla
De manera predeterminada, el servidor de bases de datos con la instancia de base de datos predeterminada se ejecuta automáticamente. Puede usar herramientas como SQL Server Management Studio en la máquina virtual para tener acceso a la base de datos de SQL Server de forma local. Las cuentas locales de administradores tienen acceso de administrador en la base de datos.
Además, DSVM incluye controladores ODBC y JDBC para comunicarse con
- SQL Server
- Bases de datos de Azure SQL
- Recursos de Azure Synapse Analytics de aplicaciones escritas en varios lenguajes, incluido Python y Machine Learning Server.
¿Cómo se configura e instala en DSVM?
El servidor SQL Server está instalado de manera estándar. Puede encontrarlo en C:\Program Files\Microsoft SQL Server
. Puede encontrar la instancia de Machine Learning Server en base de datos en C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
. DSVM también tiene una instancia independiente de Machine Learning Server, instalada en C:\Program Files\Microsoft\R Server\R_SERVER
. Estas dos instancias de Machine Learning Server no comparten bibliotecas.
Ubuntu
Primero debe instalar SQL Server Developer Edition en una DSVM de Ubuntu antes de usarlo. Visite Inicio rápido: Instalación de SQL Server y creación de una base de datos en Ubuntu para obtener más información.
Apache Spark 2.x (independiente)
Category | Value |
---|---|
¿Qué es? | Una instancia independiente (nodo único In-Process) de la popular plataforma Apache Spark, un sistema de procesamiento de datos y aprendizaje automático rápido y a gran escala. |
Ediciones de DSVM admitidas | Linux |
Usos típicos |
|
Vínculos a ejemplos | Ejemplo de Jupyter:
Microsoft Machine Learning Server (contexto de Spark): /dsvm/samples/MRS/MRSSparkContextSample.R |
Herramientas relacionadas en DSVM |
|
Cómo usarlo
Puede ejecutar el comando spark-submit
o pyspark
para enviar trabajos de Spark en la línea de comandos. También puede crear un cuaderno con el kernel de Spark para crear un Jupyter Notebook.
Para usar Spark desde R, use bibliotecas como SparkR, Sparklyr y Microsoft Machine Learning Server, que están disponibles en DSVM. Vea vínculos a ejemplos en la tabla anterior.
Configurar
Antes de ejecutar en un contexto de Spark en Microsoft Machine Learning Server en Ubuntu Linux DSVM Edition, debe completar un paso de configuración único para habilitar una instancia local de HDFS y Yarn de Hadoop. De manera predeterminada, los servicios de Hadoop están instalados pero deshabilitados en la DSVM. Para habilitarlos, ejecute estos comandos como raíz la primera vez:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Para detener los servicios relacionados con Hadoop cuando ya no los necesite, ejecute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
.
En el directorio /dsvm/samples/MRS
se proporciona un ejemplo en el que se muestra cómo desarrollar y probar MRS en el contexto de Spark remoto (la instancia independiente de Spark en DSVM).
¿Cómo se configura e instala en DSVM?
Plataforma | Ubicación de instalación ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Las bibliotecas para acceder a datos de Azure Blob Storage o Azure Data Lake Storage, utilizando las bibliotecas de aprendizaje automático de MMLSpark de Microsoft, están preinstaladas en $SPARK_HOME/jars. Estos JAR se cargan automáticamente cuando se inicia Spark. De forma predeterminada, Spark usa datos ubicados en el disco local.
La instancia de Spark en DSVM puede acceder a los datos almacenados en Blob Storage o Azure Data Lake Storage. Primero debe crear y configurar el archivo core-site.xml
, en función de la plantilla que se encuentra en $SPARK_HOME/conf/core-site.xml.template. También debe tener las credenciales adecuadas para tener acceso a Blob Storage y Azure Data Lake Storage. Los archivos de plantilla usan marcadores de posición para las configuraciones de Blob Storage y Azure Data Lake Storage.
Para más información sobre la creación de credenciales de servicio de Azure Data Lake Storage, visite Autenticación con Azure Data Lake Storage Gen1. Después de escribir las credenciales de Blob Storage o Azure Data Lake Storage en el archivo core-site.xml, puede hacer referencia a los datos almacenados en esos orígenes mediante el prefijo URI de wasb:// o adl://.