Compartir a través de


Referencia: Data Science Virtual Machine de Ubuntu

En este documento se presenta una lista de las herramientas disponibles en la máquina virtual de Ubuntu Ciencia de datos (DSVM).

Bibliotecas de aprendizaje profundo

PyTorch

PyTorch es un conocido marco de computación científica, con amplia compatibilidad con algoritmos de aprendizaje automático. Si la máquina tiene una GPU integrada, puede usar esa GPU para acelerar el aprendizaje profundo. PyTorch está disponible en el py38_pytorch entorno.

H2O

H2O es una plataforma de análisis predictivo y aprendizaje automático rápida, distribuida y en memoria. Se instala un paquete Python en el entorno raíz y en el entorno py35 Anaconda. También se instala un paquete de R.

Para abrir H2O desde la línea de comandos, ejecute java -jar /dsvm/tools/h2o/current/h2o.jar. Puede configurar varias opciones de línea de comandos disponibles. Vaya a la interfaz de usuario web de Flow para http://localhost:54321 empezar. JupyterHub ofrece cuadernos de ejemplo.

TensorFlow

TensorFlow es la biblioteca de aprendizaje profundo de Google. Es una biblioteca de software de código abierto para cálculo numérico que usa gráficos de flujo de datos. Si la máquina tiene una GPU integrada, puede usar esa GPU para acelerar el aprendizaje profundo. TensorFlow está disponible en el entorno de Conda py38_tensorflow.

Python

La máquina virtual de Ciencia de datos (DSVM) tiene varios entornos de Python preinstalados, con python versión 3.8 o Python versión 3.6. Ejecute conda env list en una ventana de terminal para ver la lista completa de entornos instalados.

Jupyter

DSVM también incluye Jupyter, un entorno de uso compartido de código y análisis de código. Jupyter se instala en DSVM en estos tipos:

  • Jupyter Lab
  • Jupyter Notebook
  • Jupyter Hub

Para iniciar Jupyter Lab, abra Jupyter en el menú de la aplicación o seleccione el icono de escritorio. También puede ejecutar jupyter lab desde una línea de comandos para abrir Jupyter Lab.

Para abrir Jupyter Notebook, abra una línea de comandos y ejecute jupyter notebook.

Para abrir Jupyter Hub, abra https://< VM nombre DNS o dirección> IP:8000/ en un explorador. Debe proporcionar el nombre de usuario y la contraseña locales de Linux.

Nota:

Puede omitir cualquier advertencia de certificado.

Nota:

Para las imágenes de Ubuntu, el puerto de firewall 8000 se abre de forma predeterminada cuando se aprovisiona la máquina virtual.

Apache Spark independiente

Una instancia independiente de Apache Spark está preinstalada en la instancia de DSVM de Linux para ayudarle a desarrollar aplicaciones spark localmente antes de probar e implementar esas aplicaciones en clústeres grandes.

Puede ejecutar programas PySpark mediante el kernel de Jupyter. Cuando se inicie Jupyter, seleccione el botón Nuevo . Una lista de kernels disponibles debe estar visible. Puede compilar aplicaciones de Spark con el lenguaje Python si elige el kernel de Spark - Python . También puede usar un IDE de Python, por ejemplo, VS. Código o PyCharm: para compilar el programa spark.

En esta instancia independiente, la pila de Spark se ejecuta dentro del programa cliente que realiza la llamada. Esta característica facilita la solución de problemas, en comparación con el desarrollo en un clúster de Spark.

IDE y editores

Tiene una opción de varios editores de código, incluido VS. Code, PyCharm, IntelliJ, vi/Vim o Emacs.

VS.Code, PyCharm e IntelliJ son editores gráficos. Para usarlos, debe haber iniciado sesión en un escritorio gráfico. Se abren mediante accesos directos de menú de escritorio y aplicación.

Vim y Emacs son editores basados en texto. En Emacs, el paquete del complemento ESS facilita el trabajo con R en el editor de Emacs. Para obtener más información, visite el sitio web de ESS.

Bases de datos

Cliente SQL gráfico

SQuirrel SQL, un cliente SQL gráfico, puede conectarse a varias bases de datos (por ejemplo, Microsoft SQL Server o MySQL) y ejecutar consultas SQL. La manera más rápida de abrir SQuirrel SQL es usar el menú de aplicación desde una sesión de escritorio gráfico (por ejemplo, mediante el cliente X2Go).

Antes del uso inicial, configure los controladores y los alias de base de datos. Puede encontrar los controladores JDBC en /usr/share/java/jdbcdrivers.

Para obtener más información, visite el recurso SQuirrel SQL .

Herramientas de línea de comandos para tener acceso a Microsoft SQL Server

El paquete de controladores ODBC para SQL Server también incluye dos herramientas de línea de comandos:

  • bcp: la herramienta bcp copia datos de forma masiva entre una instancia de Microsoft SQL Server y un archivo de datos, en un formato especificado por el usuario. Puede usarla para importar grandes cantidades de filas nuevas en tablas de SQL Server o para exportar datos de tablas a archivos de datos. Para importar datos en una tabla, debe usar un archivo de formato creado para esa tabla. Debe comprender la estructura de la tabla y los tipos de datos que son válidos para sus columnas.

Para obtener más información, visite Conexión con bcp.

  • sqlcmd: puede escribir instrucciones Transact-SQL con la herramienta sqlcmd. También puede especificar procedimientos del sistema y archivos de script en el símbolo del sistema. Esta herramienta usa ODBC para ejecutar lotes de Transact-SQL.

    Para obtener más información, visite Conexión con sqlcmd.

    Nota:

    Hay algunas diferencias en esta herramienta entre sus versiones de la plataforma Linux y Windows. Revise la documentación para obtener más información.

Bibliotecas de acceso a las bases de datos

Las bibliotecas de R y Python están disponibles para el acceso a bases de datos:

  • En R, puede usar los paquetes de dplyr rodBC para consultar o ejecutar instrucciones SQL en el servidor de bases de datos.
  • En Python, la biblioteca pyodbc proporciona acceso a la base de datos con ODBC como la capa subyacente.

Herramientas de Azure

Estas herramientas de Azure se instalan en la máquina virtual:

  • CLI de Azure: puede usar la interfaz de la línea de comandos de Azure para crear y administrar recursos de Azure mediante comandos de shell. Para abrir las herramientas de Azure, escriba azure help. Para más información, visite la página de documentación de la CLI de Azure.

  • Explorador de Azure Storage: Explorador de Azure Storage es una herramienta gráfica que puede usar para examinar los objetos almacenados en la cuenta de Azure Storage y cargar y descargar datos en blobs de Azure y desde ellos. Puede acceder al Explorador de Storage desde el icono de acceso directo del escritorio. También puede abrirlo desde un símbolo del sistema de shell si escribe StorageExplorer. Debe haber iniciado sesión desde un cliente X2Go o tener la configuración de reenvío de X11.

  • Bibliotecas de Azure: estas son algunas de las bibliotecas preinstaladas:

    • Python: Python ofrece las bibliotecas relacionadas con Azure, azureml, pydocumentdb y pyodbc de Azure. Las tres primeras bibliotecas permiten acceder a los servicios de Azure Storage, a Azure Machine Learning y a Azure Cosmos DB (una base de datos NoSQL en Azure). La cuarta biblioteca, pyodbc (junto con el controlador ODBC de Microsoft para SQL Server), permite el acceso a SQL Server, Azure SQL Database y Azure Synapse Analytics desde Python a través de una interfaz ODBC. Escriba la lista pip para ver todas las bibliotecas enumeradas. Asegúrese de ejecutar este comando en los entornos python 2.7 y 3.5.
    • R: Azure Machine Learning y RODBC son las bibliotecas relacionadas con Azure en R.
    • Java: Directory /dsvm/sdk/AzureSDKJava tiene la lista de bibliotecas de Java de Azure que se pueden encontrar en el directorio /dsvm/sdk/AzureSDKJava de la máquina virtual. Las bibliotecas principales son Azure Storage y las API de administración, Azure Cosmos DB y los controladores JDBC para SQL Server.

Azure Machine Learning

El servicio en la nube de Azure Machine Learning totalmente administrado le permite crear, implementar y compartir soluciones de análisis predictivo. Puede compilar los experimentos y modelos en Estudio de Azure Machine Learning. Visite Microsoft Azure Machine Learning para acceder a él desde un explorador web en la máquina virtual de Ciencia de datos.

Después de iniciar sesión en Azure Machine Learning Studio, puede usar un lienzo de experimentación para crear un flujo lógico para los algoritmos de aprendizaje automático. También tiene acceso a un cuaderno de Jupyter Notebook hospedado en Azure Machine Learning. Este cuaderno puede funcionar sin problemas con los experimentos de Estudio de Azure Machine Learning.

Para poner en funcionamiento los modelos de aprendizaje automático que ha creado, encapsularlos en una interfaz de servicio web. La operacionalización del modelo de Machine Learning permite a los clientes escritos en cualquier lenguaje invocar predicciones de esos modelos. Consulte la documentación de Machine Learning para obtener más información.

También puede crear los modelos en R o en Python en la máquina virtual y, después, implementarlos en producción en Azure Machine Learning. Hemos instalado bibliotecas en R (AzureML) y Python (azureml) para habilitar esta funcionalidad.

Nota:

Hemos escrito estas instrucciones para la versión de Windows de Ciencia de datos máquina virtual. Sin embargo, las instrucciones tratan las implementaciones del modelo de Azure Machine Learning en la máquina virtual Linux.

Herramientas de aprendizaje automático

La máquina virtual incluye herramientas y algoritmos de aprendizaje automático precompilados, todos instalados localmente. Entre ellas se incluyen las siguientes:

  • Vowpal Wabbit: un algoritmo de aprendizaje en línea rápido

  • xgboost: esta herramienta proporciona algoritmos de árbol optimizados y ampliados

  • Rattle: una herramienta gráfica basada en R para facilitar la exploración y el modelado de datos

  • Python: Anaconda Python integra algoritmos de aprendizaje automático con bibliotecas como Scikit-learn. Puede instalar otras bibliotecas con el pip install comando .

  • LightGBM: un marco de potenciación de degradado rápido, distribuido y de alto rendimiento basado en algoritmos de árbol de decisión

  • R: Hay disponible una amplia biblioteca de funciones de aprendizaje automático para R. Las bibliotecas preinstaladas incluyen lm, glm, randomForest y rpart. Puede instalar otras bibliotecas con este comando:

    install.packages(<lib name>)
    

Esta es más información sobre las tres primeras herramientas de aprendizaje automático de la lista.

Vowpal Wabbit

Vowpal Wabbit es un sistema de aprendizaje automático que usa

  • active
  • allreduce
  • aplicación de código hash
  • aprendizaje interactivo
  • learning2search
  • Online
  • Reducciones

técnicas.

Use estos comandos para ejecutar la herramienta en un ejemplo básico:

cp -r /dsvm/tools/VowpalWabbit/demo vwdemo
cd vwdemo
vw house_dataset

Ese directorio ofrece otras demostraciones más grandes. Visite esta sección de GitHub y la wiki de Vowpal Wabbit para obtener más información sobre Vowpal Wabbit.

xgboost

Se trata de una biblioteca que está diseñada y optimizada para algoritmos potenciados (de árbol). La biblioteca xgboost inserta los límites de cálculo de las máquinas en los extremos necesarios para aumentar el árbol a gran escala, portátil y preciso.

La biblioteca xgboost se proporciona como un recurso de línea de comandos y una biblioteca de R. Para usar esta biblioteca en R, puede escribir R en el shell para iniciar una sesión interactiva de R y cargar la biblioteca.

En este ejemplo sencillo se muestra cómo ejecutar xgboost en un símbolo del sistema de R:

library(xgboost)

data(agaricus.train, package='xgboost')
data(agaricus.test, package='xgboost')
train <- agaricus.train
test <- agaricus.test
bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
                eta = 1, nthread = 2, nround = 2, objective = "binary:logistic")
pred <- predict(bst, test$data)

Para ejecutar la línea de comandos xgboost, ejecute estos comandos en el shell:

cp -r /dsvm/tools/xgboost/demo/binary_classification/ xgboostdemo
cd xgboostdemo
xgboost mushroom.conf

Para obtener más información sobre xgboost, visite la página de documentación de xgboost y su repositorio de GitHub.

Rattle

Rattle (siglas del inglés R Analytical Tool To Learn Easily, la herramienta de análisis de R para aprender fácilmente) utiliza el modelado y la exploración de datos basados en GUI. It

  • presenta resúmenes estadísticos y visuales de datos
  • transforma los datos que se pueden modelar fácilmente.
  • compila modelos no supervisados y supervisados a partir de los datos
  • presenta el rendimiento de los modelos gráficamente
  • puntua nuevos conjuntos de datos

También genera código de R, que replica las operaciones de Rattle en la interfaz de usuario. Puede ejecutar ese código directamente en R o usarlo como punto de partida para un análisis posterior.

Para ejecutar Rattle, debe operar en una sesión gráfica de inicio de sesión de escritorio. En el terminal, escriba R para abrir el entorno de R. En el símbolo del sistema de R, escriba este comando:

library(rattle)
rattle()

Se abre una interfaz gráfica, con un conjunto de pestañas. Estos pasos de inicio rápido de Rattle usan un conjunto de datos meteorológicos de ejemplo para crear un modelo. En algunos de los pasos, recibirá avisos para instalar y cargar automáticamente paquetes de R necesarios que aún no están en el sistema.

Nota:

Si no tiene permisos de acceso para instalar el paquete en el directorio del sistema (el valor predeterminado), es posible que observe un mensaje en la ventana de la consola de R para instalar paquetes en la biblioteca personal. Responda y si encuentra estas indicaciones.

  1. Seleccione Ejecutar.
  2. Aparece un cuadro de diálogo que pregunta si desea usar el conjunto de datos meteorológicos de ejemplo. Seleccione para cargar el ejemplo.
  3. Seleccione la pestaña Modelo
  4. Seleccione Ejecutar para crear un árbol de decisión.
  5. Seleccione Dibujar para mostrar el árbol de decisión.
  6. Seleccione la opción Bosque y seleccione Ejecutar para compilar un bosque aleatorio.
  7. Seleccione la pestaña Evaluar .
  8. Seleccione la opción Riesgo y seleccione Ejecutar para mostrar dos gráficos de rendimiento de riesgo (acumulado ).
  9. Seleccione la pestaña Registro para mostrar el código de R generado para las operaciones anteriores.
    • Debido a un error en la versión actual de Rattle, debe insertar un # carácter delante de Exportar este registro en el texto del registro.
  10. Seleccione el botón Exportar para guardar el archivo de script de R, denominado weather_script. R, a la carpeta principal

Puede salir de Rattle y R. Ahora puede modificar el script de R generado. También puede usar el script tal como está y ejecutarlo en cualquier momento para repetir todo lo que se hizo dentro de la interfaz de usuario de Rattle. Para principiantes en R especialmente, esto se presta para el análisis rápido y el aprendizaje automático en una interfaz gráfica simple, al tiempo que genera código automáticamente en R para la modificación o el aprendizaje.

Pasos siguientes

Para más preguntas, considere la posibilidad de crear una incidencia de soporte técnico.