Inicio rápido: Configuración de Data Science Virtual Machine para Linux (Ubuntu)

Póngase en marcha con Data Science Virtual Machine de Ubuntu 20.04 y Azure DSVM para PyTorch.

Prerrequisitos

Para crear una instancia de Data Science Virtual Machine para Ubuntu 20.04 o de Azure DSVM para PyTorch, debe tener una suscripción a Azure. Pruebe Azure gratis.

Nota

Las cuentas gratuitas de Azure no admiten las SKU de máquinas virtuales habilitadas para GPU.

Creación de la instancia de Data Science Virtual Machine para Linux

Estos son los pasos para crear una instancia de Data Science Virtual Machine para Ubuntu 20.04 o de Azure DSVM para PyTorch:

  1. Vaya a Azure Portal. Es posible que se le pida que inicie sesión en su cuenta de Azure, si todavía no lo ha hecho.

  2. Busque la lista de máquinas virtuales. Para ello, escriba "data science virtual machine" y seleccione "Data Science Virtual Machine- Ubuntu 20.04" o "Azure DSVM para PyTorch"

  3. En la ventana siguiente, seleccione Crear.

  4. Debería ser redirigido a la hoja "Crear una máquina virtual".

  5. Escriba la siguiente información para configurar cada paso del asistente:

    1. Aspectos básicos:

      • Suscripción: si tiene más de una suscripción, seleccione aquella en la que se creará y facturará la máquina. Debe tener privilegios de creación de recursos en esta suscripción.

      • Grupo de recursos: cree un grupo o use uno existente.

      • Nombre de la máquina virtual: escriba el nombre de la máquina virtual. Este nombre se usará en Azure Portal.

      • Región: seleccione el centro de datos más adecuado. Para disfrutar de un acceso más rápido a la red, elija el centro de datos que tenga la mayoría de los datos o el que esté más cerca de su ubicación física. Más información sobre las regiones de Azure.

      • Imagen: Deje el valor predeterminado.

      • Size: esta opción debería rellenarse automáticamente con un tamaño adecuado para cargas de trabajo generales. Obtenga más información sobre los tamaños de las máquinas virtuales Linux en Azure.

      • Tipo de autenticación: para que la configuración sea más rápida, seleccione "Contraseña".

        Nota

        Si tiene previsto usar JupyterHub, asegúrese de seleccionar "Contraseña", ya que JupyterHub no está configurado para usar las claves públicas de SSH.

      • Nombre de usuario: escriba el nombre de usuario del administrador. Este nombre de usuario se utilizará para iniciar sesión en la máquina virtual. No es preciso que este nombre de usuario sea el mismo que el de Azure. No use mayúsculas.

        Importante

        Si usa mayúsculas en el nombre de usuario, JupyterHub no funcionará y se producirá un error interno del servidor 500.

      • Contraseña: escriba la contraseña que utilizará para iniciar sesión en la máquina virtual.

    2. Seleccione Revisar + crear.

    3. Revisar y crear

      • Compruebe que toda la información que ha especificado es correcta.
      • Seleccione Crear.

    El aprovisionamiento tardará alrededor de 5 minutos. El estado se muestra en Azure Portal.

Acceso a una instancia de Data Science Virtual Machine para Ubuntu

Puede acceder a la instancia de Data Science Virtual Machine para Ubuntu de una de estas cuatro maneras:

  • SSH para sesiones de terminal
  • xrdp para sesiones gráficas
  • X2Go para sesiones de gráficas
  • JupyterHub y JupyterLab para instancias de Jupyter Notebook

SSH

Si ha configurado la VM con autenticación SSH, puede iniciar sesión con las credenciales de la cuenta que creó en la sección Conceptos básicos del paso 3 para la interfaz del shell del texto. Más información sobre cómo conectarse a VM de Linux.

xrdp

xrdp es la herramienta estándar para acceder a sesiones gráficas de Linux. Aunque esto no se incluye en la distribución de forma predeterminada, puede instalarlo siguiendo estas instrucciones.

X2Go

Nota

El cliente X2Go ha tenido un mejor rendimiento que el reenvío de X11 durante las pruebas. Por lo tanto, se recomienda usar el cliente X2Go para la interfaz gráfica de escritorio.

La máquina virtual de Linux ya está provista del servidor X2Go y está preparada para aceptar conexiones de cliente. Para conectarse al escritorio gráfico de la máquina virtual Linux, lleve a cabo el siguiente procedimiento en el cliente:

  1. Descargue e instale el cliente X2Go para su plataforma cliente desde aquí.

  2. Anote la dirección IP pública de la máquina virtual, que puede encontrar en Azure Portal abriendo la máquina virtual que ha creado.

    Dirección IP de la máquina Ubuntu

  3. Ejecute el cliente X2Go. Si la ventana "New Session" (Nueva sesión) no aparece automáticamente, vaya a Session -> New Session (Sesión -> Nueva sesión).

  4. En la ventana de configuración resultante, escriba los parámetros de configuración siguientes:

    • Pestaña Sesión:
      • Host: Escriba la dirección IP de la máquina virtual, la que anotó anteriormente.
      • Inicio de sesión: escriba el nombre de usuario de la máquina virtual de Linux.
      • Puerto SSH: déjelo en 22, el valor predeterminado.
      • Tipo de sesión: cambie el valor a XFCE. Actualmente, la máquina virtual de Linux solo admite el escritorio XFCE.
    • Pestaña Multimedia: puede desactivar la compatibilidad de sonido y la impresión en el cliente si no necesita usarlas.
    • Carpetas compartidas: esta pestaña se usa para agregar el directorio de la máquina cliente que quiere montar en la máquina virtual.

    Configuración de X2Go

  5. Seleccione Aceptar.

  6. Haga clic en el cuadro del panel derecho de la ventana de X2Go para que aparezca la pantalla de inicio de sesión de la máquina virtual.

  7. Escriba la contraseña de la máquina virtual.

  8. Seleccione Aceptar.

  9. Para finalizar la conexión, es posible que tenga que conceder a X2Go permiso para omitir el firewall.

  10. Ahora debería ver la interfaz gráfica de su la instancia de Data Science Virtual Machine para Ubuntu.

JupyterHub y JupyterLab

La instancia de DSVM de Ubuntu ejecuta JupyterHub, un servidor de Jupyter multiusuario. Para establecer la conexión, siga estos pasos:

  1. Tome nota de la dirección IP pública de la máquina virtual; para ello, busque y seleccione la máquina virtual en Azure Portal. Dirección IP de la máquina Ubuntu

  2. En el equipo local, abra un explorador web y vaya a https://your-vm-ip:8000 y sustituya "ip-de-su-máquina-virtual" por la dirección IP que anotó anteriormente.

  3. Es probable que el explorador le impida abrir la página directamente y le indique que hay un error de certificado. Data Science Virtual Machine proporciona seguridad mediante un certificado autofirmado. La mayoría de los exploradores le permitirán hacer clic para omitir esta advertencia. Muchos exploradores seguirán mostrando algún tipo de advertencia visual sobre el certificado a lo largo de la sesión web.

    Nota

    Si ve el mensaje de error ERR_EMPTY_RESPONSE en el explorador, asegúrese de tener acceso a la máquina mediante el protocolo HTTPS y no mediante el uso de HTTP o simplemente la dirección web. Si escribe la dirección web sin https:// en la línea de dirección, la mayoría de los exploradores tendrán como valor predeterminado http y verá este error.

  4. Escriba el nombre de usuario y la contraseña que usó para crear la máquina virtual e inicie sesión.

    Escriba el inicio de sesión de Jupyter

    Nota

    Si recibe un error 500 en esta fase, es probable que se deba a que ha usado letras mayúsculas en el nombre de usuario. Se trata de una interacción conocida entre Jupyter Hub y la instancia de PAMAuthenticator que usa. Si recibe el error "No se puede acceder a esta página", es probable que tenga que ajustar los permisos del grupo de seguridad de red. En Azure Portal, busque el recurso de grupo de seguridad de red en el grupo de recursos. Para acceder a JupyterHub desde la red pública de Internet, debe tener abierto el puerto 8000. (La imagen muestra que esta VM está configurada para el acceso Just-In-Time, que es muy recomendable. Consulte Protección de los puertos de administración con el acceso Just-In-Time.) Configuración del grupo de seguridad de red

  5. Examine los numerosos cuadernos de ejemplo que están disponibles.

JupyterLab, la siguiente generación de los cuadernos de Jupyter y JupyterHub, también está disponible. Para acceder a él, inicie sesión en JupyterHub y, después, vaya a la dirección URL https://your-vm-ip:8000/user/your-username/lab y reemplace "suNombreDeUsuario" por el nombre de usuario que eligió al configurar la máquina virtual. Una vez más, es posible que inicialmente no se le permita acceder al sitio debido a un error de certificado.

Puede establecer JupyterLab como el servidor de bloc de notas predeterminado agregando esta línea a /etc/jupyterhub/jupyterhub_config.py:

c.Spawner.default_url = '/lab'

Pasos siguientes

A continuación, mostramos cómo puede continuar con las tareas de aprendizaje y exploración:

  • En el tutorial Ciencia de datos con una instancia de Data Science Virtual Machine de Linux se muestra cómo llevar a cabo varias tareas comunes de ciencia de datos con la instancia de DSVM de Linux aprovisionada aquí.
  • Pruebe las herramientas descritas en este artículo para conocer las distintas herramientas de ciencia de datos de la instancia de DSVM. También puede ejecutar dsvm-more-info en el shell de la máquina virtual para obtener un introducción básica y referencias que le permitirán consultar más información sobre las herramientas instaladas en la máquina virtual.
  • Aprenda a crear sistemáticamente soluciones analíticas mediante el proceso de ciencia de los datos en equipos.
  • Visite la Azure AI Gallery para ver ejemplos de aprendizaje automático y análisis de datos donde se usan los servicios de Azure AI.
  • Consulte la documentación de referencia adecuada para esta máquina virtual.