Compartir por


Inicio rápido: Configuración de Data Science Virtual Machine para Linux (Ubuntu)

Póngase en marcha con Data Science Virtual Machine (DSVM) de Ubuntu 20.04 y Azure DSVM para PyTorch.

Requisitos previos

Para crear una instancia de Data Science Virtual Machine para Ubuntu 20.04 o de Azure DSVM para PyTorch, necesita una suscripción a Azure. Pruebe Azure gratis.

Las cuentas gratuitas de Azure no admiten los SKU de máquinas virtuales (VM) habilitados para GPU.

Creación de la instancia de Data Science Virtual Machine para Linux

Para crear una instancia de DSVM de Ubuntu 20.04 o DSVM de Azure para PyTorch:

  1. Vaya a Azure Portal. Es posible que se le solicite iniciar sesión en la cuenta de Azure, si todavía no lo ha hecho.

  2. Para buscar la lista de máquinas virtuales, escriba Data Science Virtual Machine. A continuación, seleccione Data Science Virtual Machine- Ubuntu 20.04 o Azure DSVM para PyTorch.

  3. Seleccione Crear.

  4. En el panel Crear una máquina virtual, rellene la pestaña Aspectos básicos:

    • Suscripción: si tiene más de una suscripción, seleccione aquella en la que se crea y factura la máquina. Debe tener privilegios de creación de recursos en esta suscripción.

    • Grupo de recursos: cree un grupo o use uno existente.

    • Nombre de la máquina virtual: escriba el nombre de la VM. Este nombre se usará en Azure Portal.

    • Región: seleccione el centro de datos más adecuado. Para obtener un acceso más rápido a la red, el centro de datos que hospeda la mayoría de los datos o que se encuentra más cerca de la ubicación física es la mejor opción. Para obtener más información, visite Regiones de Azure.

    • Imagen: no cambie el valor predeterminado.

    • Tamaño: esta opción debe rellenarse automáticamente con un tamaño adecuado para cargas de trabajo generales. Para obtener más información, visite Tamaños de máquina virtual Linux en Azure.

    • Tipo de autenticación: para una configuración más rápida, seleccione Contraseña.

      Nota:

      Si tiene previsto usar JupyterHub, asegúrese de seleccionar Contraseña, ya que JupyterHub no está configurado para usar las claves públicas de protocolo de Secure Shell (SSH).

    • Nombre de usuario: escriba el nombre de usuario del administrador. Use este nombre de usuario para iniciar sesión en la VM. No es necesario que este nombre de usuario coincida con el nombre de usuario de Azure. No use letras mayúsculas.

      Importante

      Si usa mayúsculas en el nombre de usuario, JupyterHub no funcionará y se producirá un error interno del servidor 500.

    • Contraseña: escriba la contraseña que planea usar para iniciar sesión en la VM.

  5. Seleccione Revisar + crear.

  6. En el panel Revisar y crear:

    • Compruebe que toda la información que ha especificado es correcta.
    • Seleccione Crear.

    El proceso de aprovisionamiento tarda aproximadamente 5 minutos. Puede ver el estado de la VM en Azure Portal.

Acceso a una instancia de Data Science Virtual Machine para Ubuntu

Puede acceder a la instancia de Data Science Virtual Machine para Ubuntu de una de estas cuatro maneras:

  • SSH para sesiones de terminal
  • xrdp para sesiones gráficas
  • X2Go para sesiones de gráficas
  • JupyterHub y JupyterLab para instancias de Jupyter Notebook

SSH

Si ha configurado la VM con autenticación SSH, puede iniciar sesión con las credenciales de la cuenta que creó en la sección Aspectos básicos del paso 4 para la interfaz de shell de texto. Para obtener más información, visite Más información sobre la conexión a una máquina virtual Linux.

xrdp

La herramienta estándar para acceder a sesiones gráficas de Linux es xrdp. Aunque la distribución no incluye esta herramienta de forma predeterminada, estas instrucciones explican cómo instalarla.

X2Go

Nota:

En las pruebas, el cliente X2Go ha tenido un mejor rendimiento que el reenvío de X11. Por lo tanto, se recomienda usar el cliente X2Go para la interfaz gráfica de escritorio.

La máquina virtual Linux ya está aprovisionada con el servidor X2Go y está lista para aceptar conexiones de cliente. Para conectarse al escritorio gráfico de la máquina virtual Linux, lleve a cabo los siguientes procedimientos en el cliente:

  1. Descargue e instale el cliente X2Go para su plataforma cliente desde aquí.

  2. Anote la dirección IP pública de la máquina virtual. En Azure Portal, abra la máquina virtual que creó para encontrar esta información.

    Captura de pantalla que muestra el campo Dirección IP pública.

  3. Ejecute el cliente X2Go. Si el panel Nueva sesión no se abre automáticamente, seleccione Sesión>Nueva sesión.

  4. En la ventana de configuración resultante, escriba estos parámetros de configuración:

    • Sesión:
      • Host: Escriba la dirección IP de la máquina virtual que anotó anteriormente.
      • Inicio de sesión: escriba el nombre de usuario de la máquina virtual de Linux.
      • Puerto SSH: Déjelo en 22, el valor predeterminado.
      • Tipo de sesión: cambie el valor a XFCE. Actualmente, la máquina virtual de Linux solo admite el escritorio XFCE.
    • Elementos multimedia: puede desactivar la compatibilidad de sonido y la impresión en el cliente si no necesita usarlas.
    • Carpetas compartidas: use esta pestaña para agregar el directorio de la máquina cliente que desea montar en la VM.

    Captura de pantalla que muestra las preferencias de una nueva sesión X2Go.

  5. Seleccione Aceptar.

  6. Seleccione el cuadro del panel derecho del panel X2Go para abrir el panel de inicio de sesión de la VM.

  7. Escriba la contraseña de la máquina virtual.

  8. Seleccione Aceptar.

  9. Para finalizar el proceso de conexión, es posible que tenga que conceder a X2Go permiso para omitir el firewall.

  10. Ahora debería ver la interfaz gráfica de su la instancia de Data Science Virtual Machine para Ubuntu.

JupyterHub y JupyterLab

La instancia de DSVM de Ubuntu ejecuta JupyterHub, un servidor de Jupyter multiusuario. Para conectarse, siga estos pasos:

  1. Anote la dirección IP pública de la máquina virtual. Para encontrar este valor, busque y seleccione la VM en Azure Portal, como se muestra en esta captura de pantalla.

    Captura de pantalla que muestra el campo Dirección IP pública de la VM.

  2. En el equipo local, abra un explorador web y vaya a https://your-vm-ip:8000. Reemplace your-vm-ip por la dirección IP que anotó anteriormente.

  3. Es probable que el explorador le impida abrir el panel directamente. Puede indicarle que hay un error de certificado. DSVM proporciona seguridad mediante un certificado autofirmado. La mayoría de los exploradores le permitirán seleccionar para omitir esta advertencia. Muchos exploradores seguirán mostrando algún tipo de advertencia visual sobre el certificado a lo largo de la sesión web.

    Si ve el mensaje de error ERR_EMPTY_RESPONSE en el explorador, asegúrese de acceder a la máquina mediante el uso explícito del protocolo HTTPS. HTTP o simplemente la dirección web no funcionan para este paso. Si escribe la dirección web sin https:// en la línea de dirección, la mayoría de los exploradores tendrán como valor predeterminado http y aparecerá el error.

  4. Escriba el nombre de usuario y la contraseña que usó para crear la máquina virtual e iniciar sesión, como se muestra en esta captura de pantalla.

    Captura de pantalla que muestra el panel de inicio de sesión de JupyterHub.

    Si recibe un error 500 en esta fase, es probable que se deba a que ha usado letras mayúsculas en el nombre de usuario. Este problema es una interacción conocida entre JupyterHub y el autenticador de PAM que usa.

    Si recibe el error No se puede acceder a esta página, es probable que tenga que ajustar los permisos del grupo de seguridad de red (NSG). En Azure Portal, busque el recurso de NSG en el grupo de recursos. Para acceder a JupyterHub desde la red pública de Internet, debe tener abierto el puerto 8000. (La imagen muestra que esta VM está configurada para el acceso Just-in-Time, que es muy recomendable. Para obtener más información, visite Protección de los puertos de administración con acceso Just-in-Time).

    Captura de pantalla que muestra las configuraciones de NSG.

  5. Examine los cuadernos de ejemplo disponibles.

JupyterLab, la siguiente generación de los cuadernos de Jupyter y JupyterHub, también está disponible. Para acceder, inicie sesión en JupyterHub. A continuación, vaya a la dirección URL https://your-vm-ip:8000/user/your-username/lab. Reemplace your-username por el nombre de usuario que eligió al configurar la VM. De nuevo, los posibles errores de certificado podrían impedir inicialmente que acceda al sitio.

Para establecer JupyterLab como el servidor de bloc de notas predeterminado, agregue esta línea a /etc/jupyterhub/jupyterhub_config.py:

c.Spawner.default_url = '/lab'

Pasos siguientes

  • Vea el tutorial Ciencia de datos con una instancia de Data Science Virtual Machine de Linux para ver cómo llevar a cabo varias tareas comunes de ciencia de datos con la instancia de DSVM de Linux aprovisionada aquí.
  • Pruebe las herramientas descritas en este artículo para conocer las distintas herramientas de ciencia de datos de la instancia de DSVM. También puede ejecutar dsvm-more-info en el shell de la máquina virtual para obtener un introducción básica y referencias que le permitirán consultar más información sobre las herramientas instaladas en la máquina virtual.
  • Aprenda a crear sistemáticamente soluciones analíticas mediante el proceso de ciencia de los datos en equipos.
  • Visite la documentación de referencia adecuada para esta máquina virtual.