Cómo montar S3 para los niveles de HDFS en un clúster de macrodatos

En las secciones siguientes se proporciona un ejemplo de cómo configurar los niveles de HDFS con un origen de datos de almacenamiento S3.

Importante

El complemento Clústeres de macrodatos de Microsoft SQL Server 2019 se va a retirar. La compatibilidad con Clústeres de macrodatos de SQL Server 2019 finalizará el 28 de febrero de 2025. Todos los usuarios existentes de SQL Server 2019 con Software Assurance serán totalmente compatibles con la plataforma, y el software se seguirá conservando a través de actualizaciones acumulativas de SQL Server hasta ese momento. Para más información, consulte la entrada de blog sobre el anuncio y Opciones de macrodatos en la plataforma Microsoft SQL Server.

Prerrequisitos

Claves de acceso

Establecimiento de la variable de entorno para las credenciales de clave de acceso

Abra un símbolo del sistema en un equipo cliente que pueda acceder al clúster de macrodatos. Establezca una variable de entorno con el siguiente formato. Las credenciales deben estar en una lista separada por comas. El comando "set" se usa en Windows. Si usa Linux, use "Export" en su lugar.

 set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
 fs.s3a.secret.key=<Secret Access Key of the key>

Sugerencia

Para obtener más información sobre cómo crear teclas de acceso S3, consulte Claves de acceso S3.

Montaje del almacenamiento de HDFS remoto

Ahora que ha preparado un archivo de credenciales con claves de acceso, puede iniciar el montaje. En los pasos siguientes se monta el almacenamiento de HDFS remoto en S3 en el almacenamiento de HDFS local del clúster de macrodatos.

  1. Use kubectl para buscar la dirección IP del servicio controller-svc-external de punto de conexión en el clúster de macrodatos. Busque el valor de External-IP.

    kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
    
  2. Inicie sesión con azdata mediante la dirección IP externa del punto de conexión del controlador con el nombre de usuario y la contraseña del clúster:

    azdata login -e https://<IP-of-controller-svc-external>:30080/
    
  3. Establezca la variable de entorno MOUNT_CREDENTIALS siguiendo las instrucciones anteriores.

  4. Monte el almacenamiento de HDFS remoto en Azure con el comando azdata bdc hdfs mount create. Reemplace los valores de marcador de posición antes de ejecutar el siguiente comando:

    azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
    

    Nota:

    El comando mount create es asincrónico. En este momento, no hay ningún mensaje que indique si el montaje se ha realizado correctamente. Consulte la sección sobre el estado para comprobar el estado de los montajes.

Si se ha montado correctamente, debería poder consultar los datos de HDFS y ejecutar trabajos de Spark en ellos. Aparecerán en el HDFS del clúster de macrodatos en la ubicación que especifique --mount-path.

Obtención del estado de los montajes

Para mostrar el estado de todos los montajes en el clúster de macrodatos, use el siguiente comando:

azdata bdc hdfs mount status

Para mostrar el estado de un montaje en una ruta de acceso específica de HDFS, use el siguiente comando:

azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>

Actualización de un montaje

En el siguiente ejemplo se actualiza el montaje.

azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>

Eliminación del montaje

Para eliminar el montaje, use el comando azdata bdc hdfs mount delete y especifique la ruta de acceso de montaje en HDFS:

azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>