Come montare S3 per la suddivisione in livelli HDFS in un cluster Big Data
Le sezioni seguenti forniscono un esempio di come configurare la suddivisione in livelli HDFS con un'origine dati di archiviazione S3.
Importante
Il componente aggiuntivo per i cluster Big Data di Microsoft SQL Server 2019 verrà ritirato. Il supporto per i cluster Big Data di SQL Server 2019 terminerà il 28 febbraio 2025. Tutti gli utenti esistenti di SQL Server 2019 con Software Assurance saranno completamente supportati nella piattaforma e fino a quel momento il software continuerà a ricevere aggiornamenti cumulativi di SQL Server. Per altre informazioni, vedere il post di blog relativo all'annuncio e Opzioni per i Big Data nella piattaforma Microsoft SQL Server.
Prerequisiti
- Cluster Big Data distribuito
- Strumenti per Big Data
- azdata
- kubectl
- Creare e caricare dati in un bucket S3
- Caricare file CSV o Parquet nel bucket S3. Si tratta dei dati HDFS esterni che verranno montati in HDFS nel cluster Big Data.
Access keys
Impostare la variabile di ambiente per le credenziali della chiave di accesso
Aprire un prompt dei comandi in un computer client in grado di accedere al cluster Big Data. Impostare una variabile di ambiente usando il formato seguente. Le credenziali devono essere inserite in un elenco delimitato da virgole. Il comando "set" viene usato in Windows. Se si usa Linux, usare invece "export".
set MOUNT_CREDENTIALS=fs.s3a.access.key=<Access Key ID of the key>,
fs.s3a.secret.key=<Secret Access Key of the key>
Suggerimento
Per altre informazioni su come creare chiavi di accesso S3, vedere Chiavi di accesso S3.
Montare la risorsa di archiviazione HDFS remota
Dopo aver preparato un file di credenziali con chiavi di accesso, è ora possibile iniziare il montaggio. La procedura seguente consente di montare la risorsa di archiviazione HDFS remota in S3 nell'archiviazione HDFS locale del cluster Big Data.
Usare kubectl per trovare l'indirizzo IP per il servizio controller-svc-external dell'endpoint nel cluster Big Data. Cercare External-IP.
kubectl get svc controller-svc-external -n <your-big-data-cluster-name>
Accedere con azdata usando l'indirizzo IP esterno dell'endpoint del controller con il nome utente e la password del cluster:
azdata login -e https://<IP-of-controller-svc-external>:30080/
Impostare la variabile di ambiente MOUNT_CREDENTIALS seguendo le istruzioni sopra riportate
Montare la risorsa di archiviazione HDFS remota in Azure usando azdata bdc hdfs mount create. Sostituire i valori segnaposto prima di eseguire il comando seguente:
azdata bdc hdfs mount create --remote-uri s3a://<S3 bucket name> --mount-path /mounts/<mount-name>
Nota
Il comando mount create è asincrono. A questo punto, non sono presenti messaggi che indicano se il montaggio è riuscito o meno. Vedere la sezione relativa allo stato per controllare lo stato dei montaggi.
Se il montaggio è riuscito, dovrebbe essere possibile eseguire una query sui dati di HDFS, nonché eseguire processi Spark. Il montaggio verrà visualizzato in HDFS per il cluster Big Data nel percorso specificato da --mount-path
.
Ottenere lo stato dei montaggi
Per elencare lo stato di tutti i montaggi nel cluster Big Data, usare il comando seguente:
azdata bdc hdfs mount status
Per elencare lo stato di un montaggio in un percorso specifico in HDFS, usare il comando seguente:
azdata bdc hdfs mount status --mount-path <mount-path-in-hdfs>
Aggiornare un montaggio
L'esempio seguente aggiorna il montaggio.
azdata bdc hdfs mount refresh --mount-path <mount-path-in-hdfs>
Eliminare il montaggio
Per eliminare il montaggio, usare il comando azdata bdc hdfs mount delete
e specificare il percorso di montaggio in HDFS:
azdata bdc hdfs mount delete --mount-path <mount-path-in-hdfs>