Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Funkcja interfejsu API REST obiektów umożliwia usłudze Azure Databricks odczytywanie i zapisywanie danych na woluminach usługi Azure NetApp Files, obsługując kompleksowe przepływy pracy nauki o danych od pozyskiwania do wdrożenia modelu.
Aby nawiązać połączenie z usługą Azure Databricks, należy skonfigurować skrypt inicjowania (init) w celu załadowania certyfikatu SSL w punktach końcowych obliczeniowych usługi Databricks. Użycie tej konfiguracji zapewnia bezpieczną komunikację między usługą Azure Databricks i woluminem z obsługą interfejsu API REST obiektu usługi Azure NetApp Files.
Zanim rozpoczniesz
Upewnij się, że masz:
- Skonfigurowano wolumin obsługujący API REST obiektu usługi Azure NetApp Files
- Aktywny obszar roboczy usługi Azure Databricks
Tworzenie skryptu inicjowania
Skrypt inicjowania jest uruchamiany podczas uruchamiania klastra. Aby uzyskać więcej informacji na temat skryptów inicjowania, zobacz Co to są skrypty inicjowania?
Napisz skrypt powłoki bash w celu załadowania certyfikatu SSL. Zapisz skrypt przy użyciu rozszerzenia .sh. Przykład:
#!/bin/bash cat << 'EOF' > /usr/local/share/ca-certificates/myca.crt -----BEGIN CERTIFICATE----- -----END CERTIFICATE----- EOF update-ca-certificates PEM_FILE="/etc/ssl/certs/myca.pem" PASSWORD="changeit" JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::") KEYSTORE="$JAVA_HOME/lib/security/cacerts" CERTS=$(grep 'END CERTIFICATE' $PEM_FILE| wc -l) # To process multiple certificates with keytool, you need to extract each one from the PEM file and import it into the Java KeyStore. for N in $(seq 0 $(($CERTS - 1))); do ALIAS="$(basename $PEM_FILE)-$N" echo "Adding to keystore with alias:$ALIAS" cat $PEM_FILE | awk "n==$N { print }; /END CERTIFICATE/ { n++ }" | keytool -noprompt -import -trustcacerts \ -alias $ALIAS -keystore $KEYSTORE -storepass $PASSWORD done echo "export REQUESTS_CA_BUNDLE=/etc/ssl/certs/ca-certificates.crt" >> /databricks/spark/conf/spark-env.sh echo "export SSL_CERT_FILE=/etc/ssl/certs/ca-certificates.crt" >> /databricks/spark/conf/spark-env.sh #echo "volume IP URL of the bucket >> /etc/hostsUżyj interfejsu wiersza poleceń Databricks lub interfejsu użytkownika Databricks, aby przesłać skrypt powłoki bash do systemu plików Databricks (DBFS). Aby uzyskać więcej informacji, zobacz Praca z plikami w usłudze Azure Databricks.
Konfigurowanie klastra
Przejdź do obszaru roboczego usługi Azure Databricks. Otwórz ustawienia konfiguracji klastra.
W sekcji Opcje zaawansowane dodaj ścieżkę do skryptu inicjowania w obszarze Skrypty inicjowania. Przykład:
dbfs:/path/to/your/script.shWybierz skrypt init.sh. Wybierz pozycję Dodaj , a następnie potwierdź.
Aby zastosować zmiany i załadować certyfikat SSL, uruchom ponownie klaster.
W dziennikach sprawdź, czy certyfikat został poprawnie umieszczony.
Łączenie z zasobnikiem usługi Azure NetApp Files
Usługa Databricks zaleca używanie zakresów tajnych do przechowywania wszystkich danych uwierzytelniających. Aby uzyskać więcej informacji, zobacz Zarządzanie zakresami tajnych.
W notesie usługi Databricks skonfiguruj sesję platformy Spark, aby nawiązać połączenie z zasobnikiem usługi Azure NetApp Files. Przykład:
spark.conf.set("fs.s3a.endpoint", "https://your-s3-endpoint") spark.conf.set("fs.s3a.access.key", "your-access-key") spark.conf.set("fs.s3a.secret.key", "your-secret-key") spark.conf.set("fs.s3a.connection.ssl.enabled", "true")Sprawdź połączenie, wykonując prostą operację odczytu. Przykład:
df = spark.read.csv("s3a://your-bucket/path/to/data.csv") df.show()