Nawiązywanie połączenia z usługą Databricks przy użyciu tunelu SSH

Ważne

Ta funkcja jest dostępna w wersji beta.

Tunel SSH udostępniany przez usługę Databricks umożliwia dostęp do obszaru roboczego i interakcyjne uruchamianie obciążeń na obliczeniach usługi Databricks z środowisk IDE przy użyciu tunelu SSH. Łatwo skonfigurować, wyeliminować potrzebę zarządzania środowiskiem i zapewnić bezpieczeństwo całego kodu i danych w obszarze roboczym usługi Databricks.

Requirements

Aby używać tunelu SSH do łączenia się z bezserwerowymi lub klasycznymi zasobami obliczeniowymi Databricks, musisz mieć następujące elementy:

Interfejs wiersza polecenia usługi Databricks w wersji 1.5.0 lub nowszej zainstalowany na komputerze lokalnym oraz ze skonfigurowanym uwierzytelnianiem. Zobacz Instalowanie lub aktualizowanie interfejsu wiersza poleceń Databricks.
Dowolny z następujących elementów:
- Visual Studio Code w wersji 1.110.0 (Universal) lub nowszej oraz zainstalowane rozszerzenie Remote - SSH (1.0.46 lub nowsze).
- Wersja kursora: 2.6.11 (uniwersalna) lub nowsza.

Aby nawiązać połączenie z bezserwerowym procesorem GPU, należy włączyć funkcję środowiska uruchomieniowego sztucznej inteligencji. Zobacz AI runtime.

Aby połączyć się z klasycznym środowiskiem obliczeniowym (dedykowanym, dla jednego użytkownika):

Środowisko obliczeniowe musi być uruchomione w środowisku Databricks Runtime 17.0 lub nowszym. Zobacz Omówienie dedykowanego środowiska obliczeniowego.
Katalog Unity musi być włączony.
Jeśli istnieją zasady obliczeniowe, nie mogą uniemożliwiać wykonywania zadań.
Podczas korzystania z Databricks Container Services dla dedykowanych zasobów obliczeniowych obraz Docker musi mieć zainstalowany składnik openssh-server.

Nawiązywanie połączenia z bezserwerową usługą obliczeniową

Aby nawiązać połączenie z bezserwerowym środowiskiem obliczeniowym, uruchom databricks ssh connect polecenie z poziomu terminalu w środowisku IDE. Nie jest wymagany żaden oddzielny krok konfiguracji.

Aby uzyskać więcej informacji na temat databricks ssh connect polecenia, zobacz ssh grupa poleceń.

databricks ssh connect

Użyj opcji --accelerator, aby połączyć się z AI Runtime:

databricks ssh connect --accelerator=GPU_1xA10

databricks ssh connect zapewnia interaktywną sesję na jednym węźle. W przypadku długotrwałych zadań szkoleniowych lub rozproszonego szkolenia wielowęzłowego zamiast tego prześlij zadanie za pomocą interfejsu wiersza polecenia air. Zobacz Interfejs wiersza polecenia środowiska uruchomieniowego AI.

Po nawiązaniu połączenia zakończ konfigurowanie środowiska projektowego. Zobacz Otwieranie projektów.

Aby połączyć się z zasobami bezserwerowymi i rozpocząć sesję w Visual Studio Code lub Cursor, użyj opcji --ide. CLI otwiera okno IDE w folderze głównego obszaru roboczego.

databricks ssh connect --ide=vscode

Połącz z klasycznymi zasobami obliczeniowymi

Aby nawiązać połączenie z klasycznymi obliczeniami, najpierw skonfiguruj połączenie SSH, a następnie połącz się przy użyciu środowiska IDE lub z terminalu.

Konfigurowanie połączenia SSH

Uwaga / Notatka

Skonfigurowanie połączenia SSH jest wymagane tylko w przypadku nawiązywania połączenia z klasycznymi obliczeniami.

Najpierw skonfiguruj tunel SSH przy użyciu komendy databricks ssh setup. Podaj nazwę połączenia, na przykład zastąp ciąg <connection-name> ciągiem my-connection:

databricks ssh setup --name <connection-name>

Interfejs wiersza polecenia monituje o wybranie klastra. Możesz również określić jeden bezpośrednio za pomocą polecenia --cluster <cluster-id>:

databricks ssh setup --name <connection-name> --cluster <cluster-id>

Uwaga / Notatka

W przypadku użytkowników środowiska IntelliJ usługa Databricks zaleca dodanie --auto-start-cluster=false do polecenia konfiguracji i ręczne uruchomienie klastra przed nawiązaniem połączenia. Dzieje się tak, ponieważ środowiska IDE JetBrains uruchamiają wszystkie skonfigurowane klastry podczas uruchamiania, co może spowodować nieoczekiwane opłaty za obliczenia.

Nawiązywanie połączenia przy użyciu programu Visual Studio Code lub kursora

W przypadku programu Visual Studio Code zainstaluj rozszerzenie Remote SSH. Kursor domyślnie zawiera zdalne rozszerzenie SSH.
W menu głównym środowiska IDE kliknij pozycję Wyświetl>paletę poleceń. Wybierz pozycję Remote-SSH: Settings (Zdalne połączenie SSH: ustawienia). Alternatywnie wybierz pozycję Preferencje: Otwórz ustawienia użytkownika (JSON), aby zmodyfikować settings.json je bezpośrednio.
W sekcji Remote.SSH: Domyślne rozszerzenia (lub remote.SSH.defaultExtensions w systemie settings.json) dodaj ms-Python.Python i ms-toolsai.jupyter.

W przypadku modyfikowania settings.jsonelementu :
```
"remote.SSH.defaultExtensions": [
    "ms-Python.Python",
    "ms-toolsai.jupyter"
]
```
Uwaga / Notatka

Opcjonalnie zwiększ wartość Remote.SSH: Limit czasu połączenia (lub remote.SSH.connectTimeout in settings.json), aby jeszcze bardziej zmniejszyć prawdopodobieństwo wystąpienia błędów przekroczenia limitu czasu. Domyślny limit czasu to 360.
W palecie poleceń wybierz pozycję Remote-SSH: Połącz z hostem.
Z menu rozwijanego wybierz połączenie skonfigurowane w pierwszym kroku. Środowisko IDE przechodzi do nawiązywania połączenia w nowym oknie.

Nawiązywanie połączenia przy użyciu środowiska IDE IntelliJ

Postępuj zgodnie z samouczkiem dotyczącym serwera zdalnego, aby się przygotować.
Na ekranie nowego połączenia wprowadź:
- Nazwa użytkownika: root
- Host: <connection-name>

Nawiązywanie połączenia przy użyciu terminalu

ssh <connection-name>

Otwieranie projektów

Domyślnie polecenie databricks ssh connect jest otwierane w katalogu tymczasowym. Aby uzyskać dostęp do plików obszaru roboczego, przejdź do katalogu obszaru roboczego z poziomu środowiska IDE lub terminalu:

W Visual Studio Code lub Cursor, z poziomu Palety poleceń (Cmd/Ctrl+Shift+P) wybierz Otwórz folder i przejdź do /Workspace/Users/<your-username>.
W oknie terminalu zmień katalog: cd /Workspace/Users/<your-username>.

Uwaga / Notatka

Pliki w systemach /Workspace, /Volumesi /dbfs są utrwalane podczas ponownego uruchamiania klastra. Pliki w /home, /root i innych lokalnych ścieżkach są tymczasowe i zostaną utracone po ponownym uruchomieniu.

Uruchom kod ( Visual Studio Code lub Cursor)

Aby uruchomić kod przy użyciu tunelu SSH, należy skonfigurować środowisko wirtualne usługi Databricks. To środowisko obejmuje wszystkie wbudowane biblioteki DBR i biblioteki o zakresie działania obliczeniowego.

Otwórz paletę poleceń (Cmd/Ctrl+Shift+P) i wybierz pozycję Python: Wybierz interpreter.
pythonEnv-xxx Wybierz środowisko wirtualne z listy. Jeśli skonfigurujesz zależności Pythona przy użyciu flagi --base-environment, wybierz dłuższą nazwę środowiska wirtualnego z listy opcji. Jeśli środowisko wirtualne nie jest wyświetlane:
1. Uruchom polecenie echo $DATABRICKS_VIRTUAL_ENV z poziomu terminalu w środowisku IDE.
  
  Przykładowe dane wyjściowe: /local_disk0/.ephemeral_nfs/envs/pythonEnv-xxx/bin/python
2. Wklej całe dane wyjściowe jako ścieżkę interpretera w monicie Python: Select Interpreter.
Otwórz nowy terminal, a środowisko wirtualne powinno zostać automatycznie aktywowane.
Aby uruchomić notes Jupyter, upewnij się, że środowisko wirtualne zostało wybrane jako jądro. Kliknij Wybierz jądro w prawym górnym rogu notatnika.

Uruchamiaj i debuguj pliki Pythona i notatniki .ipynb za pomocą standardowych rozszerzeń Python i Jupyter.

Aby użyć platformy Spark w pliku Python w obliczeniach bezserwerowych, zainicjuj sesję jawnie:

from databricks.connect import DatabricksSession
spark = DatabricksSession.builder.serverless().profile("DEFAULT").getOrCreate()

Zarządzanie zależnościami

Zarządzaj zależnościami za pomocą bazowego środowiska obszaru roboczego, bibliotek klastra, skryptów inicjowania lub notatników, w zależności od typu używanych zasobów obliczeniowych i wymagań.

Środowiska podstawowe obszaru roboczego (zalecane dla środowiska uruchomieniowego bezserwerowego i środowiska uruchomieniowego sztucznej inteligencji)

Uwaga / Notatka

Ta funkcja wymaga włączenia obsługi bezserwerowego środowiska podstawowego obszaru roboczego w wersji zapoznawczej zadań. Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Aby wstępnie skonfigurować zależności Python, użyj środowiska podstawowego obszaru roboczego z bezserwerowym środowiskiem w wersji 4 lub nowszej. Utwórz środowisko bazowe przy użyciu interfejsu użytkownika workspace lub polecenia interfejsu wiersza polecenia Databricks databricks environments create-workspace-base-environment.

Określ środowisko za pomocą opcji --base-environment podczas nawiązywania połączenia:

databricks ssh connect --base-environment my-workspace-env

Aby uzyskać więcej informacji na temat akceptowanych formatów, zobacz databricks ssh connect.

Biblioteki klastrów (zalecane w przypadku obliczeń klasycznych)

Zainstaluj zależności przy użyciu interfejsu użytkownika obszaru roboczego w obszarze Biblioteki obliczeniowe>. Te funkcje są utrwalane podczas ponownego uruchamiania klastra i są dostępne w programie pythonEnv-xxx. Zobacz Biblioteki klastrów.

Zależności inne niż Python

Aby zachować zależności inne niż Python, użyj skryptu init, który instaluje pakiety podczas uruchamiania obliczeń. Opcjonalnie pakiety można przechowywać w wolumenie Unity Catalog i odwoływać się do nich ze skryptu init. Zobacz Czym są skrypty init?.

konfiguracja notesu specyficznego dla Project

W przypadku zależności o zakresie projektu, na początku każdej sesji uruchom notatnik zawierający polecenia %pip install.

# Install from pyproject.toml
%pip install .

# Install from a requirements file
%pip install -r requirements.txt

# Install a wheel from Volumes or Workspace
%pip install /Volumes/catalog/schema/volume/your_library.whl

%pip Polecenia obejmują zabezpieczenia specyficzne dla platformy Databricks i propagują zależności do węzłów executorów platformy Spark. Umożliwia to korzystanie z funkcji zdefiniowanych przez użytkownika (UDF) z niestandardowymi zależnościami.

Aby uzyskać więcej przykładów, zobacz Zarządzanie bibliotekami za pomocą %pip poleceń.

Nie trzeba ponownie uruchamiać notesu, jeśli sesja zostanie ponownie nawiązana w ciągu 10 minut. Można to skonfigurować za pomocą -shutdown-delay w konfiguracji SSH.

Uwaga / Notatka

Wiele sesji SSH w tym samym klastrze współużytkuje jedno środowisko wirtualne.

Korzystanie z usługi Git

Uwaga / Notatka

Ta funkcja wymaga włączenia obsługi interfejsu wiersza polecenia usługi Git dla folderów Git w wersji zapoznawczej. Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

W tunelu SSH możesz używać klienta Git z wiersza polecenia z nowo utworzonymi folderami Git oraz poświadczeniami Git skonfigurowanymi w obszarze roboczym Databricks. Zobacz Używanie poleceń Git CLI.

Jeśli interfejs wiersza polecenia wyświetli monit o podanie poświadczeń zamiast automatycznie je odebrać, musisz połączyć dostawcę usługi Git z usługą Databricks. Zobacz Łączenie dostawcy usługi Git z usługą Databricks.

Ograniczenia

Tunel SSH udostępniany przez usługę Databricks ma następujące ograniczenia:

Udostępnione klastry nie są obsługiwane.
Rozszerzenie usługi Databricks dla programu Visual Studio Code i tunel SSH nie są jeszcze zgodne i nie powinny być używane razem.
Pliki edytowane poza /Workspace, /Volumes i /dbfs zostaną utracone w momencie ponownego uruchomienia klastra.
Dozwolone jest maksymalnie 10 połączeń SSH na klaster.
Nieaktywne sesje mogą zostać rozłączone po 1 godzinie.
Nie można uruchomić tunelu SSH z innych środowisk zdalnych ani kontenerów platformy Docker.
Problemy z wydajnością lub połączeniem mogą wystąpić, gdy co najmniej trzy notesy Jupyter są otwarte jednocześnie. To ograniczenie zostanie rozwiązane w przyszłej wersji.

Różnice w notesach usługi Databricks

Podczas korzystania z tunelu SSH istnieją pewne różnice w laptopach:

Pliki języka Python nie definiują żadnych globalnych zmiennych Databricks (takich jak spark lub dbutils). Należy je jawnie zaimportować za pomocą polecenia from databricks.sdk.runtime import spark.
W przypadku notesów ipynb dostępne są następujące funkcje:
- Globals usługi Databricks: display, displayHTML, dbutils, table, sql, udf, getArgument, sc, sqlContext, spark
- %sql magiczne polecenie do uruchamiania komórek SQL

Aby pracować z notatnikami źródłowymi Pythona:

Wyszukaj jupyter.interactiveWindow.cellMarker.codeRegex i ustaw na:

^# COMMAND ----------|^# Databricks notebook source|^(#\\s*%%|#\\s*\\<codecell\\>|#\\s*In\\[\\d*?\\]|#\\s*In\\[ \\])

Wyszukaj jupyter.interactiveWindow.cellMarker.default i ustaw na:
```
# COMMAND ----------
```

Rozwiązywanie problemów

Ta sekcja zawiera informacje dotyczące rozwiązywania typowych problemów.

Połączenie SSH kończy się niepowodzeniem lub przekroczono limit czasu

Sprawdź, czy klaster jest uruchomiony w interfejsie użytkownika obszaru roboczego.
Sprawdź, czy port wychodzący 22 jest otwarty i dozwolony na laptopie, sieci i sieci VPN.
Zwiększ limit czasu protokołu SSH. Zobacz Nawiązywanie połączenia przy użyciu programu Visual Studio Code lub kursora.
W przypadku błędów niezgodności klucza usuń ~/.databricks/ssh-tunnel-keys i ponownie uruchom databricks ssh setup.
W przypadku błędów "identyfikacja hosta zdalnego uległa zmianie" sprawdź plik ~/.ssh/known_hosts i usuń wpisy związane z Twoim klastrem.
Sesje SSH mogą spaść po 1 godzinie i nie więcej niż 10 połączeń SSH można nawiązać z jednym klastrem. Zobacz Ograniczenia.

Nie znaleziono polecenia `code`

Jeśli widzisz Error: exec: "code": executable file not found in $PATH, otwórz Paletę poleceń (Cmd/Ctrl+Shift+P), wybierz Shell Command: Install 'code' command in PATH i ponownie uruchom IDE lub sesję terminala.

Błędy uwierzytelniania CLI

Upewnij się, że profil interfejsu wiersza polecenia usługi Databricks jest prawidłowy przy użyciu polecenia databricks auth login.
Upewnij się, że masz CAN MANAGE uprawnienia do zarządzania klastrem.

Mój kod nie działa

Upewnij się, że skonfigurowałeś środowisko wirtualne Databricks, zobacz Uruchom kod (Visual Studio Code lub Cursor)
Notesy IPYNB i *.py notatniki Databricks mają dostęp do zasobów globalnych Databricks, ale nie mają go pliki Python *.py. Zobacz Różnice w notesach usługi Databricks.

Pliki znikają lub środowisko zostaje zresetowane po ponownym uruchomieniu klastra.

Pliki w punktach montowania /Workspace, /Volumes i /dbfs pozostają trwałe podczas ponownego uruchamiania klastra. Pliki w /home, /root i innych lokalnych ścieżkach są tymczasowe i zostaną utracone po ponownym uruchomieniu.
Użyj zarządzania bibliotekami klastrów do zarządzania stałymi zależnościami. W razie potrzeby zautomatyzuj ponowne instalowanie za pomocą skryptów inicjowania. Zobacz Czym są skrypty init?.

Instalacja protokołu SSH kończy się niepowodzeniem w Windows (WSL)

Uruchom databricks ssh setup bezpośrednio na Windows, a nie w środowisku WSL. Instancja Visual Studio Code w systemie Windows nie może znaleźć konfiguracji SSH utworzonych po stronie WSL.

Często zadawane pytania

Czym różni się tunel SSH od usługi Databricks Connect?

Usługa Databricks Connect umożliwia pisanie kodu przy użyciu interfejsów API platformy Spark i zdalne uruchamianie ich w obliczeniach usługi Databricks zamiast w lokalnej sesji platformy Spark. Rozszerzenie databricks Visual Studio Code używa usługi Databricks Connect w celu zapewnienia wbudowanego debugowania kodu użytkownika w usłudze Databricks.

Tunel SSH umożliwia dostęp do obszaru roboczego ze środowiska IDE i przenosi całe środowisko programistyczne na warstwę obliczeniową — Python, jądro i całe wykonywanie odbywają się w usłudze Databricks z pełnym dostępem do zasobów obliczeniowych.

Jak jest zabezpieczony mój kod i dane?

Cały kod jest uruchamiany w chmurze VPC Databricks. Żadne dane ani kod nie opuszcza bezpiecznego środowiska. Ruch SSH jest w pełni zaszyfrowany.

Które środowiska IDE są obsługiwane?

Visual Studio Code i kursor są oficjalnie obsługiwane. Każde środowisko IDE z funkcjami SSH jest zgodne, ale testowane są tylko program VS Code i kursor.

Czy wszystkie funkcje notesu Databricks są dostępne w środowisku IDE?

Niektóre funkcje, takie jak display(), dbutilsi %sql , są dostępne z ograniczeniami lub ręczną konfiguracją. Zobacz Różnice w notesach usługi Databricks.

Czy mój klaster zostanie uruchomiony automatycznie po nawiązaniu połączenia przy użyciu tunelu SSH?

Tak, ale jeśli uruchomienie klastra trwa dłużej niż przekroczenie limitu czasu połączenia, próba połączenia zakończy się niepowodzeniem. Aby temu zapobiec, zwiększ wartość remote.SSH: Limit czasu połączenia z palety poleceń (lub remote.SSH.connectTimeout in settings.json), aby jeszcze bardziej zmniejszyć prawdopodobieństwo błędów przekroczenia limitu czasu.

Jak sprawdzić, czy mój klaster jest uruchomiony?

Przejdź do obszaru obliczeniowego w interfejsie użytkownika obszaru roboczego usługi Databricks i sprawdź stan klastra. Klaster musi pokazywać stan Działa, aby połączenie SSH działało.

Jak rozłączyć sesję SSH/IDE?

Sesję można rozłączyć, zamykając okno ide, używając opcji Rozłącz w środowisku IDE, zamykając terminal SSH lub uruchamiając exit polecenie w terminalu.

Jak zatrzymać klaster i uniknąć opłat, gdy nie pracuję?

Aby zatrzymać się natychmiast, zakończ działanie klastra z poziomu interfejsu użytkownika obszaru roboczego. Przejdź do Compute w interfejsie użytkownika obszaru roboczego usługi Databricks, znajdź klaster i kliknij Zakończ lub Zatrzymaj.

Ustaw krótką politykę automatycznego zakończenia dla klastra z poziomu interfejsu użytkownika obszaru roboczego. Po rozłączeniu serwer SSH czeka przez okres shutdown-delay (wartość domyślna: 10 minut), a następnie stosowany jest limit czasu bezczynności klastra.

Jak obsługiwać trwałe zależności?

Zależności zainstalowane podczas sesji zostaną utracone po ponownym uruchomieniu klastra. Użyj magazynu trwałego (/Workspace/Users/<your-username>) dla wymagań i skryptów konfiguracji. Użyj bibliotek klastra lub skryptów inicjowania na potrzeby automatyzacji.

Jakie metody uwierzytelniania są obsługiwane?

Uwierzytelnianie używa interfejsu wiersza polecenia (CLI) usługi Databricks i pliku profilów ~/.databrickscfg. Klucze SSH są obsługiwane przez tunel SSH.

Czy mogę nawiązać połączenie z zewnętrznymi bazami danych lub usługami z klastra?

Tak, o ile sieć klastra zezwala na połączenia wychodzące i masz niezbędne biblioteki.

Czy można używać dodatkowych rozszerzeń IDE?

Większość rozszerzeń działa w przypadku instalacji w ramach zdalnej sesji SSH, w zależności od środowiska IDE i klastra. Program Visual Studio Code domyślnie nie instaluje rozszerzeń lokalnych na hostach zdalnych. Można je zainstalować ręcznie, otwierając panel rozszerzeń i włączając rozszerzenia lokalne na hoście zdalnym. Można również skonfigurować program Visual Studio Code, aby zawsze zdalnie instalować pewne rozszerzenia. Zobacz Nawiązywanie połączenia z usługą Databricks.

Czy tunel SSH obsługuje Private Link?

Tak, jednak administratorzy przestrzeni roboczej muszą dodać do listy dozwolonych adresy URL sklepów z rozszerzeniami Visual Studio Code i Cursor. Komputer lokalny musi mieć również możliwość uzyskiwania dostępu do Internetu.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-07-23

Nawiązywanie połączenia z usługą Databricks przy użyciu tunelu SSH

Requirements

Nawiązywanie połączenia z bezserwerową usługą obliczeniową

Połącz z klasycznymi zasobami obliczeniowymi

Konfigurowanie połączenia SSH

Nawiązywanie połączenia przy użyciu programu Visual Studio Code lub kursora

Nawiązywanie połączenia przy użyciu środowiska IDE IntelliJ

Nawiązywanie połączenia przy użyciu terminalu

Otwieranie projektów

Uruchom kod ( Visual Studio Code lub Cursor)

Zarządzanie zależnościami

Środowiska podstawowe obszaru roboczego (zalecane dla środowiska uruchomieniowego bezserwerowego i środowiska uruchomieniowego sztucznej inteligencji)

Biblioteki klastrów (zalecane w przypadku obliczeń klasycznych)

Zależności inne niż Python

konfiguracja notesu specyficznego dla Project

Korzystanie z usługi Git

Ograniczenia

Różnice w notesach usługi Databricks

Rozwiązywanie problemów

Połączenie SSH kończy się niepowodzeniem lub przekroczono limit czasu

Nie znaleziono polecenia code

Błędy uwierzytelniania CLI

Mój kod nie działa

Pliki znikają lub środowisko zostaje zresetowane po ponownym uruchomieniu klastra.

Instalacja protokołu SSH kończy się niepowodzeniem w Windows (WSL)

Często zadawane pytania

Czym różni się tunel SSH od usługi Databricks Connect?

Jak jest zabezpieczony mój kod i dane?

Które środowiska IDE są obsługiwane?

Czy wszystkie funkcje notesu Databricks są dostępne w środowisku IDE?

Czy mój klaster zostanie uruchomiony automatycznie po nawiązaniu połączenia przy użyciu tunelu SSH?

Jak sprawdzić, czy mój klaster jest uruchomiony?

Jak rozłączyć sesję SSH/IDE?

Jak zatrzymać klaster i uniknąć opłat, gdy nie pracuję?

Jak obsługiwać trwałe zależności?

Jakie metody uwierzytelniania są obsługiwane?

Czy mogę nawiązać połączenie z zewnętrznymi bazami danych lub usługami z klastra?

Czy można używać dodatkowych rozszerzeń IDE?

Czy tunel SSH obsługuje Private Link?

Opinia

Dodatkowe zasoby

Nie znaleziono polecenia `code`