Udostępnij przez


pipelines grupa poleceń

Note

Te informacje dotyczą interfejsu wiersza polecenia usługi Databricks w wersji 0.205 lub nowszej. Interfejs CLI Databricks jest w publicznej wersji testowej.

Korzystanie z interfejsu wiersza polecenia usługi Databricks podlega licencjom usługi Databricks i powiadomieniom o ochronie prywatności usługi Databricks, w tym wszelkim przepisom dotyczącym danych użycia.

Grupa pipelines poleceń w interfejsie wiersza polecenia usługi Databricks zawiera dwa zestawy funkcji. Pierwszy zestaw umożliwia zarządzanie projektem potoku i jego przepływem pracy. Drugi zestaw umożliwia tworzenie, edytowanie, usuwanie, uruchamianie i wyświetlanie szczegółów dotyczących obiektów pipeline'u na platformie Databricks.

Aby uzyskać informacje o potokach, zobacz Lakeflow Spark Deklaratywne potoki.

Zarządzanie projektami typu pipeline

Następujące polecenia umożliwiają zarządzanie pipeline'ami w projektach. Projekt potoków to pakiet, który może zawierać co najmniej jeden obiekt potoku.

Wdrażanie pipeline'ów Databricks

Wdrażaj potoki, przekazując wszystkie pliki określone w projekcie do docelowego obszaru roboczego i tworząc lub aktualizując potoki zdefiniowane w tym obszarze roboczym.

Ważne

Aby uruchomić to polecenie, plik pakietu databricks.yml zasobów usługi Databricks musi znajdować się w katalogu głównym katalogu projektu. Aby zapoznać się z samouczkiem, który tworzy projekt potoku, a następnie wdraża i uruchamia potok, zobacz Develop Lakeflow Spark Deklaratative Pipelines with Databricks Asset Bundles (Opracowywanie potoków deklaratywnych platformy Spark w usłudze Lakeflow za pomocą pakietów zasobów usługi Databricks).

databricks pipelines deploy [flags]

Arguments

None

Opcje

--auto-approve

    Pomiń interaktywne zatwierdzenia, które mogą być wymagane do wdrożenia

--fail-on-active-runs

    Niepowodzenie, jeśli w wdrożeniu są uruchomione potoki

--force-lock

    Wymuś przejęcie blokady wdrożenia. Ta opcja wyłącza mechanizm, który uniemożliwia współbieżną interakcję wdrożeń ze sobą. Należy go użyć tylko wtedy, gdy poprzednie wdrożenie uległo awarii lub zostało przerwane i pozostawiono nieaktualny plik blokady.

Flagi globalne

Potoki usługi databricks są niszczone

Zniszczyć projekt rurociągów.

databricks pipelines destroy [flags]

Arguments

None

Opcje

--auto-approve

    Pomijanie interakcyjnych zatwierdzeń dotyczących usuwania potoków

--force-lock

    Wymuś przejęcie blokady wdrożenia. Ta opcja wyłącza mechanizm, który uniemożliwia współbieżną interakcję wdrożeń ze sobą. Należy go użyć tylko wtedy, gdy poprzednie wdrożenie uległo awarii lub zostało przerwane i pozostawiono nieaktualny plik blokady.

Flagi globalne

testowe uruchamianie potoków Databricks

Weryfikuje prawidłowość grafu potoku zidentyfikowanego przez KEY. Nie materializuje ani nie publikuje żadnych zestawów danych.

databricks pipelines dry-run [flags] [KEY]

Arguments

KEY

    Unikatowa nazwa potoku do suchego uruchomienia zgodnie z definicją w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

Opcje

--no-wait

    Nie czekaj na ukończenie procesu

--restart

    Zrestartuj proces, jeśli jest już uruchomiony

Flagi globalne

generowanie potoków usługi databricks

Generuj konfigurację dla istniejącego potoku Spark.

Polecenie wyszukuje plik spark-pipeline.yml lub *.spark-pipeline.yml w określonym katalogu i generuje nowy plik konfiguracji *.pipeline.yml w folderze projektu resources, który definiuje potok danych. Jeśli istnieje wiele spark-pipeline.yml plików, określ pełną ścieżkę do określonego *.spark-pipeline.yml pliku.

databricks pipelines generate [flags]

Note

Aby wygenerować konfigurację dla istniejącego potoku w obszarze roboczym Databricks, zobacz polecenie databricks bundle generate pipeline oraz sekcję Generowanie konfiguracji dla istniejącego zadania lub potoku przy użyciu Databricks CLI.

Opcje

--existing-pipeline-dir

    Ścieżka do istniejącego katalogu potoku w programie src (np. src/my_pipeline).

--force

    Zastąp istniejący plik konfiguracji potoku.

Flagi globalne

Przykłady

Poniższy przykład przeszukuje bieżący katalog i odczytuje src/my_pipeline/spark-pipeline.yml, a następnie tworzy resources/my_pipeline.pipeline.yml plik konfiguracji, który definiuje potok.

databricks pipelines generate --existing-pipeline-dir src/my_pipeline

historia potoków usługi databricks

Pobierz poprzednie przebiegi dla potoku zidentyfikowanego przez KEY.

databricks pipelines history [flags] [KEY]

Arguments

KEY

    Unikatowa nazwa potoku zdefiniowana w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

Opcje

--end-time string

    Filtruj aktualizacje przed tym czasem (format: 2025-01-15T10:30:00Z)

--start-time string

    Filtruj aktualizacje po tym czasie (format: 2025-01-15T10:30:00Z)

Flagi globalne

Inicjowanie potoków usługi databricks

Zainicjuj nowy projekt pipeline'ów.

Aby zapoznać się z samouczkiem, który przeprowadzi Cię przez proces tworzenia, wdrażania i uruchamiania projektu potoku przy użyciu interfejsu wiersza polecenia usługi Databricks, zobacz Develop Lakeflow Spark Deklaratative Pipelines with Databricks Asset Bundles (Opracowywanie potoków deklaratywnych platformy Spark w usłudze Lakeflow za pomocą pakietów zasobów usługi Databricks).

databricks pipelines init [flags]

Arguments

None

Opcje

--config-file string

    Plik JSON zawierający pary klucz-wartość parametrów wejściowych wymaganych do inicjowania szablonu

--output-dir string

    Katalog do zapisania zainicjowanego szablonu

Flagi globalne

dzienniki potoków usługi databricks

Pobierz zdarzenia dla rurociągu zidentyfikowanego przez KEY. Domyślnie to polecenie wyświetla zdarzenia z najnowszej aktualizacji rurociągu.

databricks pipelines logs [flags] [KEY]

Arguments

KEY

    Unikatowa nazwa potoku zdefiniowana w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

Opcje

--end-time string

    Filtruj pod kątem zdarzeń, które znajdują się przed tym czasem zakończenia (format: 2025-01-15T10:30:00Z)

--event-type strings

    Filtrowanie zdarzeń według listy typów zdarzeń

--level strings

    Filtrowanie zdarzeń według listy poziomów dziennika (INFO, WARN, ERROR, METRICS)

-n, --number int

    Liczba zdarzeń do zwrócenia

--start-time string

    Filtruj pod kątem zdarzeń, które są po tym czasie rozpoczęcia (format: 2025-01-15T10:30:00Z)

--update-id string

    Filtruj zdarzenia według identyfikatora aktualizacji. Jeśli nie zostanie podany, użyj najnowszego identyfikatora aktualizacji

Flagi globalne

Przykłady

databricks pipelines logs pipeline-name --update-id update-1 -n 10
databricks pipelines logs pipeline-name --level ERROR,METRICS --event-type update_progress --start-time 2025-01-15T10:30:00Z

Otwarte potoki Databricks

Otwórz potok w przeglądarce zidentyfikowany przez KEY.

databricks pipelines open [flags] [KEY]

Arguments

KEY

    Unikatowa nazwa pipeline'u, który ma zostać otwarty, zdefiniowanej w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

Opcje

--force-pull

    Pomiń lokalną pamięć podręczną i załaduj stan ze zdalnego obszaru roboczego

Flagi globalne

Uruchomienie potoków Databricks

Uruchom potok zidentyfikowany przez KEY. Odświeża wszystkie tabele w procesie, chyba że określono inaczej.

Ważne

Aby uruchomić to polecenie, plik pakietu databricks.yml zasobów usługi Databricks musi znajdować się w katalogu głównym katalogu projektu, a potok musi już zostać wdrożony. Aby zapoznać się z samouczkiem, który tworzy projekt potoku, a następnie wdraża i uruchamia potok, zobacz Develop Lakeflow Spark Deklaratative Pipelines with Databricks Asset Bundles (Opracowywanie potoków deklaratywnych platformy Spark w usłudze Lakeflow za pomocą pakietów zasobów usługi Databricks).

databricks pipelines run [flags] [KEY]

Arguments

KEY

    Unikatowa nazwa potoku danych, który ma zostać uruchomiony, zgodnie z definicją w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

Opcje

--full-refresh strings

    Lista tabel do zresetowania i ponownego skompilowania

--full-refresh-all

    Wykonaj pełne resetowanie grafu i ponowne skompilowanie

--no-wait

    Nie czekaj na ukończenie procesu

--refresh strings

    Lista tabel do uruchomienia

--restart

    Zrestartuj proces, jeśli jest już uruchomiony

Flagi globalne

zatrzymywanie potoków usługi databricks

Zatrzymaj potok, jeśli jest uruchomiony, zidentyfikowany przez KEY lub PIPELINE_ID. Jeśli pipeline nie ma aktywnej aktualizacji, to żądanie jest operacją, która nic nie zmienia.

databricks pipelines stop [KEY|PIPELINE_ID] [flags]

Arguments

KEY

    Unikatowa nazwa pipeline'u do zatrzymania, jak zdefiniowano w pliku YAML. Jeśli w projekcie znajduje się tylko jeden potok, KEY jest opcjonalny i potok jest wybierany automatycznie.

PIPELINE_ID

    Identyfikator UUID potoku do zatrzymania.

Opcje

--no-wait

    nie czekaj na osiągnięcie stanu IDLE

--timeout duration

    maksymalny czas osiągnięcia stanu IDLE (domyślnie 20 ms)

Flagi globalne

Zarządzanie obiektami rurociągu

Następujące polecenia umożliwiają zarządzanie obiektami potoku w usłudze Databricks. Obiekt potoku to pojedynczy potok w projekcie.

Tworzenie potoków usługi databricks

Utwórz nowy potok przetwarzania danych na podstawie żądanej konfiguracji. Jeśli się powiedzie, to polecenie zwraca identyfikator nowego potoku.

databricks pipelines create [flags]

Arguments

None

Opcje

--json JSON

    Wbudowany ciąg JSON lub @path do pliku JSON z treścią żądania.

Flagi globalne

Usuwanie potoków usługi databricks

Usuwanie potoku.

databricks pipelines delete PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok przetwarzania do usunięcia.

Opcje

Flagi globalne

Pobieranie potoków usługi databricks

Pobieranie potoku.

databricks pipelines get PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych do uzyskania.

Opcje

Flagi globalne

potoki usługi databricks get-update

Pobierz aktualizację z aktywnego pipeline'u.

databricks pipelines get-update PIPELINE_ID UPDATE_ID [flags]

Arguments

PIPELINE_ID

    Identyfikator potoku.

UPDATE_ID

    Identyfikator aktualizacji.

Opcje

Flagi globalne

potoki usługi databricks list-pipeline-events

Pobieranie zdarzeń dla potoku.

databricks pipelines list-pipeline-events PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych do pobierania zdarzeń.

Opcje

--filter string

    Kryteria wybierania podzestawu wyników wyrażone przy użyciu składni podobnej do języka SQL.

--max-results int

    Maksymalna liczba wpisów, które mają być zwracane na jednej stronie.

--page-token string

    Token strony zwrócony przez poprzednie wywołanie.

Flagi globalne

potoki usługi databricks list-pipelines

Wyświetl listę potoków zdefiniowanych w systemie Delta Live Tables.

databricks pipelines list-pipelines [flags]

Arguments

None

Opcje

--filter string

    Wybierz podzbiór wyników na podstawie określonych kryteriów.

--max-results int

    Maksymalna liczba wpisów, które mają być zwracane na jednej stronie.

--page-token string

    Token strony zwrócony przez poprzednie wywołanie.

Flagi globalne

databricks pipelines list-updates (lista aktualizacji w potokach databricks)

Wypisz aktualizacje aktywnego potoku.

databricks pipelines list-updates PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych, dla którego mają być zwracane aktualizacje.

Opcje

--max-results int

    Maksymalna liczba wpisów, które mają być zwracane na jednej stronie.

--page-token string

    Token strony zwrócony przez poprzednie wywołanie.

--until-update-id string

    Jeśli jest dostępny, zwraca aktualizacje obejmujące ten update_id.

Flagi globalne

(databricks pipelines start-update)

Rozpocznij nową aktualizację potoku. Jeśli istnieje już aktywna aktualizacja potoku, żądanie zakończy się niepowodzeniem, a aktywna aktualizacja pozostanie uruchomiona.

databricks pipelines start-update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok do zainicjowania aktualizacji.

Opcje

--cause StartUpdateCause

    Obsługiwane wartości: [API_CALL, JOB_TASK, RETRY_ON_FAILURE, ZMIANA_SCHEMATU, AKTUALIZACJA_USŁUGI, DZIAŁANIE_UŻYTKOWNIKA]

--full-refresh

    Jeśli to prawda, ta aktualizacja spowoduje zresetowanie wszystkich tabel przed uruchomieniem.

--json JSON

    Wbudowany ciąg JSON lub @path do pliku JSON z treścią żądania.

--validate-only

    Jeśli jest to prawdą, ta aktualizacja weryfikuje jedynie poprawność kodu źródłowego potoku, ale nie generuje ani nie publikuje żadnych zestawów danych.

Flagi globalne

Aktualizacja potoków usługi databricks

Zaktualizuj pipeline przy użyciu podanej konfiguracji.

databricks pipelines update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Unikatowy identyfikator tego potoku.

Opcje

--allow-duplicate-names

    Jeśli wartość jest false, wdrożenie zakończy się niepowodzeniem, jeśli nazwa została zmieniona i powoduje konflikt z nazwą innego potoku.

--budget-policy-id string

    Polityka budżetowa tego pipeline.

--catalog string

    Katalog w Unity Catalog do publikowania danych z tego potoku.

--channel string

    Kanał dystrybucji wersji potoków deklaratywnych określający, która wersja jest używana w Lakeflow.

--continuous

    Określa, czy potok jest ciągły, czy wyzwalany.

--development

    Czy pipeline jest w trybie rozwoju.

--edition string

    Edycja produktu przepływu.

--expected-last-modified int

    Jeśli jest obecny, czas ostatniej modyfikacji ustawień potoku przed edycją.

--id string

    Unikatowy identyfikator tego potoku.

--json JSON

    Wbudowany ciąg JSON lub @path do pliku JSON z treścią żądania.

--name string

    Przyjazny identyfikator dla tego pipeline'u.

--photon

    Określa, czy dla tego kanału włączono Photon.

--pipeline-id string

    Unikatowy identyfikator tego potoku.

--schema string

    Domyślny schemat (baza danych), w którym tabele są odczytywane z lub publikowane.

--serverless

    Określa, czy dla tego potoku danych jest włączone przetwarzanie w trybie bezserwerowym.

--storage string

    Katalog główny DBFS do przechowywania punktów kontrolnych i tabel.

--target string

    Docelowy schemat (baza danych) do dodawania tabel w tej ścieżce przetwarzania.

Flagi globalne

Potoki Databricks — uzyskiwanie poziomów dostępu

Pobierz poziomy uprawnień potoku.

databricks pipelines get-permission-levels PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych, dla którego chcesz uzyskać uprawnienia lub zarządzać nimi.

Opcje

Flagi globalne

Potoki usługi databricks — uzyskiwanie uprawnień

Pobierz uprawnienia potoku. Potoki mogą dziedziczyć uprawnienia po ich obiekcie głównym.

databricks pipelines get-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych, dla którego chcesz uzyskać uprawnienia lub zarządzać nimi.

Opcje

Flagi globalne

Ustawianie uprawnień w potokach Databricks

Ustaw uprawnienia potoku.

Ustawia uprawnienia do obiektu, zastępując istniejące uprawnienia, jeśli istnieją. Usuwa wszystkie uprawnienia bezpośrednie, jeśli nie określono żadnego. Obiekty mogą dziedziczyć uprawnienia po ich obiekcie głównym.

databricks pipelines set-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych, dla którego chcesz uzyskać uprawnienia lub zarządzać nimi.

Opcje

--json JSON

    Wbudowany ciąg JSON lub @path do pliku JSON z treścią żądania.

Flagi globalne

aktualizacja uprawnień potoków databricks

Zaktualizuj uprawnienia w pipeline. Potoki mogą dziedziczyć uprawnienia po ich obiekcie głównym.

databricks pipelines update-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    Potok danych, dla którego chcesz uzyskać uprawnienia lub zarządzać nimi.

Opcje

--json JSON

    Wbudowany ciąg JSON lub @path do pliku JSON z treścią żądania.

Flagi globalne

Flagi globalne

--debug

  Czy włączyć logowanie debugowe.

-h lub --help

    Wyświetl pomoc dla Databricks CLI lub dla powiązanej grupy poleceń czy pojedynczego polecenia.

--log-file struna

    Ciąg reprezentujący plik do zapisywania dzienników wyjściowych. Jeśli ta flaga nie zostanie określona, wartością domyślną jest zapisywanie dzienników wyjściowych w programie stderr.

--log-format formatowanie

    Format typu logu text lub json. Wartość domyślna to text.

--log-level struna

    Ciąg reprezentujący poziom formatu zapisu dziennika. Jeśli nie zostanie określony, poziom formatu dziennika jest wyłączony.

-o, --output typ

    Typ danych wyjściowych polecenia: text lub json. Wartość domyślna to text.

-p, --profile struna

    Nazwa profilu pliku ~/.databrickscfg, którego użyć do uruchomienia polecenia. Jeśli ta flaga nie zostanie określona, zostanie użyty profil o nazwie DEFAULT .

--progress-format formatowanie

    Format wyświetlania dzienników postępu: default, , appendinplacelubjson

-t, --target struna

    Jeśli ma to zastosowanie, docelowy obiekt pakietu do użycia