Udostępnij przez


Azure Databricks

Usługa Azure Databricks oferuje ujednoliconą platformę do skalowalnego zarządzania danymi, zapewniania ładu i analizy, łącząc usprawnione przepływy pracy z możliwością wydajnego obsługi różnych typów danych

Ten łącznik jest dostępny w następujących produktach i regionach:

Usługa Class Regions
Copilot Studio Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Power Apps Premium Wszystkie regiony usługi Power Apps z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Power Automate - narzędzie do automatyzacji procesów Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Kontakt
Name Obsługa usługi Databricks
adres URL https://help.databricks.com
Email eng-partner-eco-help@databricks.com
Metadane łącznika
Publisher Databricks Inc.
Witryna internetowa https://www.databricks.com/
Zasady ochrony prywatności https://www.databricks.com/legal/privacynotice
Kategorie Dane

Nawiązywanie połączenia z usługą Azure Databricks z poziomu platformy Microsoft Power Platform

Na tej stronie wyjaśniono, jak nawiązać połączenie z usługą Azure Databricks z platformy Microsoft Power Platform przez dodanie usługi Azure Databricks jako połączenia danych. Po nawiązaniu połączenia możesz użyć danych usługi Azure Databricks z następujących platform:

  • Power Apps: Twórz aplikacje, które mogą odczytywać i zapisywać dane w usłudze Azure Databricks, zachowując jednocześnie mechanizmy zarządzania usługi Azure Databricks.
  • Power Automate: twórz przepływy i dodawaj akcje, które umożliwiają wykonywanie niestandardowego kodu SQL lub istniejącego zadania i uzyskiwanie wyników.
  • Copilot Studio: tworzenie agentów niestandardowych przy użyciu danych usługi Azure Databricks jako źródła wiedzy.

Zanim rozpoczniesz

Przed nawiązaniem połączenia z usługą Azure Databricks z poziomu platformy Power Platform należy spełnić następujące wymagania:

  • Masz konto microsoft Entra ID (dawniej Azure Active Directory).
  • Masz licencję usługi Power Apps w warstwie Premium.
  • Masz konto usługi Azure Databricks.
  • Masz dostęp do usługi SQL Warehouse w usłudze Azure Databricks.

Opcjonalnie: Nawiązywanie połączenia z sieciami wirtualnymi platformy Azure

Jeśli obszar roboczy usługi Azure Databricks korzysta z sieci wirtualnych, istnieją dwa sposoby nawiązywania połączenia:

  1. Integrowanie platformy Power Platform z zasobami wewnątrz sieci wirtualnej bez uwidaczniania ich za pośrednictwem publicznego Internetu. Aby nawiązać połączenie z prywatnym punktem końcowym obszaru roboczego usługi Azure Databricks, wykonaj następujące czynności po skonfigurowaniu łączności prywatnej z usługą Azure Databricks:

    Aby uzyskać więcej informacji na temat sieci wirtualnych, zobacz Omówienie obsługi sieci wirtualnych.

  2. Włącz dostęp przy użyciu wdrożenia hybrydowego, w którym prywatne połączenie front-endowe z publicznym punktem końcowym jest chronione przez listę dostępową IP Workspace'a. Aby włączyć dostęp, wykonaj następujące czynności:

    1. Włącz dostęp publiczny na poziomie obszaru roboczego. Aby uzyskać więcej informacji, zobacz Konfigurowanie list dostępu do adresów IP dla obszarów roboczych.
    2. Dodaj zakres adresów IP usługi AzureConnectors lub określony zakres adresów IP platformy Power Platform na podstawie regionu środowiska do listy dostępu do adresu IP obszaru roboczego.

Opcjonalnie: Tworzenie jednostki usługi firmy Microsoft Entra

Ważne

Jeśli usługi Azure Databricks i Power Platform znajdują się w różnych dzierżawach, musisz użyć jednostek usługi do uwierzytelniania.

Przed nawiązaniem połączenia wykonaj następujące kroki, aby utworzyć, skonfigurować i przypisać jednostkę usługi Microsoft Entra do konta lub obszaru roboczego usługi Azure Databricks:

Krok 1. Dodawanie połączenia usługi Azure Databricks z platformą Power Platform

Nuta: Jeśli używasz narzędzia Copilot Studio, zalecamy utworzenie połączenia usługi Databricks w usłudze Power Apps lub Power Automate. Następnie można go użyć w Copilot Studio.

Aby dodać połączenie usługi Azure Databricks, wykonaj następujące czynności:

  1. Na pasku bocznym usługi Power Apps lub Power Automate kliknij pozycję Połączenia.

  2. Kliknij pozycję + Nowe połączenie w lewym górnym rogu.

  3. Wyszukaj ciąg "Azure Databricks" przy użyciu paska wyszukiwania w prawym górnym rogu.

  4. Wybierz kafelek Azure Databricks .

  5. Wybierz typ uwierzytelniania z menu rozwijanego.

  6. Wybierz metodę uwierzytelniania i wprowadź informacje o uwierzytelnianiu.

    • Jeśli wdrożenie platformy Power Platform i konto usługi Azure Databricks znajdują się w tej samej dzierżawie Microsoft Entra, wtedy możesz użyć połączenia OAuth. Wprowadź następujące informacje:

      • W polu Nazwa hosta serwera wprowadź nazwę hosta usługi Azure Databricks SQL Warehouse.
      • W polu Ścieżka HTTP wprowadź ścieżkę HTTP magazynu SQL.
      • Kliknij pozycję Utwórz.
      • Zaloguj się przy użyciu identyfikatora Entra firmy Microsoft.
    • Połączenie Service Principal może być używane w dowolnym scenariuszu. Przed nawiązaniem połączenia utwórz jednostkę usługi Microsoft Entra. Wprowadź następujące informacje:

      • W polu Identyfikator klienta wprowadź identyfikator jednostki usługi.
      • W polu Klucz tajny klienta wprowadź klucz tajny jednostki usługi.
      • W polu Dzierżawa wprowadź dzierżawę główną jednostki usługi.
      • W polu Nazwa hosta wprowadź nazwę hosta usługi Azure Databricks SQL Warehouse.
      • W polu Ścieżka HTTP wprowadź ścieżkę HTTP magazynu SQL.
      • (Opcjonalnie) Możesz zmienić nazwę lub udostępnić główne połączenie usługi członkom zespołu po utworzeniu połączenia.
    • Aby znaleźć szczegóły połączenia usługi Azure Databricks SQL Warehouse, zobacz Pobieranie szczegółów połączenia dla zasobu obliczeniowego usługi Azure Databricks.

  7. Kliknij pozycję Utwórz.

Krok 2. Korzystanie z połączenia usługi Azure Databricks

Po utworzeniu połączenia Azure Databricks w Power Apps lub Power Automate, możesz użyć danych Azure Databricks do tworzenia aplikacji płócien Power, przepływów Power Automate i agentów Copilot Studio.

Tworzenie aplikacji kanwy usługi Power za pomocą danych usługi Azure Databricks

Ważne

Aplikacje Canvas można używać tylko wtedy, gdy aplikacja bezpośrednio łączy się z usługą Azure Databricks. Nie można używać tabel wirtualnych.

Aby dodać dane usługi Azure Databricks do aplikacji, wykonaj następujące czynności:

  1. Na lewym pasku nawigacyjnym kliknij pozycję Utwórz.
  2. Kliknij przycisk Rozpocznij od pustej kanwy i wybierz żądany rozmiar kanwy, aby utworzyć nową aplikację kanwy.
  3. W aplikacji kliknij pozycję Dodajłączniki>danych>w usłudze Azure Databricks. Wybierz utworzone połączenie usługi Azure Databricks.
  4. Wybierz katalog z paska bocznego „Wybierz zestaw danych”.
  5. Na pasku bocznym Wybierz zestaw danych wybierz wszystkie tabele, z którymi chcesz połączyć aplikację kanwy.
  6. Kliknij Połącz.

Operacje na danych w usłudze Power Apps:

Łącznik obsługuje operacje tworzenia, aktualizowania i usuwania, ale tylko w przypadku tabel, które mają zdefiniowany klucz podstawowy. Podczas wykonywania operacji tworzenia należy zawsze określić klucz podstawowy.

Nuta: Usługa Azure Databricks obsługuje wygenerowane kolumny tożsamości. W takim przypadku wartości klucza podstawowego są generowane automatycznie na serwerze podczas tworzenia wierszy i nie można ich określić ręcznie.

Tworzenie przepływów usługi Power Automate przy użyciu danych usługi Azure Databricks

Interfejs API wykonywania instrukcji i interfejs API zadań są udostępniane w usłudze Power Automate, co umożliwia pisanie instrukcji SQL i wykonywanie istniejących zadań. Aby utworzyć przepływ usługi Power Automate przy użyciu usługi Azure Databricks jako akcji, wykonaj następujące czynności:

  1. Na lewym pasku nawigacyjnym kliknij pozycję Utwórz.
  2. Utwórz przepływ i dodaj dowolny typ wyzwalacza.
  3. W nowym przepływie kliknij + i wyszukaj ciąg "Databricks" , aby wyświetlić dostępne akcje.

Aby napisać kod SQL, wybierz jedną z następujących akcji:

  • Wykonaj instrukcję SQL: napisz i uruchom instrukcję SQL. Wprowadź następujące informacje:

    • W polu Treść/warehouse_id wprowadź identyfikator magazynu, na którym ma zostać wykonana instrukcja SQL.
    • W polu Treść/statement_id wprowadź identyfikator instrukcji SQL do wykonania.
    • Aby uzyskać więcej informacji na temat parametrów zaawansowanych, zobacz tutaj.
  • Sprawdź stan i uzyskaj wyniki: sprawdź stan instrukcji SQL i zbierz wyniki. Wprowadź następujące informacje:

    • W polu Identyfikator instrukcji wprowadź identyfikator zwrócony po wykonaniu instrukcji SQL.
    • Aby uzyskać więcej informacji na temat parametru, zobacz tutaj.
  • Anuluj wykonywanie instrukcji: Kończenie wykonywania instrukcji SQL. Wprowadź następujące informacje:

    • W polu Identyfikator instrukcji wprowadź identyfikator instrukcji SQL, która ma zostać zakończona.
    • Aby uzyskać więcej informacji na temat parametru, zobacz tutaj.
  • Uzyskaj wynik według indeksu fragmentów: pobierz wyniki według indeksu fragmentów, który jest odpowiedni dla dużych zestawów wyników. Wprowadź następujące informacje:

    • W polu Identyfikator instrukcji wprowadź identyfikator instrukcji SQL, której wyniki chcesz pobrać.
    • W polu Indeks fragmentów wprowadź docelowy indeks fragmentów.
    • Aby uzyskać więcej informacji na temat parametrów, zobacz tutaj.

Aby wchodzić w interakcję z istniejącym zadaniem usługi Databricks, wybierz jedną z następujących akcji:

  • Zadania listy: pobiera listę zadań. Aby uzyskać więcej informacji, zobacz tutaj.
  • Wyzwalanie nowego uruchomienia zadania: uruchamia zadanie i zwraca run_id wyzwolonego przebiegu. Aby uzyskać więcej informacji, zobacz tutaj.
  • Pobieranie pojedynczego uruchomienia zadania: zwraca metadane dotyczące przebiegu, w tym stan uruchomienia (np. RUNNING, SUCCESS, FAILED), godzina rozpoczęcia i zakończenia, czas wykonywania, informacje o klastrze itp. Aby uzyskać więcej informacji, zobacz tutaj.
  • Anulowanie uruchomienia zadania: anuluje uruchomienie zadania lub uruchomienie zadania. Więcej informacji można znaleźć tutaj.
  • Pobierz dane wyjściowe dla pojedynczego uruchomienia zadania: pobiera dane wyjściowe i metadane pojedynczego uruchomienia zadania. Więcej informacji można znaleźć tutaj.

Korzystanie z usługi Azure Databricks jako źródła wiedzy w aplikacji Copilot Studio

Aby dodać dane usługi Azure Databricks jako źródło wiedzy do agenta programu Copilot Studio, wykonaj następujące czynności:

  1. Na pasku bocznym kliknij pozycję Agent.
  2. Wybierz istniejącego agenta lub utwórz nowego agenta, klikając pozycję + Nowy agent.
    • Opisz agenta, wpisując komunikat, a następnie kliknij przycisk Utwórz.
    • Możesz też kliknąć przycisk Pomiń , aby ręcznie określić informacje agenta.
  3. Na karcie Wiedza kliknij pozycję + Wiedza.
  4. Kliknij Zaawansowane.
  5. Wybierz pozycję Azure Databricks jako źródło wiedzy.
  6. Wprowadź nazwę katalogu, w ramach których są używane dane.
  7. Kliknij Połącz.
  8. Wybierz tabele, których agent ma używać jako źródła wiedzy, a następnie kliknij przycisk Dodaj.

Tworzenie tabel wirtualnych usługi Dataverse przy użyciu danych usługi Azure Databricks

Tabele wirtualne usługi Dataverse można również utworzyć za pomocą łącznika usługi Azure Databricks. Tabele wirtualne, znane również jako jednostki wirtualne, integrują dane z systemów zewnętrznych z usługą Microsoft Dataverse. Tabela wirtualna definiuje tabelę w usłudze Dataverse bez przechowywania tabeli fizycznej w bazie danych Dataverse. Aby dowiedzieć się więcej o tabelach wirtualnych, zobacz Wprowadzenie do tabel wirtualnych (jednostek).

Uwaga 16.

Chociaż tabele wirtualne nie używają pojemności magazynu Dataverse, usługa Databricks zaleca używanie połączeń bezpośrednich w celu uzyskania lepszej wydajności.

Musisz mieć rolę Konfigurator systemu lub Administrator systemu. Aby uzyskać więcej informacji, zobacz Role zabezpieczeń dla platformy Power Platform.

Wykonaj następujące kroki, aby utworzyć tabelę wirtualną Usługi Dataverse:

  1. W usłudze Power Apps na pasku bocznym kliknij pozycję Tabele.

  2. Kliknij pozycję + Nowa tabela na pasku menu i wybierz pozycję Utwórz tabelę wirtualną.

  3. Wybierz istniejące połączenie usługi Azure Databricks lub utwórz nowe połączenie z usługą Azure Databricks. Aby dodać nowe połączenie, zobacz Krok 1. Dodawanie połączenia usługi Azure Databricks z platformą Power Platform.

    Databricks zaleca użycie połączenia z profilem usługi w celu utworzenia tabeli wirtualnej.

  4. Kliknij przycisk Dalej.

  5. Wybierz tabele, które mają być reprezentowane jako tabela wirtualna usługi Dataverse.

    • Tabele wirtualne usługi Dataverse wymagają klucza podstawowego. W związku z tym widoki nie mogą być tabelami wirtualnymi, ale zmaterializowane widoki mogą.
  6. Kliknij przycisk Dalej.

  7. Skonfiguruj tabelę wirtualną, aktualizując szczegóły tabeli w razie potrzeby.

  8. Kliknij przycisk Dalej.

  9. Potwierdź szczegóły źródła danych i kliknij przycisk Zakończ.

  10. Użyj tabeli wirtualnej Dataverse w usługach Power Apps, Power Automate i Copilot Studio.

Aby uzyskać listę znanych ograniczeń tabel wirtualnych usługi Dataverse, zobacz Znane ograniczenia i rozwiązywanie problemów.

Przeprowadzanie aktualizacji wsadowych

Jeśli musisz wykonać zbiorcze operacje tworzenia, aktualizowania lub usuwania w odpowiedzi na dane wejściowe usługi Power Apps, usługa Databricks zaleca zaimplementowanie przepływu usługi Power Automate. W tym celu wykonaj następujące czynności:

  1. Utwórz aplikację Canvas przy użyciu połączenia Azure Databricks w usłudze Power Apps.

  2. Utwórz przepływ usługi Power Automate za pomocą połączenia usługi Azure Databricks i użyj usługi Power Apps jako wyzwalacza.

  3. W wyzwalaczu usługi Power Automate dodaj pola wejściowe, które chcesz przekazać z usługi Power Apps do usługi Power Automate.

  4. Utwórz obiekt kolekcji w usłudze Power Apps, aby zebrać wszystkie zmiany.

  5. Dodaj przepływ Power Automate do aplikacji Canvas.

  6. Wywołaj przepływ Power Automate z aplikacji canvas i iteruj po kolekcji, używając polecenia ForAll.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Współbieżne zapisy

Współbieżność na poziomie wiersza zmniejsza konflikty między współbieżnych operacji zapisu, wykrywając zmiany na poziomie wiersza i automatycznie rozwiązując konflikty występujące podczas współbieżnych operacji zapisu lub usuwania różnych wierszy w tym samym pliku danych.

Współbieżność na poziomie wiersza jest obsługiwana w Databricks Runtime 14.2 lub nowszym. Współbieżność na poziomie wiersza jest domyślnie obsługiwana dla następujących typów tabel:

  • Tabele z włączonymi wektorami usuwania i bez partycjonowania
  • Tabele z klastrowaniem płynnym, chyba że wektory usuwania są wyłączone

Aby włączyć wektory usuwania, uruchom następujące polecenie SQL:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Aby uzyskać więcej informacji na temat konfliktów zapisu współbieżnego w usłudze Azure Databricks, zobacz Poziomy izolacji i konflikty zapisu w usłudze Azure Databricks.

Dodawanie usługi Azure Databricks do zasad danych

Dodając usługę Azure Databricks do zasad danych biznesowych, usługa Azure Databricks nie może udostępniać danych łącznikom w innych grupach. Chroni to dane i uniemożliwia udostępnianie ich osobom, które nie powinny mieć do nich dostępu. Aby uzyskać więcej informacji, zobacz Zarządzanie zasadami danych.

Aby dodać łącznik usługi Azure Databricks do zasad danych platformy Power Platform:

  1. W dowolnej aplikacji Power Platform kliknij ikonę ustawień w prawym górnym narożniku, a następnie wybierz pozycję Centrum administracyjne.
  2. Na pasku bocznym kliknij pozycję Zasady>dotyczące danych.
  3. Jeśli używasz nowego centrum administracyjnego, kliknij Zabezpieczenia>Dane i Prywatność>Zasady Dotyczące Danych.
  4. Kliknij + Nowa polityka lub wybierz istniejącą politykę.
  5. W przypadku tworzenia nowych zasad wprowadź nazwę.
  6. Wybierz środowisko, które chcesz dodać do zasad, a następnie kliknij pozycję + Dodaj do zasad powyżej.
  7. Kliknij przycisk Dalej.
  8. Wyszukaj i wybierz łącznik usługi Azure Databricks .
  9. Kliknij pozycję Przenieś do firmy i kliknij przycisk Dalej.
  10. Przejrzyj zasady i kliknij pozycję Utwórz zasady.

Ograniczenia

  • Łącznik platformy Power Platform nie obsługuje chmur rządowych.

Ograniczenia aplikacji Power App

Następujące formuły PowerFx obliczają wartości przy użyciu tylko danych, które zostały pobrane lokalnie:

Kategoria Formula
Funkcja tabeli - GroupBy
-Odmienny
Aggregation - CountRows
- StdevP
- StdevS

Tworzenie połączenia

Łącznik obsługuje następujące typy uwierzytelniania:

Połączenie OAuth Połączenie OAuth Wszystkie regiony Nie można udostępniać
Połączenie jednostki usługi Połączenie jednostki usługi Wszystkie regiony Udostępnialne
Domyślne [PRZESTARZAŁE] Ta opcja dotyczy tylko starszych połączeń bez jawnego typu uwierzytelniania i jest dostępna tylko w celu zapewnienia zgodności z poprzednimi wersjami. Wszystkie regiony Nie można udostępniać

Połączenie OAuth

Identyfikator uwierzytelniania: oauth2-auth

Dotyczy: wszystkie regiony

Połączenie OAuth

Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.

Name Typ Description Wymagane
Nazwa hosta serwera (przykład: adb-3980263885549757139.2.azuredatabricks.net) ciąg Nazwa serwera obszaru roboczego usługi Databricks Prawda
Ścieżka HTTP (przykład: /sql/1.0/warehouses/a9c4e781bd29f315) ciąg Ścieżka HTTP usługi Databricks SQL Warehouse Prawda

Połączenie jednostki usługi

Identyfikator uwierzytelniania: oAuthClientCredentials

Dotyczy: wszystkie regiony

Połączenie jednostki usługi

Jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power jest udostępniana innemu użytkownikowi, połączenie jest również udostępniane. Aby uzyskać więcej informacji, zobacz Omówienie łączników dla aplikacji kanwy — Power Apps | Microsoft Docs

Name Typ Description Wymagane
ID klienta ciąg Prawda
Tajemnica klienta securestring Prawda
Tenant ciąg Prawda
Nazwa hosta serwera (przykład: adb-3980263885549757139.2.azuredatabricks.net) ciąg Nazwa serwera obszaru roboczego usługi Databricks Prawda
Ścieżka HTTP (przykład: /sql/1.0/warehouses/a9c4e781bd29f315) ciąg Ścieżka HTTP usługi Databricks SQL Warehouse Prawda

Domyślne [PRZESTARZAŁE]

Dotyczy: wszystkie regiony

Ta opcja dotyczy tylko starszych połączeń bez jawnego typu uwierzytelniania i jest dostępna tylko w celu zapewnienia zgodności z poprzednimi wersjami.

Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.

Limity ograniczania

Nazwa Wywołania Okres odnowienia
Wywołania interfejsu API na połączenie 100 60 sekund

Akcje

Anulowanie przebiegu

Anuluje uruchomienie zadania lub uruchomienie zadania. Przebieg jest anulowany asynchronicznie, więc po zakończeniu tego żądania może być nadal uruchomiony.

Anulowanie wykonywania instrukcji

Żądania anulowania instrukcji wykonawczej. Osoby wywołujące muszą sondować stan, aby wyświetlić stan terminalu.

Azure Databricks Genie

Wykonywanie zapytań o przestrzenie Genie w celu uzyskania szczegółowych informacji z danych.

Pobieranie danych wyjściowych dla pojedynczego przebiegu

Pobieranie danych wyjściowych i metadanych pojedynczego uruchomienia zadania. Gdy zadanie notesu zwraca wartość za pośrednictwem wywołania dbutils.notebook.exit(), możesz użyć tego punktu końcowego do pobrania tej wartości. Usługa Azure Databricks ogranicza ten interfejs API do zwracania pierwszych 5 MB danych wyjściowych. Aby zwrócić większy wynik, możesz przechowywać wyniki zadania w usłudze magazynu w chmurze. Ten punkt końcowy sprawdza, czy parametr run_id jest prawidłowy i zwraca kod stanu HTTP 400, jeśli parametr run_id jest nieprawidłowy. Przebiegi są automatycznie usuwane po upływie 60 dni. Jeśli chcesz odwoływać się do nich po upływie 60 dni, musisz zapisać stare wyniki uruchamiania przed ich wygaśnięciem.

Pobieranie pojedynczego uruchomienia zadania

Pobiera metadane przebiegu. Duże tablice w wynikach będą podzielone na strony, gdy przekraczają 100 elementów. Żądanie pojedynczego uruchomienia zwróci wszystkie właściwości tego przebiegu, a pierwsze 100 elementów właściwości tablicy (zadania, job_clusters, job_parameters i repair_history). Użyj pola next_page_token, aby sprawdzić więcej wyników i przekazać jego wartość jako page_token w kolejnych żądaniach. Jeśli jakiekolwiek właściwości tablicy mają więcej niż 100 elementów, dodatkowe wyniki zostaną zwrócone dla kolejnych żądań. Tablice bez dodatkowych wyników będą puste na późniejszych stronach.

Sprawdzanie stanu i uzyskiwanie wyników

Pobieranie stanu, manifestu i wyników instrukcji

Uzyskiwanie wyniku według indeksu fragmentów

Po wykonaniu instrukcji SUCCEEDED to żądanie może służyć do pobierania dowolnego fragmentu według indeksu.

Wykonywanie instrukcji SQL

Wykonaj instrukcję SQL i opcjonalnie poczekaj na jego wyniki przez określony czas.

Wyzwalanie nowego uruchomienia zadania

Uruchom zadanie i zwróć run_id wyzwalanego przebiegu.

Wyświetlanie listy zadań

Pobiera listę zadań.

Anulowanie przebiegu

Anuluje uruchomienie zadania lub uruchomienie zadania. Przebieg jest anulowany asynchronicznie, więc po zakończeniu tego żądania może być nadal uruchomiony.

Parametry

Nazwa Klucz Wymagane Typ Opis
run_id
run_id True integer

To pole jest wymagane.

Anulowanie wykonywania instrukcji

Żądania anulowania instrukcji wykonawczej. Osoby wywołujące muszą sondować stan, aby wyświetlić stan terminalu.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator instrukcji
statement_id True string

Identyfikator instrukcji

Azure Databricks Genie

Wykonywanie zapytań o przestrzenie Genie w celu uzyskania szczegółowych informacji z danych.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator obszaru Genie
genie_space_id True string

Identyfikator obszaru Genie

Pobieranie danych wyjściowych dla pojedynczego przebiegu

Pobieranie danych wyjściowych i metadanych pojedynczego uruchomienia zadania. Gdy zadanie notesu zwraca wartość za pośrednictwem wywołania dbutils.notebook.exit(), możesz użyć tego punktu końcowego do pobrania tej wartości. Usługa Azure Databricks ogranicza ten interfejs API do zwracania pierwszych 5 MB danych wyjściowych. Aby zwrócić większy wynik, możesz przechowywać wyniki zadania w usłudze magazynu w chmurze. Ten punkt końcowy sprawdza, czy parametr run_id jest prawidłowy i zwraca kod stanu HTTP 400, jeśli parametr run_id jest nieprawidłowy. Przebiegi są automatycznie usuwane po upływie 60 dni. Jeśli chcesz odwoływać się do nich po upływie 60 dni, musisz zapisać stare wyniki uruchamiania przed ich wygaśnięciem.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator przebiegu
run_id True integer

Identyfikator kanoniczny przebiegu.

Zwraca

Pobieranie pojedynczego uruchomienia zadania

Pobiera metadane przebiegu. Duże tablice w wynikach będą podzielone na strony, gdy przekraczają 100 elementów. Żądanie pojedynczego uruchomienia zwróci wszystkie właściwości tego przebiegu, a pierwsze 100 elementów właściwości tablicy (zadania, job_clusters, job_parameters i repair_history). Użyj pola next_page_token, aby sprawdzić więcej wyników i przekazać jego wartość jako page_token w kolejnych żądaniach. Jeśli jakiekolwiek właściwości tablicy mają więcej niż 100 elementów, dodatkowe wyniki zostaną zwrócone dla kolejnych żądań. Tablice bez dodatkowych wyników będą puste na późniejszych stronach.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator przebiegu
run_id True integer

Identyfikator kanoniczny przebiegu, dla którego mają zostać pobrane metadane. To pole jest wymagane.

Uwzględnij historię
include_history boolean

Określa, czy należy uwzględnić historię naprawy w odpowiedzi.

Uwzględnij rozwiązane wartości
include_resolved_values boolean

Określa, czy w odpowiedzi mają być uwzględniane rozpoznane wartości parametrów.

Token strony
page_token string

Użyj next_page_token zwróconych z poprzedniej odpowiedzi GetRun, aby zażądać następnej strony właściwości tablicy przebiegu.

Zwraca

Body
JobsRun

Sprawdzanie stanu i uzyskiwanie wyników

Pobieranie stanu, manifestu i wyników instrukcji

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator instrukcji
statement_id True string

Identyfikator instrukcji

Zwraca

Odpowiedź na wykonanie instrukcji

Uzyskiwanie wyniku według indeksu fragmentów

Po wykonaniu instrukcji SUCCEEDED to żądanie może służyć do pobierania dowolnego fragmentu według indeksu.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator instrukcji
statement_id True string

Identyfikator instrukcji

Indeks fragmentów
chunk_index True string

Indeks fragmentów

Zwraca

Wykonywanie instrukcji SQL

Wykonaj instrukcję SQL i opcjonalnie poczekaj na jego wyniki przez określony czas.

Parametry

Nazwa Klucz Wymagane Typ Opis
warehouse_id
warehouse_id True string

Identyfikator magazynu docelowego

instrukcja
statement True string

Instrukcja SQL do wykonania. Instrukcję można opcjonalnie sparametryzować, zobacz parametry

nazwa
name True string

Nazwa znacznika parametru

typ
type string

Typ danych parametru

value
value string

Wartość parametru

katalog
catalog string

Domyślny wykaz na potrzeby wykonywania

schemat
schema string

Domyślny schemat do wykonania

usposobienie
disposition string

Tryb pobierania wyników

format
format string

Format zestawu wyników

on_wait_timeout
on_wait_timeout string

Akcja w przypadku przekroczenia limitu czasu

wait_timeout
wait_timeout string

Limit czasu oczekiwania na wynik

byte_limit
byte_limit integer

Limit bajtów wyników

row_limit
row_limit integer

Limit wierszy wyników

Zwraca

Odpowiedź na wykonanie instrukcji

Wyzwalanie nowego uruchomienia zadania

Uruchom zadanie i zwróć run_id wyzwalanego przebiegu.

Parametry

Nazwa Klucz Wymagane Typ Opis
idempotency_token
idempotency_token string

Opcjonalny token gwarantujący idempotentność żądań uruchamiania zadania. Jeśli przebieg z podanym tokenem już istnieje, żądanie nie tworzy nowego przebiegu, ale zwraca identyfikator istniejącego przebiegu. Jeśli przebieg z podanym tokenem zostanie usunięty, zostanie zwrócony błąd. Jeśli określisz token idempotentności, po niepowodzeniu możesz ponowić próbę, dopóki żądanie nie powiedzie się. Usługa Azure Databricks gwarantuje, że dokładnie jedno uruchomienie zostało uruchomione przy użyciu tego tokenu idempotentności. Ten token musi zawierać co najwyżej 64 znaki. Aby uzyskać więcej informacji, zobacz Jak zapewnić idempotentność zadań.

job_id
job_id True integer

Identyfikator zadania do wykonania

job_parameters
job_parameters object

Parametry na poziomie zadania używane w przebiegu. na przykład "param": "overriding_val"

tylko
only array of string

Lista kluczy zadań do uruchomienia wewnątrz zadania. Jeśli to pole nie zostanie podane, wszystkie zadania w zadaniu zostaną uruchomione.

performance_target
performance_target string
full_refresh
full_refresh boolean

Jeśli wartość true, wyzwala pełne odświeżanie w tabeli delta live.

enabled
enabled True boolean

Jeśli wartość true, włącz kolejkowanie dla zadania. Jest to pole wymagane.

Zwraca

Wyświetlanie listy zadań

Pobiera listę zadań.

Parametry

Nazwa Klucz Wymagane Typ Opis
Ograniczenie
limit integer

Liczba zadań do zwrócenia. Ta wartość musi być większa niż 0 i mniejsza lub równa 100. Wartość domyślna to 20.

Rozwiń zadania
expand_tasks boolean

Określa, czy należy uwzględnić szczegóły zadania i klastra w odpowiedzi. Należy pamiętać, że zostaną wyświetlone tylko pierwsze 100 elementów. Użyj polecenia :method:jobs/get, aby stronicować wszystkie zadania i klastry.

Nazwa zadania
name string

Filtr na liście na podstawie dokładnej (bez uwzględniania wielkości liter) nazwy zadania.

Token strony
page_token string

Użyj next_page_token lub prev_page_token zwróconych z poprzedniego żądania, aby wyświetlić odpowiednio następną lub poprzednią stronę zadań.

Zwraca

Definicje

Object

SqlBaseChunkInfo

Metadane fragmentu zestawu wyników

Nazwa Ścieżka Typ Opis
byte_count
byte_count integer

Liczba bajtów we fragmentach wyniku

chunk_index
chunk_index integer

Pozycja w sekwencji fragmentów zestawu wyników

row_count
row_count integer

Liczba wierszy we fragmentach wyniku

row_offset
row_offset integer

Przesunięcie wiersza początkowego w zestawie wyników

SqlColumnInfo

Nazwa Ścieżka Typ Opis
nazwa
name string

Nazwa kolumny

pozycja
position integer

Położenie kolumny (oparte na 0)

type_interval_type
type_interval_type string

Format typu interwału

type_name
type_name SqlColumnInfoTypeName

Nazwa podstawowego typu danych. Nie zawiera to szczegółów złożonych typów, takich jak STRUKTURA, MAP lub ARRAY.

type_precision
type_precision integer

Liczba cyfr dla typu DECIMAL

type_scale
type_scale integer

Liczba miejsc dziesiętnych dla typu DECIMAL

type_text
type_text string

Pełna specyfikacja typu SQL

SqlColumnInfoTypeName

Nazwa podstawowego typu danych. Nie zawiera to szczegółów złożonych typów, takich jak STRUKTURA, MAP lub ARRAY.

Nazwa podstawowego typu danych. Nie zawiera to szczegółów złożonych typów, takich jak STRUKTURA, MAP lub ARRAY.

SqlStatementResponse

Odpowiedź na wykonanie instrukcji

Nazwa Ścieżka Typ Opis
manifest
manifest SqlResultManifest

Schemat i metadane zestawu wyników

wynik
result SqlResultData
statement_id
statement_id string

Identyfikator instrukcji

stan
status SqlStatementStatus

Stan wykonywania instrukcji

SqlResultManifest

Schemat i metadane zestawu wyników

Nazwa Ścieżka Typ Opis
Kawałki
chunks array of SqlBaseChunkInfo

Metadane fragmentu wyników

format
format string
schemat
schema SqlResultSchema

Definicje kolumn zestawu wyników

total_byte_count
total_byte_count integer

Łączna liczba bajtów w zestawie wyników

total_chunk_count
total_chunk_count integer

Całkowita liczba fragmentów

total_row_count
total_row_count integer

Łączna liczba wierszy

Obcinane
truncated boolean

Stan obcinania wyników

SqlStatementStatus

Stan wykonywania instrukcji

Nazwa Ścieżka Typ Opis
błąd
error SqlServiceError
stan
state SqlStatementState

Stan wykonywania instrukcji

SqlStatementState

Stan wykonywania instrukcji

Stan wykonywania instrukcji

SqlServiceError

Nazwa Ścieżka Typ Opis
error_code
error_code string
komunikat
message string

Komunikat o błędzie

SqlResultSchema

Definicje kolumn zestawu wyników

Nazwa Ścieżka Typ Opis
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Nazwa Ścieżka Typ Opis
byte_count
byte_count integer

Bajty w wyniku fragmentu

chunk_index
chunk_index integer

Położenie fragmentu

data_array
data_array SqlJsonArray

Tablica tablic z wartościami ciągu

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Następny indeks fragmentów

next_chunk_internal_link
next_chunk_internal_link string

Link do następnego fragmentu

row_count
row_count integer

Wiersze we fragmentach

row_offset
row_offset integer

Przesunięcie wiersza początkowego

SqlJsonArray

Tablica tablic z wartościami ciągu

Nazwa Ścieżka Typ Opis
Przedmioty
array of
Nazwa Ścieżka Typ Opis
byte_count
byte_count integer

Bajty we fragmentach

chunk_index
chunk_index integer

Położenie fragmentu

wygaśnięcie
expiration date-time

Czas wygaśnięcia łącza

external_link
external_link string
http_headers
http_headers object

Wymagane nagłówki HTTP

next_chunk_index
next_chunk_index integer

Następny indeks fragmentów

next_chunk_internal_link
next_chunk_internal_link string

Link do następnego fragmentu

row_count
row_count integer

Wiersze we fragmentach

row_offset
row_offset integer

Przesunięcie wiersza początkowego

ZadaniaRunNowResponse

Nazwa Ścieżka Typ Opis
run_id
run_id integer

Globalnie unikatowy identyfikator nowo wyzwolonego przebiegu.

ZadaniaPerformanceTarget

ZadaniaPipelineParams

Nazwa Ścieżka Typ Opis
full_refresh
full_refresh boolean

Jeśli wartość true, wyzwala pełne odświeżanie w tabeli delta live.

ZadaniaQueueSettings

Nazwa Ścieżka Typ Opis
enabled
enabled boolean

Jeśli wartość true, włącz kolejkowanie dla zadania. Jest to pole wymagane.

ZadaniaListJobsResponse

Nazwa Ścieżka Typ Opis
jobs
jobs array of JobsBaseJob

Lista zadań. W odpowiedzi znajdują się tylko zadania do wyświetlenia.

next_page_token
next_page_token string

Token, którego można użyć do wyświetlenia następnej strony zadań (jeśli ma to zastosowanie).

prev_page_token
prev_page_token string

Token, który może służyć do wyświetlania listy poprzednich stron zadań (jeśli ma to zastosowanie).

ZadaniaBaseJob

Nazwa Ścieżka Typ Opis
created_time
created_time integer

Czas utworzenia tego zadania w milisekundach epoki (w milisekundach od 1.1.1.1970 UTC).

creator_user_name
creator_user_name string

Nazwa użytkownika twórcy. To pole nie zostanie uwzględnione w odpowiedzi, jeśli użytkownik został już usunięty.

effective_budget_policy_id
effective_budget_policy_id uuid

Identyfikator zasad budżetu używanych przez to zadanie do celów przypisywania kosztów. Można to ustawić za pomocą (w kolejności pierwszeństwa): 1. Administratorzy budżetu za pośrednictwem konta lub konsoli obszaru roboczego 2. Interfejs użytkownika zadań na stronie szczegółów zadania i interfejsIE API zadań przy użyciu budget_policy_id 3. Wywnioskowany domyślny na podstawie dostępnych zasad budżetu tożsamości run_as podczas tworzenia lub modyfikowania zadania.

zawiera_więcej
has_more boolean

Wskazuje, czy zadanie ma więcej właściwości tablicy (zadań, job_clusters), które nie są wyświetlane. Dostęp do nich można uzyskać za pośrednictwem polecenia :method:jobs/get endpoint. Dotyczy to tylko żądań interfejsu API 2.2 :method:jobs/list z expand_tasks=true.

job_id
job_id integer

Identyfikator kanoniczny dla tego zadania.

ustawienia
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

ZadaniaJobSettings

Nazwa Ścieżka Typ Opis
budget_policy_id
budget_policy_id uuid

Identyfikator określonych przez użytkownika zasad budżetu do użycia dla tego zadania. Jeśli nie zostanie określony, podczas tworzenia lub modyfikowania zadania można zastosować domyślne zasady budżetu. Zobacz effective_budget_policy_id zasad budżetu używanych przez to obciążenie.

ciągły
continuous JobsContinuous
wdrażanie
deployment JobsJobDeployment
opis
description string

Opcjonalny opis zadania. Maksymalna długość wynosi 27700 znaków w kodowaniu UTF-8.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Lista specyfikacji środowiska wykonawczego, które mogą być przywoływane przez funkcje bezserwerowe tego projektu. Środowisko musi być obecne w przypadku zadań bezserwerowych. W przypadku zadań notesu bezserwerowego środowisko jest dostępne w panelu środowiska notesu. W przypadku innych zadań bezserwerowych środowisko zadań jest wymagane do określenia przy użyciu environment_key w ustawieniach zadania.

git_source
git_source JobsGitSource
kondycja
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Lista specyfikacji klastra zadań, które mogą być współużytkowane i ponownie używane przez zadania tego zadania. Nie można zadeklarować bibliotek w klastrze zadań udostępnionych. Biblioteki zależne należy zadeklarować w ustawieniach zadań.

max_concurrent_runs
max_concurrent_runs integer

Opcjonalnie maksymalna liczba współbieżnych uruchomień tego zadania. Ustaw tę wartość, jeśli chcesz mieć możliwość współbieżnego wykonywania wielu uruchomień tego samego zadania. Jest to przydatne na przykład w przypadku wyzwalania zadania według częstego harmonogramu i umożliwienia nakładania się kolejnych przebiegów na siebie lub wyzwolenia wielu przebiegów, które różnią się od ich parametrów wejściowych. To ustawienie ma wpływ tylko na nowe uruchomienia. Załóżmy na przykład, że współbieżność zadania wynosi 4 i istnieje 4 współbieżne aktywne uruchomienia. Następnie ustawienie współbieżności na 3 nie spowoduje zabicia żadnego z aktywnych przebiegów. Jednak od tego czasu nowe przebiegi są pomijane, chyba że istnieje mniej niż 3 aktywne uruchomienia. Ta wartość nie może przekroczyć 1000. Ustawienie tej wartości na 0 powoduje pominięcie wszystkich nowych przebiegów.

nazwa
name string

Opcjonalna nazwa zadania. Maksymalna długość to 4096 bajtów w kodowaniu UTF-8.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Definicje parametrów na poziomie zadania

performance_target
performance_target JobsPerformanceTarget
kolejka
queue JobsQueueSettings
uruchom jako
run_as JobsJobRunAs
grafik
schedule JobsCronSchedule
tags
tags object

Mapa tagów skojarzonych z zadaniem. Są one przekazywane do klastra jako tagi klastra dla klastrów zadań i podlegają tym samym ograniczeniom co tagi klastra. Do zadania można dodać maksymalnie 25 tagów.

tasks
tasks array of JobsTask

Lista specyfikacji zadań, które mają być wykonane w ramach tego zlecenia. Obsługuje do 1000 elementów w punktach końcowych zapisu (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Odczyt punktów końcowych zwraca tylko 100 zadań. Jeśli dostępnych jest więcej niż 100 zadań, można je stronicować przy użyciu polecenia :method:jobs/get. Użyj pola next_page_token w katalogu głównym obiektu, aby określić, czy są dostępne więcej wyników.

timeout_seconds
timeout_seconds integer

Opcjonalny limit czasu stosowany do każdego uruchomienia tego zadania. Wartość 0 oznacza brak limitu czasu.

wyzwalacz
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

Zadaniakontynualne

Nazwa Ścieżka Typ Opis
pause_status
pause_status JobsPauseStatus

ZadaniaPauseStatus

ZadaniaJobDeployment

Nazwa Ścieżka Typ Opis
rodzaj
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Ścieżka pliku zawierającego metadane wdrożenia.

ZadaniaJobDeploymentKind

ZadaniaJobEditMode

ZadaniaJobEmailNotifications

Nazwa Ścieżka Typ Opis
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Lista adresów e-mail, które mają być powiadamiane, gdy czas trwania przebiegu przekracza próg określony dla metryki RUN_DURATION_SECONDS w polu kondycji. Jeśli w polu kondycji zadania nie określono żadnej reguły dla metryki RUN_DURATION_SECONDS, powiadomienia nie są wysyłane.

on_failure
on_failure array of string

Lista adresów e-mail, które mają być powiadamiane, gdy przebieg zakończy się niepowodzeniem. Przebieg jest uznawany za zakończony niepowodzeniem, jeśli kończy się INTERNAL_ERROR life_cycle_state lub niepowodzeniem lub TIMED_OUT result_state. Jeśli ta wartość nie jest określona podczas tworzenia, resetowania lub aktualizowania listy jest pusta, a powiadomienia nie są wysyłane.

on_start
on_start array of string

Lista adresów e-mail, które mają być powiadamiane o rozpoczęciu przebiegu. Jeśli nie określono wartości podczas tworzenia, resetowania lub aktualizowania zadań, lista jest pusta, a powiadomienia nie są wysyłane.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Lista adresów e-mail do powiadamiania o przekroczeniu progów listy prac przesyłania strumieniowego dla dowolnego strumienia. Progi listy prac przesyłania strumieniowego można ustawić w polu kondycji przy użyciu następujących metryk: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS lub STREAMING_BACKLOG_FILES. Alerty są oparte na średniej 10-minutowej tych metryk. Jeśli problem będzie się powtarzać, powiadomienia są wysyłane co 30 minut.

on_success
on_success array of string

Lista adresów e-mail, które mają być powiadamiane po pomyślnym zakończeniu przebiegu. Przebieg jest uznawany za zakończony pomyślnie, jeśli kończy się life_cycle_state ZAKOŃCZONYm i powodzeniem result_state. Jeśli nie określono wartości podczas tworzenia, resetowania lub aktualizowania zadań, lista jest pusta, a powiadomienia nie są wysyłane.

ZadaniaJobŚrodowisko

Nazwa Ścieżka Typ Opis
environment_key
environment_key string

Klucz środowiska. Musi być unikatowa w ramach zadania.

specyfikacja
spec ComputeEnvironment

ComputeEnvironment

Nazwa Ścieżka Typ Opis
zależności
dependencies array of string

Lista zależności obsługiwanych przez wersję narzędzia w tym środowisku. Każda zależność jest prawidłowym wierszem pliku wymagań na https://pip.pypa.io/en/stable/reference/requirements-file-format/. Dozwolone zależności obejmują specyfikator wymagań, adres URL archiwum, lokalną ścieżkę projektu (np. WSFS lub woluminy UC w usłudze Azure Databricks) lub adres URL projektu VCS.

environment_version
environment_version string

To jest wymagane. Wersja środowiska używana przez środowisko. Każda wersja zawiera określoną wersję języka Python i zestaw pakietów języka Python. Wersja jest ciągiem składającym się z liczby całkowitej. Zobacz: https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

ZadaniaGitSource

Nazwa Ścieżka Typ Opis
git_branch
git_branch string

Nazwa gałęzi do wyewidencjonowania i użycia przez to zadanie. Nie można określić tego pola w połączeniu z git_tag lub git_commit.

git_commit
git_commit string

Zatwierdzenie do wyewidencjonowania i użycia przez to zadanie. Nie można określić tego pola w połączeniu z git_branch lub git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Nazwa tagu do wyewidencjonowania i użycia przez to zadanie. Nie można określić tego pola w połączeniu z git_branch lub git_commit.

git_url
git_url string

Adres URL repozytorium, który ma zostać sklonowany przez to zadanie.

JobsGitProvider

ZadaniaGitSnapshot

Nazwa Ścieżka Typ Opis
used_commit
used_commit string

Zatwierdzenie, które zostało użyte do wykonania przebiegu. Jeśli określono git_branch, wskazuje to na nagłówek gałęzi w momencie uruchomienia; jeśli git_tag został określony, wskazuje to na zatwierdzenie punktów tagu.

ZadaniaJobsHealthRules

Nazwa Ścieżka Typ Opis
zasady
rules array of JobsJobsHealthRule

ZadaniaJobsHealthRule

Nazwa Ścieżka Typ Opis
metryka
metric JobsJobsHealthMetric
Op
op JobsJobsHealthOperator
value
value integer

Określa wartość progową, którą metryka kondycji powinna przestrzegać w celu spełnienia reguły kondycji.

ZadaniaJobsHealthMetric

ZadaniaJobsHealthOperator

ZadaniaJobCluster

Nazwa Ścieżka Typ Opis
job_cluster_key
job_cluster_key string

Unikatowa nazwa klastra zadań. To pole jest wymagane i musi być unikatowe w ramach zadania. JobTaskSettings może odwoływać się do tego pola, aby określić, który klaster ma zostać uruchomiony do wykonania zadania.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Nazwa Ścieżka Typ Opis
apply_policy_default_values
apply_policy_default_values boolean

Gdy wartość true jest ustawiona, wartości stałe i domyślne z polityki będą używane dla pól, które są pominięte. Jeśli ustawiono na false, zostaną zastosowane tylko stałe wartości z zasad.

automatyczne skalowanie
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Automatycznie wyłącza klaster po upływie ustawionego czasu nieaktywności, wyrażonego w minutach. Jeśli nie zostanie ustawiona, ten klaster nie zostanie automatycznie zakończony. Jeśli zostanie określony, próg musi należeć do zakresu od 10 do 10000 minut. Użytkownicy mogą również ustawić tę wartość na 0, aby jawnie wyłączyć automatyczne kończenie.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
nazwa_klastra
cluster_name string

Nazwa klastra żądana przez użytkownika. Nie musi to być unikatowe. Jeśli nie zostanie określony podczas tworzenia, nazwa klastra będzie pustym ciągiem. W przypadku klastrów zadań nazwa klastra jest ustawiana automatycznie na podstawie identyfikatorów uruchamiania zadania i zadania.

custom_tags
custom_tags object

Dodatkowe tagi dla zasobów klastra. Usługa Azure Databricks oznaczy wszystkie zasoby klastra (np. wystąpienia platformy AWS i woluminy EBS) przy użyciu tych tagów oprócz default_tags. Uwagi: — Obecnie usługa Azure Databricks zezwala na maksymalnie 45 tagów niestandardowych — klastry mogą ponownie używać zasobów w chmurze tylko wtedy, gdy tagi zasobów są podzbiorem tagów klastra

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

Opcjonalny identyfikator puli wystąpień, do której należy sterownik klastra. Klaster basenowy używa puli instancji o identyfikatorze (instance_pool_id), jeśli pula sterowników nie została przypisana.

driver_node_type_id
driver_node_type_id string

Typ węzła sterownika Spark. Należy pamiętać, że to pole jest opcjonalne; Jeśli nie zostanie ustawiona, typ węzła sterownika zostanie ustawiony jako ta sama wartość co node_type_id zdefiniowana powyżej. To pole wraz z node_type_id nie powinno być ustawione, jeśli virtual_cluster_size jest ustawiona. Jeśli określono zarówno driver_node_type_id, node_type_id, jak i virtual_cluster_size, pierwszeństwo mają driver_node_type_id i node_type_id.

enable_elastic_disk
enable_elastic_disk boolean

Autoskalowanie magazynu lokalnego: po włączeniu ten klaster będzie dynamicznie uzyskiwać dodatkowe miejsce na dysku, gdy procesy robocze Spark mają mało miejsca na dysku. Ta funkcja wymaga określonych uprawnień platformy AWS do poprawnego działania — zapoznaj się z podręcznikiem użytkownika, aby uzyskać więcej informacji.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Czy włączyć LUKS na dyskach lokalnych maszyn wirtualnych klastra

init_scripts
init_scripts array of ComputeInitScriptInfo

Konfiguracja przechowywania skryptów inicjowania. Można określić dowolną liczbę miejsc docelowych. Skrypty są wykonywane sekwencyjnie w podanej kolejności. Jeśli określono cluster_log_conf, dzienniki skryptów inicjowania są wysyłane do <lokalizacji docelowej>/<identyfikatora> klastra/init_scripts.

instance_pool_id
instance_pool_id string

Opcjonalny identyfikator puli wystąpień, do której należy klaster.

is_single_node
is_single_node boolean

To pole może być używane tylko wtedy, gdy rodzaj = CLASSIC_PREVIEW. Po ustawieniu wartości true usługa Azure Databricks automatycznie ustawi jednowęźle powiązane z custom_tags, spark_conf i num_workers

rodzaj
kind ComputeKind
node_type_id
node_type_id string

To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń. Listę dostępnych typów węzłów można pobrać przy użyciu wywołania interfejsu API :method:clusters/listNodeTypes.

num_workers
num_workers integer

Liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i funkcje wykonawcze num_workers dla łącznie num_workers i 1 węzłów platformy Spark. Uwaga: podczas odczytywania właściwości klastra to pole odzwierciedla żądaną liczbę procesów roboczych, a nie rzeczywistą bieżącą liczbę procesów roboczych. Na przykład jeśli rozmiar klastra zostanie zmieniony z 5 na 10 procesów roboczych, to pole zostanie natychmiast zaktualizowane, aby odzwierciedlić docelowy rozmiar 10 procesów roboczych, natomiast procesy robocze wymienione w spark_info stopniowo wzrosną z 5 do 10, ponieważ nowe węzły są aprowizowane.

policy_id
policy_id string

Identyfikator zasad klastra użytych do utworzenia klastra, jeśli ma to zastosowanie.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Nazwa pojedynczego użytkownika, jeśli data_security_mode jest SINGLE_USER

spark_conf
spark_conf object

Obiekt zawierający zestaw opcjonalnych par klucz-wartość konfiguracji Spark określonych przez użytkownika. Użytkownicy mogą również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem odpowiednio spark.driver.extraJavaOptions i spark.executor.extraJavaOptions.

spark_env_vars
spark_env_vars object

Obiekt zawierający zestaw opcjonalnych par klucz-wartość zmiennej środowiskowej określonej przez użytkownika. Należy pamiętać, że para klucz-wartość formularza (X,Y) zostanie wyeksportowana w taki sposób, jak (tj. eksport X='Y') podczas uruchamiania sterownika i procesów roboczych. Aby określić dodatkowy zestaw SPARK_DAEMON_JAVA_OPTS, zalecamy dołączenie ich do $SPARK_DAEMON_JAVA_OPTS, jak pokazano w poniższym przykładzie. Dzięki temu wszystkie domyślne zmienne środowiskowe zarządzane przez usługę Databricks również zostaną uwzględnione. Przykładowe zmienne środowiskowe platformy Spark: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} lub {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

Wersja platformy Spark klastra, np. 3.3.x-scala2.11. Listę dostępnych wersji platformy Spark można pobrać przy użyciu wywołania interfejsu API :method:clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Zawartość klucza publicznego SSH, która zostanie dodana do każdego węzła Spark w tym klastrze. Odpowiednie klucze prywatne mogą służyć do logowania się przy użyciu nazwy użytkownika ubuntu na porcie 2200. Można określić maksymalnie 10 kluczy.

use_ml_runtime
use_ml_runtime boolean

To pole może być używane tylko wtedy, gdy rodzaj = CLASSIC_PREVIEW. effective_spark_version jest określany przez spark_version (wersja DBR), to pole use_ml_runtime i czy node_type_id jest węzłem gpu, czy nie.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Nazwa Ścieżka Typ Opis
max_workers
max_workers integer

Maksymalna liczba procesów roboczych, do których klaster może być skalowany w górę po przeciążeniu. Należy pamiętać, że max_workers musi być ściśle większa niż min_workers.

min_workers
min_workers integer

Minimalna liczba procesów roboczych, do których klaster może być skalowany w dół, gdy nie jest wykorzystywana. Jest to również początkowa liczba procesów roboczych, które klaster będzie miał po utworzeniu.

ComputeAzureAttributes

Nazwa Ścieżka Typ Opis
availability
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

Pierwsze first_on_demand węzły klastra zostaną umieszczone na wystąpieniach na żądanie. Ta wartość powinna być większa niż 0, aby upewnić się, że węzeł sterownika klastra jest umieszczony w wystąpieniu na żądanie. Jeśli ta wartość jest większa lub równa bieżącemu rozmiarowi klastra, wszystkie węzły zostaną umieszczone na wystąpieniach na żądanie. Jeśli ta wartość jest mniejsza niż bieżący rozmiar klastra, first_on_demand węzły zostaną umieszczone na wystąpieniach na żądanie, a reszta zostanie umieszczona w wystąpieniach dostępności. Należy pamiętać, że ta wartość nie ma wpływu na rozmiar klastra i nie może być obecnie zmutowana w okresie istnienia klastra.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

Maksymalna cena oferty, która ma być używana dla wystąpień typu spot platformy Azure. Maksymalna cena oferty nie może być wyższa niż cena na żądanie wystąpienia. Jeśli nie zostanie określony, wartość domyślna to -1, która określa, że wystąpienie nie może być eksmitowane na podstawie ceny i tylko na podstawie dostępności. Ponadto wartość powinna wynosić > 0 lub -1.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Nazwa Ścieżka Typ Opis
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Nazwa Ścieżka Typ Opis
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Nazwa Ścieżka Typ Opis
docelowy
destination string

miejsce docelowe dbfs, np. dbfs:/my/path

ComputeVolumesStorageInfo

Nazwa Ścieżka Typ Opis
docelowy
destination string

Miejsce docelowe woluminów UC, np. /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh lub dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Nazwa Ścieżka Typ Opis
basic_auth
basic_auth ComputeDockerBasicAuth
URL
url string

Adres URL obrazu platformy Docker.

ComputeDockerBasicAuth

Nazwa Ścieżka Typ Opis
hasło
password string

Hasło użytkownika

nazwa użytkownika
username string

Nazwa użytkownika

ComputeInitScriptInfo

Nazwa Ścieżka Typ Opis
abfss
abfss ComputeAdlsgen2Info
plik
file ComputeLocalFileInfo
Gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
obszar roboczy
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Nazwa Ścieżka Typ Opis
docelowy
destination string

miejsce docelowe abfss, np. abfss://< container-name@>storage-account-name.dfs.core.windows.net/<>< directory-name>.

ComputeLocalFileInfo

Nazwa Ścieżka Typ Opis
docelowy
destination string

miejsce docelowe pliku lokalnego, np. plik:/my/local/file.sh

ComputeGcsStorageInfo

Nazwa Ścieżka Typ Opis
docelowy
destination string

GCS destination/URI, np. gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Nazwa Ścieżka Typ Opis
docelowy
destination string

miejsce docelowe wsfs, np. workspace:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Nazwa Ścieżka Typ Opis
clients
clients ComputeClientsTypes

ComputeClientsTypes

Nazwa Ścieżka Typ Opis
jobs
jobs boolean

W przypadku ustawiania zadań klaster może służyć do zadań

Notebooki
notebooks boolean

Dzięki ustawieniu notesów ten klaster może być używany dla notesów

ZadaniaJobNotificationSettings

Nazwa Ścieżka Typ Opis
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Jeśli wartość true, nie wysyłaj powiadomień do adresatów określonych w on_failure, jeśli przebieg zostanie anulowany.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Jeśli wartość true, nie wysyłaj powiadomień do adresatów określonych w on_failure, jeśli przebieg zostanie pominięty.

ZadaniaJobParameterDefinition

Nazwa Ścieżka Typ Opis
domyślny
default string

Wartość domyślna parametru.

nazwa
name string

Nazwa zdefiniowanego parametru. Może zawierać tylko znaki alfanumeryczne, _, -, i .

ZadaniaJobRunAs

Nazwa Ścieżka Typ Opis
service_principal_name
service_principal_name string

Identyfikator aplikacji aktywnej jednostki usługi. Ustawienie tego pola wymaga roli servicePrincipal/user.

user_name
user_name string

Adres e-mail aktywnego użytkownika obszaru roboczego. Użytkownicy niebędący administratorami mogą ustawić to pole tylko na własną wiadomość e-mail.

JobsCronSchedule

Nazwa Ścieżka Typ Opis
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Wyrażenie Cron używające składni kwarcowej opisujące harmonogram zadania. Aby uzyskać szczegółowe informacje, zobacz Wyzwalacz Cron . To pole jest wymagane.

timezone_id
timezone_id string

Identyfikator strefy czasowej Java. Harmonogram zadania jest rozwiązywany w odniesieniu do tej strefy czasowej. Aby uzyskać szczegółowe informacje, zobacz Java TimeZone . To pole jest wymagane.

ZadaniaTask

Nazwa Ścieżka Typ Opis
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Opcjonalna tablica obiektów określających graf zależności zadania. Wszystkie zadania określone w tym polu muszą zostać wykonane przed wykonaniem tego zadania. Zadanie zostanie uruchomione tylko wtedy, gdy warunek run_if ma wartość true. Klucz jest task_key, a wartość jest nazwą przypisaną do zadania zależnego.

opis
description string

Opcjonalny opis tego zadania.

disable_auto_optimization
disable_auto_optimization boolean

Opcja wyłączenia automatycznej optymalizacji w trybie bezserwerowym

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Klucz odwołujący się do specyfikacji środowiska w zadaniu. To pole jest wymagane w przypadku zadań skryptów języka Python, kółka języka Python i dbt podczas korzystania z obliczeń bezserwerowych.

existing_cluster_id
existing_cluster_id string

Jeśli existing_cluster_id, identyfikator istniejącego klastra, który jest używany dla wszystkich przebiegów. Podczas uruchamiania zadań lub zadań w istniejącym klastrze może być konieczne ręczne ponowne uruchomienie klastra, jeśli przestanie odpowiadać. Zalecamy uruchamianie zadań i zadań w nowych klastrach w celu zwiększenia niezawodności

for_each_task
for_each_task JobsForEachTask
kondycja
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Jeśli job_cluster_key, to zadanie jest wykonywane ponownie przy użyciu klastra określonego w job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Opcjonalna lista bibliotek do zainstalowania w klastrze. Wartość domyślna to pusta lista.

max_retries
max_retries integer

Opcjonalna maksymalna liczba ponownych prób nieudanego uruchomienia. Uruchomienie jest uznawane za nieudane, jeśli zakończy się niepowodzeniem z result_state FAILED lub INTERNAL_ERROR life_cycle_state. Wartość -1 oznacza ponowienie próby na czas nieokreślony, a wartość 0 oznacza, że nigdy nie spróbujesz ponownie.

min_retry_interval_millis
min_retry_interval_millis integer

Opcjonalny minimalny interwał w milisekundach między rozpoczęciem nieudanego uruchomienia a kolejnym uruchomieniem ponawiania. Domyślne zachowanie polega na tym, że nieudane uruchomienia są natychmiast ponawiane.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Opcjonalne zasady określające, czy ponowić próbę wykonania zadania po upłynął limit czasu. Domyślne zachowanie polega na tym, aby nie ponawiać próby po przekroczeniu limitu czasu.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Unikatowa nazwa zadania. To pole służy do odwoływania się do tego zadania z innych zadań. To pole jest wymagane i musi być unikatowe w ramach zadania nadrzędnego. W przypadku aktualizacji lub resetowania to pole służy do odwołowania się do zadań, które mają zostać zaktualizowane lub zresetowane.

timeout_seconds
timeout_seconds integer

Opcjonalny limit czasu zastosowany do każdego uruchomienia tego zadania zadania. Wartość 0 oznacza brak limitu czasu.

webhook_notifications
webhook_notifications JobsWebhookNotifications

ZadaniaConditionTask

Nazwa Ścieżka Typ Opis
lewo
left string

Lewy operand zadania warunku. Może być wartością ciągu lub stanem zadania lub odwołaniem do parametrów.

Op
op JobsConditionTaskOp
Prawy
right string

Prawy operand zadania warunku. Może być wartością ciągu lub stanem zadania lub odwołaniem do parametrów.

ZadaniaConditionTaskOp

JobsDashboardTask

Nazwa Ścieżka Typ Opis
dashboard_id
dashboard_id string

Identyfikator pulpitu nawigacyjnego do odświeżenia.

abonament
subscription JobsSubscription
warehouse_id
warehouse_id string

Opcjonalnie: identyfikator magazynu do wykonania pulpitu nawigacyjnego z harmonogramem. Jeśli nie zostanie określony, zostanie użyty domyślny magazyn pulpitu nawigacyjnego.

Subskrypcja zadań

Nazwa Ścieżka Typ Opis
custom_subject
custom_subject string

Opcjonalnie: umożliwia użytkownikom określenie niestandardowego wiersza tematu w wiadomości e-mail wysłanej do subskrybentów.

Wstrzymana
paused boolean

W przypadku wartości true subskrypcja nie będzie wysyłać wiadomości e-mail.

Subskrybentów
subscribers array of JobsSubscriptionSubscriber

Lista subskrybentów, do których ma być wysyłana migawka pulpitu nawigacyjnego.

ZadaniaSubskrypcjaSubkrypcja

Nazwa Ścieżka Typ Opis
destination_id
destination_id string

Migawka pulpitu nawigacyjnego zostanie wysłana do miejsca docelowego, gdy jest obecne pole destination_id.

user_name
user_name string

Migawka pulpitu nawigacyjnego zostanie wysłana do wiadomości e-mail użytkownika po wyświetleniu pola user_name.

Źródło zadań

ZadaniaTaskDependency

Nazwa Ścieżka Typ Opis
wynik
outcome string

Można określić tylko w zależnościach zadań warunku. Wynik zadania zależnego, które musi zostać spełnione, aby to zadanie było uruchamiane.

task_key
task_key string

Nazwa zadania, od których zależy to zadanie.

JobsTaskEmailNotifications

Nazwa Ścieżka Typ Opis
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Lista adresów e-mail, które mają być powiadamiane, gdy czas trwania przebiegu przekracza próg określony dla metryki RUN_DURATION_SECONDS w polu kondycji. Jeśli w polu kondycji zadania nie określono żadnej reguły dla metryki RUN_DURATION_SECONDS, powiadomienia nie są wysyłane.

on_failure
on_failure array of string

Lista adresów e-mail, które mają być powiadamiane, gdy przebieg zakończy się niepowodzeniem. Przebieg jest uznawany za zakończony niepowodzeniem, jeśli kończy się INTERNAL_ERROR life_cycle_state lub niepowodzeniem lub TIMED_OUT result_state. Jeśli ta wartość nie jest określona podczas tworzenia, resetowania lub aktualizowania listy jest pusta, a powiadomienia nie są wysyłane.

on_start
on_start array of string

Lista adresów e-mail, które mają być powiadamiane o rozpoczęciu przebiegu. Jeśli nie określono wartości podczas tworzenia, resetowania lub aktualizowania zadań, lista jest pusta, a powiadomienia nie są wysyłane.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Lista adresów e-mail do powiadamiania o przekroczeniu progów listy prac przesyłania strumieniowego dla dowolnego strumienia. Progi listy prac przesyłania strumieniowego można ustawić w polu kondycji przy użyciu następujących metryk: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS lub STREAMING_BACKLOG_FILES. Alerty są oparte na średniej 10-minutowej tych metryk. Jeśli problem będzie się powtarzać, powiadomienia są wysyłane co 30 minut.

on_success
on_success array of string

Lista adresów e-mail, które mają być powiadamiane po pomyślnym zakończeniu przebiegu. Przebieg jest uznawany za zakończony pomyślnie, jeśli kończy się life_cycle_state ZAKOŃCZONYm i powodzeniem result_state. Jeśli nie określono wartości podczas tworzenia, resetowania lub aktualizowania zadań, lista jest pusta, a powiadomienia nie są wysyłane.

ComputeLibrary

Nazwa Ścieżka Typ Opis
Cran
cran ComputeRCranLibrary
słoik
jar string

Identyfikator URI biblioteki JAR do zainstalowania. Obsługiwane identyfikatory URI obejmują ścieżki obszaru roboczego, ścieżki woluminów wykazu aparatu Unity i identyfikatory URL usługi ADLS. Na przykład: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } lub { "jar": "abfss://my-bucket/library.jar" }. Jeśli usługa ADLS jest używana, upewnij się, że klaster ma dostęp do odczytu w bibliotece. Aby uzyskać dostęp do identyfikatora URI usługi ADLS, może być konieczne uruchomienie klastra za pomocą jednostki usługi Microsoft Entra ID.

Maven
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
wymagania
requirements string

Identyfikator URI pliku requirements.txt do zainstalowania. Obsługiwane są tylko ścieżki obszaru roboczego i ścieżki woluminów wykazu aparatu Unity. Na przykład: { "requirements": "/Workspace/path/to/requirements.txt" } lub { "requirements": "/Volumes/path/to/requirements.txt" }

whl
whl string

Identyfikator URI biblioteki wheel do zainstalowania. Obsługiwane identyfikatory URI obejmują ścieżki obszaru roboczego, ścieżki woluminów wykazu aparatu Unity i identyfikatory URL usługi ADLS. Na przykład: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } lub { "whl": "abfss://my-bucket/library.whl" }. Jeśli usługa ADLS jest używana, upewnij się, że klaster ma dostęp do odczytu w bibliotece. Aby uzyskać dostęp do identyfikatora URI usługi ADLS, może być konieczne uruchomienie klastra za pomocą jednostki usługi Microsoft Entra ID.

ZadaniaForEachTask

Nazwa Ścieżka Typ Opis
współbieżność
concurrency integer

Opcjonalna dozwolona maksymalna dozwolona liczba współbieżnych uruchomień zadania. Ustaw tę wartość, jeśli chcesz mieć możliwość współbieżnego wykonywania wielu uruchomień zadania.

Wejścia
inputs string

Tablica zadań do iterowania. Może to być ciąg JSON lub odwołanie do parametru tablicy.

zadanie
task Object

ComputeRCranLibrary

Nazwa Ścieżka Typ Opis
pakiet
package string

Nazwa pakietu CRAN do zainstalowania.

repozytorium
repo string

Repozytorium, w którym można znaleźć pakiet. Jeśli nie zostanie określony, zostanie użyte domyślne repozytorium CRAN.

ComputeMavenLibrary

Nazwa Ścieżka Typ Opis
Współrzędne
coordinates string

Współrzędne maven w stylu Gradle. Na przykład: "org.jsoup:jsoup:1.7.2".

Wykluczenia
exclusions array of string

Lista zależności do wykluczenia. Na przykład: ["slf4j:slf4j", "*:hadoop-client"]. Wykluczenia zależności narzędzia Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

repozytorium
repo string

Repozytorium Maven do zainstalowania pakietu Maven z programu . W przypadku pominięcia przeszukiwane są zarówno centralne repozytorium Maven, jak i pakiety Spark.

ComputePythonPyPiLibrary

Nazwa Ścieżka Typ Opis
pakiet
package string

Nazwa pakietu pypi do zainstalowania. Obsługiwana jest również opcjonalna dokładna specyfikacja wersji. Przykłady: "simplejson" i "simplejson==3.8.0".

repozytorium
repo string

Repozytorium, w którym można znaleźć pakiet. Jeśli nie zostanie określony, zostanie użyty domyślny indeks.

ZadaniaNotebookTask

Nazwa Ścieżka Typ Opis
base_parameters
base_parameters object

Podstawowe parametry, które mają być używane dla każdego uruchomienia tego zadania. Jeśli przebieg jest inicjowany przez wywołanie metody :method:jobs/run Now z określonymi parametrami, dwie mapy parametrów zostaną scalone. Jeśli ten sam klucz jest określony w base_parameters i w uruchomieniu teraz, zostanie użyta wartość z polecenia run-now. Użyj zmiennych parametrów zadania , aby ustawić parametry zawierające informacje o uruchomieniach zadań. Jeśli notes przyjmuje parametr, który nie jest określony w base_parameters zadania lub parametrów run-now override, zostanie użyta wartość domyślna z notesu. Pobierz te parametry w notesie przy użyciu polecenia dbutils.widgets.get. Reprezentacja JSON tego pola nie może przekraczać 1 MB.

notebook_path
notebook_path string

Ścieżka notesu do uruchomienia w obszarze roboczym usługi Azure Databricks lub repozytorium zdalnym. W przypadku notesów przechowywanych w obszarze roboczym usługi Azure Databricks ścieżka musi być bezwzględna i zaczynać się ukośnikiem. W przypadku notesów przechowywanych w repozytorium zdalnym ścieżka musi być względna. To pole jest wymagane.

przesłać źródło
source JobsSource
warehouse_id
warehouse_id string

Opcjonalne warehouse_id do uruchamiania notesu w usłudze SQL Warehouse. Klasyczne magazyny SQL Nie są obsługiwane, należy używać bezserwerowych lub pro magazynów SQL. Należy pamiętać, że magazyny SQL obsługują tylko komórki SQL; Jeśli notes zawiera komórki inne niż SQL, przebieg zakończy się niepowodzeniem.

ZadaniaTaskNotificationSettings

Nazwa Ścieżka Typ Opis
alert_on_last_attempt
alert_on_last_attempt boolean

Jeśli to prawda, nie wysyłaj powiadomień do adresatów określonych w on_start dla ponowionych uruchomień i nie wysyłaj powiadomień do adresatów określonych w on_failure do ostatniej próby uruchomienia.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Jeśli wartość true, nie wysyłaj powiadomień do adresatów określonych w on_failure, jeśli przebieg zostanie anulowany.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Jeśli wartość true, nie wysyłaj powiadomień do adresatów określonych w on_failure, jeśli przebieg zostanie pominięty.

ZadaniaPipelineTask

Nazwa Ścieżka Typ Opis
full_refresh
full_refresh boolean

Jeśli wartość true, wyzwala pełne odświeżanie w tabeli delta live.

pipeline_id
pipeline_id string

Pełna nazwa zadania potoku do wykonania.

ZadaniaPythonWheelTask

Nazwa Ścieżka Typ Opis
entry_point
entry_point string

Nazwany punkt wejścia do użycia, jeśli nie istnieje w metadanych pakietu, wykonuje funkcję z pakietu bezpośrednio przy użyciu $packageName.$entryPoint()

named_parameters
named_parameters object

Parametry wiersza polecenia przekazane do zadania wheel języka Python w postaci ["--name=task", "--data=dbfs:/path/to/data.json"]. Pozostaw to puste, jeśli parametry nie mają wartości null.

package_name
package_name string

Nazwa pakietu do wykonania

parameters
parameters array of string

Parametry wiersza polecenia przekazane do zadania wheel języka Python. Pozostaw to puste, jeśli named_parameters nie ma wartości null.

ZadaniaUruchomienie

ZadaniaRunJobTask

Nazwa Ścieżka Typ Opis
job_id
job_id integer

Identyfikator zadania do wyzwolenia.

job_parameters
job_parameters object

Parametry na poziomie zadania używane do wyzwalania zadania.

pipeline_params
pipeline_params JobsPipelineParams

ZadaniaSparkJarTask

Nazwa Ścieżka Typ Opis
main_class_name
main_class_name string

Pełna nazwa klasy zawierającej metodę główną do wykonania. Ta klasa musi być zawarta w pliku JAR udostępnionym jako biblioteka. Aby uzyskać kontekst platformy Spark, kod musi używać elementu SparkContext.getOrCreate; w przeciwnym razie uruchomienie zadania kończy się niepowodzeniem.

parameters
parameters array of string

Parametry przekazane do metody main. Użyj zmiennych parametrów zadania , aby ustawić parametry zawierające informacje o uruchomieniach zadań.

ZadaniaSparkPythonTask

Nazwa Ścieżka Typ Opis
parameters
parameters array of string

Parametry wiersza polecenia przekazane do pliku języka Python. Użyj zmiennych parametrów zadania , aby ustawić parametry zawierające informacje o uruchomieniach zadań.

python_file
python_file string

Plik języka Python do wykonania. Obsługiwane są identyfikatory URI plików w chmurze (takie jak dbfs:/, s3:/, adls:/, gcs:/) i ścieżki obszaru roboczego. W przypadku plików języka Python przechowywanych w obszarze roboczym usługi Azure Databricks ścieżka musi być bezwzględna i zaczynać się od /. W przypadku plików przechowywanych w repozytorium zdalnym ścieżka musi być względna. To pole jest wymagane.

przesłać źródło
source JobsSource

ZadaniaSparkSubmitTask

Nazwa Ścieżka Typ Opis
parameters
parameters array of string

Parametry wiersza polecenia przekazane do przesyłania platformy Spark. Użyj zmiennych parametrów zadania , aby ustawić parametry zawierające informacje o uruchomieniach zadań.

ZadaniaWebhookNotifications

Nazwa Ścieżka Typ Opis
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Opcjonalna lista identyfikatorów powiadomień systemowych do wywołania, gdy czas trwania przebiegu przekracza próg określony dla metryki RUN_DURATION_SECONDS w polu kondycji. Dla właściwości on_duration_warning_threshold_exceeded można określić maksymalnie 3 miejsca docelowe.

on_failure
on_failure array of JobsWebhook

Opcjonalna lista identyfikatorów powiadomień systemowych do wywołania w przypadku niepowodzenia przebiegu. Dla właściwości on_failure można określić maksymalnie 3 miejsca docelowe.

on_start
on_start array of JobsWebhook

Opcjonalna lista identyfikatorów powiadomień systemowych do wywołania podczas uruchamiania przebiegu. Dla właściwości on_start można określić maksymalnie 3 miejsca docelowe.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Opcjonalna lista identyfikatorów powiadomień systemowych do wywołania w przypadku przekroczenia progów listy prac przesyłania strumieniowego dla dowolnego strumienia. Progi listy prac przesyłania strumieniowego można ustawić w polu kondycji przy użyciu następujących metryk: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS lub STREAMING_BACKLOG_FILES. Alerty są oparte na średniej 10-minutowej tych metryk. Jeśli problem będzie się powtarzać, powiadomienia są wysyłane co 30 minut. Dla właściwości on_streaming_backlog_exceeded można określić maksymalnie 3 miejsca docelowe.

on_success
on_success array of JobsWebhook

Opcjonalna lista identyfikatorów powiadomień systemowych do wywołania po pomyślnym zakończeniu przebiegu. Dla właściwości on_success można określić maksymalnie 3 miejsca docelowe.

ZadaniaWebhook

Nazwa Ścieżka Typ Opis
id
id string

ZadaniaTriggerSettings

Nazwa Ścieżka Typ Opis
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
okresowy
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Nazwa Ścieżka Typ Opis
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

W przypadku ustawienia wyzwalacz uruchamia przebieg dopiero po upływie określonego czasu od czasu ostatniego uruchomienia wyzwalacza. Minimalna dozwolona wartość to 60 sekund

URL
url string

Adres URL, który ma być monitorowany pod kątem przybycia plików. Ścieżka musi wskazywać katalog główny lub ścieżkę podrzędną lokalizacji zewnętrznej.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

W przypadku ustawienia wyzwalacz uruchamia przebieg dopiero po tym, jak nie wystąpiło żadne działanie pliku przez określony czas. Dzięki temu można poczekać na nadejście partii plików przychodzących przed wyzwoleniem przebiegu. Minimalna dozwolona wartość to 60 sekund.

JobsPeriodicTriggerConfiguration

Nazwa Ścieżka Typ Opis
interwał
interval integer

Interwał uruchamiania wyzwalacza.

jednostka
unit JobsPeriodicTriggerConfigurationTimeUnit

ZadaniaPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Nazwa Ścieżka Typ Opis
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Nazwa Ścieżka Typ Opis
using_file_events
using_file_events boolean

Wskazuje, czy wyzwalacz wykorzystuje zdarzenia plików do wykrywania przybyszów plików.

ZadaniaUruchomienie

Nazwa Ścieżka Typ Opis
attempt_number
attempt_number integer

Numer sekwencji tej próby uruchomienia wyzwolonego zadania. Początkowa próba uruchomienia ma attempt_number 0. Jeśli początkowa próba uruchomienia zakończy się niepowodzeniem, a zadanie ma zasady ponawiania (max_retries > 0), kolejne uruchomienia zostaną utworzone przy użyciu original_attempt_run_id identyfikatora oryginalnej próby i przyrostowego attempt_number. Uruchomienia są ponawiane tylko do momentu pomyślnego wykonania, a maksymalna attempt_number jest taka sama jak wartość max_retries dla zadania.

cleanup_duration
cleanup_duration integer

Czas w milisekundach, który trwał, aby zakończyć działanie klastra i wyczyścić wszystkie skojarzone artefakty. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole cleanup_duration ma wartość 0 dla uruchomiń zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Nazwa użytkownika twórcy. To pole nie zostanie uwzględnione w odpowiedzi, jeśli użytkownik został już usunięty.

opis
description string

Opis przebiegu

effective_performance_target
effective_performance_target JobsPerformanceTarget
czas zakończenia
end_time integer

Czas, w którym ten przebieg zakończył się w milisekundach epoki (milisekundy od 1/1/1970 UTC). To pole ma wartość 0, jeśli zadanie jest nadal uruchomione.

execution_duration
execution_duration integer

Czas w milisekundach, który trwał, aby wykonać polecenia w pliku JAR lub notesie, dopóki nie zostały ukończone, zakończone niepowodzeniem, upłynął limit czasu, zostały anulowane lub napotkały nieoczekiwany błąd. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole execution_duration jest ustawione na 0 dla przebiegów zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

git_source
git_source JobsGitSource
zawiera_więcej
has_more boolean

Wskazuje, czy przebieg ma więcej właściwości tablicy (zadań, job_clusters), które nie są wyświetlane. Dostęp do nich można uzyskać za pośrednictwem punktu końcowego :method:jobs/getrun. Dotyczy to tylko żądań interfejsu API 2.2 :method:jobs/listruns z expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Lista specyfikacji klastra zadań, które mogą być współużytkowane i ponownie używane przez zadania tego zadania. Nie można zadeklarować bibliotek w klastrze zadań udostępnionych. Biblioteki zależne należy zadeklarować w ustawieniach zadań. Jeśli jest dostępnych więcej niż 100 klastrów zadań, możesz stronicować je przy użyciu polecenia :method:jobs/getrun.

job_id
job_id integer

Kanoniczny identyfikator zadania zawierającego ten przebieg.

job_parameters
job_parameters array of JobsJobParameter

Parametry na poziomie zadania używane w przebiegu

job_run_id
job_run_id integer

Identyfikator uruchomienia zadania, do którego należy ten przebieg. W przypadku starszych i pojedynczych zadań podrzędnych pole jest wypełniane identyfikatorem uruchomienia zadania. W przypadku przebiegów zadań pole jest wypełniane identyfikatorem przebiegu zadania, do którego należy uruchomienie zadania.

next_page_token
next_page_token string

Token, którego można użyć do wyświetlenia następnej strony właściwości tablicy.

original_attempt_run_id
original_attempt_run_id integer

Jeśli ten przebieg jest ponowną próbą wcześniejszej próby uruchomienia, to pole zawiera run_id oryginalnej próby; w przeciwnym razie jest taka sama jak run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Czas w milisekundach, który przebieg spędził w kolejce.

repair_history
repair_history array of JobsRepairHistoryItem

Historia naprawy przebiegu.

run_duration
run_duration integer

Czas w milisekundach zajęł uruchomienie zadania i wszystkie jego naprawy do zakończenia.

run_id
run_id integer

Identyfikator kanoniczny przebiegu. Ten identyfikator jest unikatowy we wszystkich uruchomieniach wszystkich zadań.

run_name
run_name string

Opcjonalna nazwa przebiegu. Maksymalna długość to 4096 bajtów w kodowaniu UTF-8.

run_page_url
run_page_url string

Adres URL strony szczegółów przebiegu.

typ_uruchomienia
run_type JobsRunType
grafik
schedule JobsCronSchedule
setup_duration
setup_duration integer

Czas w milisekundach zajęło skonfigurowanie klastra. W przypadku przebiegów uruchamianych w nowych klastrach jest to czas tworzenia klastra, w przypadku przebiegów uruchamianych w istniejących klastrach tym razem powinno być bardzo krótkie. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole setup_duration ma wartość 0 dla uruchomiń zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

czas_rozpoczęcia
start_time integer

Czas rozpoczęcia tego przebiegu w milisekundach epoki (milisekundy od 1.1.1.1970 UTC). Może to nie być czas rozpoczęcia wykonywania zadania zadania, na przykład jeśli zadanie zostało zaplanowane do uruchomienia w nowym klastrze, jest to czas, w którym zostanie wydane wywołanie tworzenia klastra.

stan
status JobsRunStatus
tasks
tasks array of JobsRunTask

Lista zadań wykonywanych przez przebieg. Każde zadanie ma własne run_id, którego można użyć do wywołania ZadaniaGetOutput w celu pobrania ponownych uruchomień. Jeśli dostępnych jest więcej niż 100 zadań, można je stronicować przy użyciu polecenia :method:jobs/getrun. Użyj pola next_page_token w katalogu głównym obiektu, aby określić, czy są dostępne więcej wyników.

wyzwalacz
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

ZadaniaClusterInstance

Nazwa Ścieżka Typ Opis
cluster_id
cluster_id string

Identyfikator kanoniczny klastra używanego przez przebieg. To pole jest zawsze dostępne dla przebiegów w istniejących klastrach. W przypadku przebiegów w nowych klastrach staje się on dostępny po utworzeniu klastra. Tej wartości można użyć do wyświetlania dzienników, przechodząc do folderu /#setting/sparkui/$cluster_id/driver-logs. Dzienniki będą nadal dostępne po zakończeniu przebiegu. Odpowiedź nie będzie zawierać tego pola, jeśli identyfikator nie jest jeszcze dostępny.

spark_context_id
spark_context_id string

Identyfikator kanoniczny kontekstu platformy Spark używany przez przebieg. To pole jest wypełniane po rozpoczęciu wykonywania przebiegu. Ta wartość może służyć do wyświetlania interfejsu użytkownika platformy Spark, przechodząc do adresu /#setting/sparkui/$cluster_id/$spark_context_id. Interfejs użytkownika platformy Spark jest nadal dostępny po zakończeniu przebiegu. Odpowiedź nie będzie zawierać tego pola, jeśli identyfikator nie jest jeszcze dostępny.

ZadaniaClusterSpec

Nazwa Ścieżka Typ Opis
existing_cluster_id
existing_cluster_id string

Jeśli existing_cluster_id, identyfikator istniejącego klastra, który jest używany dla wszystkich przebiegów. Podczas uruchamiania zadań lub zadań w istniejącym klastrze może być konieczne ręczne ponowne uruchomienie klastra, jeśli przestanie odpowiadać. Zalecamy uruchamianie zadań i zadań w nowych klastrach w celu zwiększenia niezawodności

job_cluster_key
job_cluster_key string

Jeśli job_cluster_key, to zadanie jest wykonywane ponownie przy użyciu klastra określonego w job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Opcjonalna lista bibliotek do zainstalowania w klastrze. Wartość domyślna to pusta lista.

new_cluster
new_cluster ComputeClusterSpec

ZadaniaJobParameter

Nazwa Ścieżka Typ Opis
domyślny
default string

Opcjonalna wartość domyślna parametru

nazwa
name string

Nazwa parametru

value
value string

Wartość użyta w przebiegu

ZadaniaRunParameters

Nazwa Ścieżka Typ Opis
pipeline_params
pipeline_params JobsPipelineParams

ZadaniaRepairHistoryItem

Nazwa Ścieżka Typ Opis
effective_performance_target
effective_performance_target JobsPerformanceTarget
czas zakończenia
end_time integer

Godzina zakończenia (naprawione) przebiegu.

id
id integer

Identyfikator naprawy. Zwracane są tylko elementy reprezentujące naprawę w repair_history.

czas_rozpoczęcia
start_time integer

Godzina rozpoczęcia (naprawione) przebiegu.

stan
status JobsRunStatus
task_run_ids
task_run_ids array of integer

Identyfikatory uruchomień zadania uruchomionego w ramach tego elementu historii naprawy.

typ
type JobsRepairHistoryItemType

ZadaniaRunStatus

Nazwa Ścieżka Typ Opis
queue_details
queue_details JobsQueueDetails
stan
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

ZadaniaQueueDetails

Nazwa Ścieżka Typ Opis
kod
code JobsQueueDetailsCodeCode
komunikat
message string

Opisowy komunikat ze szczegółami kolejkowania. To pole jest nieustrukturyzowane, a jego dokładny format podlega zmianie.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

ZadaniaTerminationDetails

Nazwa Ścieżka Typ Opis
kod
code JobsTerminationCodeCode
komunikat
message string

Opisowy komunikat ze szczegółami zakończenia. To pole jest nieustrukturyzowane, a format może ulec zmianie.

typ
type JobsTerminationTypeType

JobsTerminationCodeCode

TypTypterminacji zadań

JobsRepairHistoryItemType

JobsRunType

ZadaniaRunTask

Nazwa Ścieżka Typ Opis
attempt_number
attempt_number integer

Numer sekwencji tej próby uruchomienia wyzwolonego zadania. Początkowa próba uruchomienia ma attempt_number 0. Jeśli początkowa próba uruchomienia zakończy się niepowodzeniem, a zadanie ma zasady ponawiania (max_retries > 0), kolejne uruchomienia zostaną utworzone przy użyciu original_attempt_run_id identyfikatora oryginalnej próby i przyrostowego attempt_number. Uruchomienia są ponawiane tylko do momentu pomyślnego wykonania, a maksymalna attempt_number jest taka sama jak wartość max_retries dla zadania.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Czas w milisekundach, który trwał, aby zakończyć działanie klastra i wyczyścić wszystkie skojarzone artefakty. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole cleanup_duration ma wartość 0 dla uruchomiń zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Opcjonalna tablica obiektów określających graf zależności zadania. Wszystkie zadania określone w tym polu muszą zostać wykonane pomyślnie przed wykonaniem tego zadania. Klucz jest task_key, a wartość jest nazwą przypisaną do zadania zależnego.

opis
description string

Opcjonalny opis tego zadania.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
czas zakończenia
end_time integer

Czas, w którym ten przebieg zakończył się w milisekundach epoki (milisekundy od 1/1/1970 UTC). To pole ma wartość 0, jeśli zadanie jest nadal uruchomione.

environment_key
environment_key string

Klucz odwołujący się do specyfikacji środowiska w zadaniu. To pole jest wymagane w przypadku zadań skryptów języka Python, kółka języka Python i dbt podczas korzystania z obliczeń bezserwerowych.

execution_duration
execution_duration integer

Czas w milisekundach, który trwał, aby wykonać polecenia w pliku JAR lub notesie, dopóki nie zostały ukończone, zakończone niepowodzeniem, upłynął limit czasu, zostały anulowane lub napotkały nieoczekiwany błąd. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole execution_duration jest ustawione na 0 dla przebiegów zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

existing_cluster_id
existing_cluster_id string

Jeśli existing_cluster_id, identyfikator istniejącego klastra, który jest używany dla wszystkich przebiegów. Podczas uruchamiania zadań lub zadań w istniejącym klastrze może być konieczne ręczne ponowne uruchomienie klastra, jeśli przestanie odpowiadać. Zalecamy uruchamianie zadań i zadań w nowych klastrach w celu zwiększenia niezawodności

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Jeśli job_cluster_key, to zadanie jest wykonywane ponownie przy użyciu klastra określonego w job.settings.job_clusters.

libraries
libraries array of Object

Opcjonalna lista bibliotek do zainstalowania w klastrze. Wartość domyślna to pusta lista.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Czas w milisekundach, który przebieg spędził w kolejce.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

Czas w milisekundach zajęł uruchomienie zadania i wszystkie jego naprawy do zakończenia.

run_id
run_id integer

Identyfikator przebiegu zadania.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

Czas w milisekundach zajęło skonfigurowanie klastra. W przypadku przebiegów uruchamianych w nowych klastrach jest to czas tworzenia klastra, w przypadku przebiegów uruchamianych w istniejących klastrach tym razem powinno być bardzo krótkie. Czas trwania przebiegu zadania to suma setup_duration, execution_duration i cleanup_duration. Pole setup_duration ma wartość 0 dla uruchomiń zadań wielotaskowych. Łączny czas trwania uruchomienia zadania wielotaskowego to wartość pola run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
czas_rozpoczęcia
start_time integer

Czas rozpoczęcia tego przebiegu w milisekundach epoki (milisekundy od 1.1.1.1970 UTC). Może to nie być czas rozpoczęcia wykonywania zadania zadania, na przykład jeśli zadanie zostało zaplanowane do uruchomienia w nowym klastrze, jest to czas, w którym zostanie wydane wywołanie tworzenia klastra.

stan
status JobsRunStatus
task_key
task_key string

Unikatowa nazwa zadania. To pole służy do odwoływania się do tego zadania z innych zadań. To pole jest wymagane i musi być unikatowe w ramach zadania nadrzędnego. W przypadku aktualizacji lub resetowania to pole służy do odwołowania się do zadań, które mają zostać zaktualizowane lub zresetowane.

timeout_seconds
timeout_seconds integer

Opcjonalny limit czasu zastosowany do każdego uruchomienia tego zadania zadania. Wartość 0 oznacza brak limitu czasu.

webhook_notifications
webhook_notifications Object

ZadaniaRunConditionTask

Nazwa Ścieżka Typ Opis
lewo
left string

Lewy operand zadania warunku. Może być wartością ciągu lub stanem zadania lub odwołaniem do parametrów.

Op
op JobsConditionTaskOp
wynik
outcome string

Wynik obliczania wyrażenia warunku. Wypełnione, jeśli zadanie zostało ukończone pomyślnie. Może mieć wartość "true" lub "false"

Prawy
right string

Prawy operand zadania warunku. Może być wartością ciągu lub stanem zadania lub odwołaniem do parametrów.

JobsTriggerType

JobsTriggerInfo

Nazwa Ścieżka Typ Opis
run_id
run_id integer

Identyfikator uruchomienia zadania Uruchom zadanie

ZadaniaRunOutput

Nazwa Ścieżka Typ Opis
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
błąd
error string

Komunikat o błędzie wskazujący, dlaczego zadanie nie powiodło się lub dlaczego dane wyjściowe nie są dostępne. Komunikat jest nieustrukturyzowany, a jego dokładny format może ulec zmianie.

error_trace
error_trace string

Jeśli wystąpił błąd podczas wykonywania przebiegu, to pole zawiera wszelkie dostępne ślady stosu.

info
info string
dzienniki
logs string

Dane wyjściowe zadań, które zapisują do standardowych strumieni (stdout/stderr), takich jak spark_jar_task, spark_python_task, python_wheel_task. Nie jest obsługiwana w przypadku notebook_task, pipeline_task ani spark_submit_task. Usługa Azure Databricks ogranicza ten interfejs API do zwrócenia ostatnich 5 MB tych dzienników.

logs_truncated
logs_truncated boolean

Czy dzienniki są obcięte.

metadane
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

ZadaniaNotebookOutput

Nazwa Ścieżka Typ Opis
wynik
result string

Wartość przekazana do dbutils.notebook.exit(). Usługa Azure Databricks ogranicza ten interfejs API do zwrócenia pierwszych 5 MB wartości. W przypadku większego wyniku zadanie może przechowywać wyniki w usłudze magazynu w chmurze. To pole jest nieobecne, jeśli polecenie dbutils.notebook.exit() nigdy nie zostało wywołane.

Obcinane
truncated boolean

Czy wynik został obcięty.

ZadaniaRunJobOutput

Nazwa Ścieżka Typ Opis
run_id
run_id integer

Identyfikator przebiegu wyzwalanego zadania

ZadaniaResolvedValues

Nazwa Ścieżka Typ Opis
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

ZadaniaResolvedConditionTaskValues

Nazwa Ścieżka Typ Opis
lewo
left string
Prawy
right string

ZadaniaResolvedDbtTaskValues

Nazwa Ścieżka Typ Opis
commands
commands array of string

ZadaniaResolvedNotebookTaskValues

Nazwa Ścieżka Typ Opis
base_parameters
base_parameters object

ZadaniaResolvedPythonWheelTaskValues

Nazwa Ścieżka Typ Opis
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Nazwa Ścieżka Typ Opis
job_parameters
job_parameters object
parameters
parameters object

ZadaniaResolvedParamPairValues

Nazwa Ścieżka Typ Opis
parameters
parameters object

ZadaniaResolvedStringParamsValues

Nazwa Ścieżka Typ Opis
parameters
parameters array of string