Sdílet prostřednictvím


Azure Databricks

Azure Databricks nabízí jednotnou platformu pro škálovatelnou správu dat, zásady správného řízení a analýzu, která kombinuje zjednodušené pracovní postupy s možností efektivně zpracovávat různé datové typy.

Tento konektor je dostupný v následujících produktech a oblastech:

Service Class Regions
Copilot Studio Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Power Apps Premium Všechny oblasti Power Apps s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Power Automate Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Kontakt
Název Podpora Databricks
URL https://help.databricks.com
Email eng-partner-eco-help@databricks.com
Metadata konektoru
Vydavatel Databricks Inc.
Internetová stránka https://www.databricks.com/
Zásady ochrany osobních údajů https://www.databricks.com/legal/privacynotice
Kategorie Data

Připojení k Azure Databricks z Microsoft Power Platform

Tato stránka vysvětluje, jak se připojit k Azure Databricks z Microsoft Power Platform přidáním Azure Databricks jako datového připojení. Při připojení můžete data Azure Databricks používat z následujících platforem:

  • Power Apps: Vytvářejte aplikace, které můžou číst a zapisovat do Azure Databricks a současně zachovat ovládací prvky zásad správného řízení Azure Databricks.
  • Power Automate: Sestavte toky a přidejte akce, které umožňují spouštění vlastních SQL nebo existujících úloh a získávají zpět výsledky.
  • Copilot Studio: Vytváření vlastních agentů pomocí dat Azure Databricks jako zdroje znalostí

Než začnete

Než se připojíte k Azure Databricks z Power Platform, musíte splnit následující požadavky:

  • Máte účet Microsoft Entra ID (dříve Azure Active Directory).
  • Máte prémiovou licenci Power Apps.
  • Máte účet Azure Databricks.
  • Máte přístup k SQL Warehouse v Azure Databricks.

Volitelné: Připojení pomocí virtuálních sítí Azure

Pokud váš pracovní prostor Azure Databricks používá virtuální sítě, můžete se připojit dvěma způsoby:

  1. Integrujte Power Platform s prostředky ve vaší virtuální síti, aniž byste je vystavili veřejnému internetu. Pokud se chcete připojit k privátnímu koncovému bodu pracovního prostoru Azure Databricks, proveďte následující kroky po konfiguraci privátního připojení k Azure Databricks:

    Další informace o virtuálních sítích najdete v tématu Přehled podpory virtuálních sítí.

  2. Povolte přístup s hybridním nasazením, kde front-endový soukromý odkaz s veřejným koncovým bodem je chráněn seznamem IP adres pracovního prostoru. Pokud chcete povolit přístup, postupujte takto:

    1. Povolte veřejný přístup na úrovni pracovního prostoru. Další podrobnosti najdete v tématu Konfigurace přístupových seznamů IP adres pro pracovní prostory.
    2. Přidejte rozsah IP adres AzureConnectors nebo konkrétní rozsah IP adres Power Platform na základě oblasti vašeho prostředí do seznamu přístupových IP adres pracovního prostoru.

Volitelné: Vytvoření instančního objektu Microsoft Entra

Důležitá

Pokud jsou Azure Databricks a Power Platform v různých tenantech, musíte k ověřování použít instanční objekty.

Před připojením proveďte následující kroky a vytvořte, nastavte a přiřaďte instanční objekt Microsoft Entra k vašemu účtu nebo pracovnímu prostoru Azure Databricks:

Krok 1: Přidání připojení Azure Databricks k Power Platform

Poznámka: Pokud používáte Copilot Studio, doporučujeme vytvořit připojení Databricks v Power Apps nebo Power Automate. Pak ho můžete použít v nástroji Copilot Studio.

Pokud chcete přidat připojení Azure Databricks, postupujte takto:

  1. V Power Apps nebo Power Automate klikněte na bočním panelu na Připojení.

  2. V levém horním rohu klikněte na + Nové připojení .

  3. Pomocí vyhledávacího panelu v pravém horním rohu vyhledejte "Azure Databricks" .

  4. Vyberte dlaždici Azure Databricks.

  5. V rozevírací nabídce vyberte typ ověřování .

  6. Vyberte metodu ověřování a zadejte ověřovací údaje.

    • Pokud je nasazení Power Platform a účet Azure Databricks ve stejném tenantu Microsoft Entra, můžete použít připojení OAuth. Zadejte následující informace:

      • Jako název hostitele serveru zadejte název hostitele azure Databricks SQL Warehouse.
      • Jako cestu HTTP zadejte cestu HTTP služby SQL Warehouse.
      • Klikněte na Vytvořit.
      • Přihlaste se pomocí svého ID Microsoft Entra.
    • Připojení servisního principálu je možné použít v libovolném scénáři. Před připojením vytvořte instanční objekt Microsoft Entra. Zadejte následující informace:

      • Jako ID klienta zadejte ID hlavního objektu služby.
      • Jako tajný klíč klienta zadejte tajný klíč služby.
      • Jako tenant zadejte tenanta instančního objektu.
      • Jako název hostitele zadejte název hostitele Azure Databricks SQL Warehouse.
      • Jako cestu HTTP zadejte cestu HTTP služby SQL Warehouse.
      • (Volitelné) Po vytvoření připojení můžete přejmenovat nebo sdílet připojení servisního principálu s členy týmu.
    • Podrobnosti o připojení ke službě Azure Databricks SQL Warehouse najdete v tématu Získání podrobností o připojení pro výpočetní prostředek Azure Databricks.

  7. Klikněte na Vytvořit.

Krok 2: Použití připojení Azure Databricks

Po vytvoření připojení Azure Databricks v Power Apps nebo Power Automate můžete pomocí dat Azure Databricks vytvářet aplikace plátna Power, toky Power Automate a agenty Copilot Studia.

Použití dat Azure Databricks k vytváření aplikací plátna Power

Důležitá

Aplikace typu canvas můžete používat pouze v případě, že se přímo připojujete k Azure Databricks v těchto aplikacích. Nemůžete použít virtuální tabulky.

Pokud chcete do aplikace přidat data Azure Databricks, postupujte takto:

  1. V levém navigačním panelu klikněte na Vytvořit.
  2. Klikněte na Začít s prázdným plátnem a výběrem požadované velikosti plátna vytvořte novou aplikaci plátna.
  3. V aplikaci klikněte na Přidat datové>konektory>Azure Databricks. Vyberte připojení Azure Databricks, které jste vytvořili.
  4. Vyberte katalog z bočního panelu Zvolit datovou sadu .
  5. Na bočním panelu Zvolit datovou sadu vyberte všechny tabulky, ke které chcete aplikaci plátna připojit.
  6. Klepněte na tlačítko Připojit.

Operace s daty v Power Apps:

Konektor podporuje operace vytváření, aktualizace a odstraňování, ale pouze pro tabulky, které mají definovaný primární klíč. Při provádění operací vytváření musíte vždy zadat primární klíč.

Poznámka: Azure Databricks podporuje vygenerované sloupce identit. V tomto případě se hodnoty primárního klíče automaticky generují na serveru během vytváření řádků a nelze je zadat ručně.

Použití dat Azure Databricks k vytváření toků Power Automate

Rozhraní API pro spouštění příkazů a rozhraní API úloh se zveřejňují v Power Automate, takže můžete psát příkazy SQL a spouštět existující úlohy. Chcete-li vytvořit tok Power Automate s Azure Databricks jako akcí, postupujte takto:

  1. V levém navigačním panelu klikněte na Vytvořit.
  2. Vytvořte tok a přidejte libovolný typ triggeru.
  3. V novém toku klikněte + na Databricks a vyhledejte "Databricks" a zobrazte dostupné akce.

Pokud chcete napsat SQL, vyberte jednu z následujících akcí:

  • Spusťte příkaz SQL: Zapište a spusťte příkaz SQL. Zadejte následující:

    • Do pole Body/warehouse_id zadejte ID skladu, na kterém se má příkaz SQL spustit.
    • Do pole Body/statement_id zadejte ID příkazu SQL, který se má spustit.
    • Další informace o rozšířených parametrech najdete tady.
  • Kontrola stavu a získání výsledků: Zkontrolujte stav příkazu SQL a shromážděte výsledky. Zadejte následující:

    • Jako ID příkazu zadejte ID vrácené při spuštění příkazu SQL.
    • Další informace o parametru najdete tady.
  • Zrušení spuštění příkazu: Ukončete provádění příkazu SQL. Zadejte následující:

    • Pro ID příkazu zadejte ID příkazu SQL, který se má ukončit.
    • Další informace o parametru najdete tady.
  • Získání výsledku podle indexu bloků dat: Získá výsledky podle indexu bloků dat, který je vhodný pro velké sady výsledků. Zadejte následující:

    • Jako ID příkazu zadejte ID příkazu SQL, jehož výsledky chcete načíst.
    • Jako blokový index zadejte cílový index bloku dat.
    • Další informace o parametrech najdete tady.

Pokud chcete pracovat s existující úlohou Databricks, vyberte jednu z následujících akcí:

  • Úlohy seznamu: Načte seznam úloh. Další informace najdete tady.
  • Aktivace nového spuštění úlohy: Spustí úlohu a vrátí run_id aktivovaného spuštění. Další informace najdete tady.
  • Získání jednoho spuštění úlohy: Vrátí metadata o spuštění, včetně stavu spuštění (např. RUNNING, SUCCESS, FAILED), počátečního a koncového času, doby provádění, informací o clusteru atd. Další informace najdete tady.
  • Zrušení spuštění úlohy: Zruší spuštění úlohy nebo spuštění úlohy. Další informace najdete zde.
  • Získejte výstup pro jedno spuštění úlohy: Načte výstup a metadata jednoho spuštění úlohy. Další informace najdete zde.

Použití Azure Databricks jako zdroje znalostí v nástroji Copilot Studio

Pokud chcete data Azure Databricks přidat jako zdroj znalostí do agenta Copilot Studio, postupujte takto:

  1. Na bočním panelu klikněte na agenta.
  2. Vyberte existujícího agenta nebo vytvořte nového agenta kliknutím na + Nový agent.
    • Popište agenta zadáním zprávy a klepněte na tlačítko Vytvořit.
    • Nebo klikněte na Přeskočit a zadejte informace o agentovi ručně.
  3. Na kartě Znalosti klikněte na + Znalosti.
  4. Klikněte na tlačítko Upřesnit.
  5. Jako zdroj znalostí vyberte Azure Databricks .
  6. Zadejte název katalogu, ve které jsou vaše data.
  7. Klepněte na tlačítko Připojit.
  8. Vyberte tabulky, které má agent používat jako zdroj znalostí, a klikněte na Přidat.

Vytvoření virtuálních tabulek Dataverse pomocí dat Azure Databricks

Virtuální tabulky Dataverse můžete vytvořit také pomocí konektoru Azure Databricks. Virtuální tabulky, označované také jako virtuální entity, integrují data z externích systémů s Microsoft Dataverse. Virtuální tabulka definuje tabulku v Dataverse bez uložení fyzické tabulky do databáze Dataverse. Další informace o virtuálních tabulkách najdete v tématu Začínáme s virtuálními tabulkami (entitami).

Poznámka

Přestože virtuální tabulky nevyužívají kapacitu úložiště Dataverse, Databricks doporučuje používat přímá připojení pro lepší výkon.

Musíte mít roli Úpravce systému nebo Správce systému. Další informace najdete v tématu Role zabezpečení pro Power Platform.

Pokud chcete vytvořit virtuální tabulku Dataverse, postupujte takto:

  1. V Power Apps na bočním panelu klikněte na Tabulky.

  2. V řádku nabídek klikněte na + Nová tabulka a vyberte Vytvořit virtuální tabulku.

  3. Vyberte existující připojení Azure Databricks nebo vytvořte nové připojení k Azure Databricks. Pokud chcete přidat nové připojení, přečtěte si krok 1: Přidání připojení Azure Databricks do Power Platform.

    Databricks doporučuje použít připojení pomocí servisního principu k vytvoření virtuální tabulky.

  4. Klikněte na tlačítko Další.

  5. Vyberte tabulky, které chcete znázorňovat jako virtuální tabulku Dataverse.

    • Virtuální tabulky Dataverse vyžadují primární klíč. Zobrazení proto nemohou být virtuálními tabulkami, ale materializovaná zobrazení mohou.
  6. Klikněte na tlačítko Další.

  7. V případě potřeby nakonfigurujte virtuální tabulku aktualizací podrobností tabulky.

  8. Klikněte na tlačítko Další.

  9. Potvrďte podrobnosti o zdroji dat a klikněte na Dokončit.

  10. Použijte virtuální tabulku Dataverse v Power Apps, Power Automate a Copilot Studiu.

Seznam známých omezení virtuálních tabulek Služby Dataverse najdete v tématu Známá omezení a řešení potíží.

Provádění dávkových aktualizací

Pokud potřebujete provádět hromadné operace vytváření, aktualizace nebo odstranění v reakci na vstupy Power Apps, databricks doporučuje implementovat tok Power Automate. Uděláte to takto:

  1. Vytvořte plátěnou aplikaci pomocí připojení Azure Databricks v Power Apps.

  2. Vytvořte tok Power Automate pomocí připojení Azure Databricks a jako trigger použijte Power Apps.

  3. V triggeru Power Automate přidejte vstupní pole, která chcete předat z Power Apps do Power Automate.

  4. Vytvořte v Power Apps objekt kolekce, který bude shromažďovat všechny změny.

  5. Přidejte tok Power Automate do vaší aplikace typu canvas.

  6. Volejte tok Power Automate z vaší plátěné aplikace a iterujte kolekci pomocí příkazu ForAll.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Souběžné zápisy

Souběžnost na úrovni řádků snižuje konflikty mezi souběžnými operacemi zápisu tím, že detekuje změny na úrovni řádků a automaticky řeší konflikty, ke kterým dochází při souběžné aktualizaci zápisu nebo odstranění různých řádků ve stejném datovém souboru.

Souběžnost na úrovni řádků je součástí Databricks Runtime 14.2 nebo vyšší. Souběžnost na úrovni řádků je ve výchozím nastavení podporovaná pro následující typy tabulek:

  • Tabulky s povolenými vektory odstranění a bez particionování
  • Tabulky s kapalným seskupováním, pokud nejsou zakázané vektory odstranění

Pokud chcete povolit vektory odstranění, spusťte následující příkaz SQL:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Další informace o souběžných konfliktech zápisu v Azure Databricks najdete v tématu Úrovně izolace a konflikty zápisu v Azure Databricks.

Přidání Azure Databricks do zásad dat

Přidáním Azure Databricks do zásad obchodních dat se zamezí možnosti sdílení dat Azure Databricks s konektory v jiných skupinách. Tím se chrání vaše data a zabráníte jejich sdílení s těmi, kteří by k těmto datům neměli mít přístup. Další informace najdete v tématu Správa zásad dat.

Chcete-li přidat konektor Azure Databricks do zásad správy dat Power Platform:

  1. V libovolné aplikaci Power Platform klikněte na ozubené kolečko nastavení v pravém horním rohu a vyberte Centrum pro správu.
  2. Na bočním panelu klikněte na Zásady>nakládání s daty.
  3. Pokud používáte nové centrum pro správu, klikněte na Data zabezpečení> azásady ochrany>.
  4. Klikněte na + Nová zásada nebo vyberte existující zásadu.
  5. Pokud vytváříte novou zásadu, zadejte název.
  6. Vyberte prostředí, které chcete přidat do zásad, a klikněte na + Přidat do zásad výše.
  7. Klikněte na tlačítko Další.
  8. Vyhledejte a vyberte konektor Azure Databricks .
  9. Klikněte na Přesunout k firemnímu účtu a poté na Další.
  10. Zkontrolujte zásady a klikněte na Vytvořit zásadu.

Omezení

  • Konektor Power Platform nepodporuje cloudy pro státní správu.

Omezení Power Appu

Následující vzorce PowerFx počítají hodnoty pouze pomocí dat, která byla načtena místně:

Kategorie Formula
funkce tabulky - GroupBy
-Zřetelný
Aggregation - CountRows
- StdevP
- StdevS

Vytvoření připojení

Konektor podporuje následující typy ověřování:

Připojení OAuth Připojení OAuth Všechny oblasti Nesdílitelné
Připojení instančního objektu Připojení instančního objektu Všechny oblasti Sdíletelný
Výchozí [ZASTARALÉ] Tato možnost je určená pouze pro starší připojení bez explicitního typu ověřování a poskytuje se pouze pro zpětnou kompatibilitu. Všechny oblasti Nesdílitelné

Připojení OAuth

ID ověřování: oauth2-auth

Použitelné: Všechny oblasti

Připojení OAuth

Toto připojení není možné sdílet. Pokud se power app sdílí s jiným uživatelem, zobrazí se výzva k explicitní vytvoření nového připojení.

Název Typ Description Povinné
Název hostitele serveru (příklad: adb-3980263885549757139.2.azuredatabricks.net) řetězec Název serveru pracovního prostoru Databricks Pravdivé
Cesta HTTP (příklad: /sql/1.0/warehouses/a9c4e781bd29f315) řetězec Cesta HTTP služby Databricks SQL Warehouse Pravdivé

Připojení instančního objektu

ID ověřování: oAuthClientCredentials

Použitelné: Všechny oblasti

Připojení instančního objektu

Toto připojení je možné sdílet. Pokud se power app sdílí s jiným uživatelem, sdílí se i připojení. Další informace najdete v přehledu konektorů pro aplikace plátna – Power Apps | Microsoft Docs

Název Typ Description Povinné
ID klienta řetězec Pravdivé
Tajný klíč klienta securestring Pravdivé
Tenant řetězec Pravdivé
Název hostitele serveru (příklad: adb-3980263885549757139.2.azuredatabricks.net) řetězec Název serveru pracovního prostoru Databricks Pravdivé
Cesta HTTP (příklad: /sql/1.0/warehouses/a9c4e781bd29f315) řetězec Cesta HTTP služby Databricks SQL Warehouse Pravdivé

Výchozí [ZASTARALÉ]

Použitelné: Všechny oblasti

Tato možnost je určená pouze pro starší připojení bez explicitního typu ověřování a poskytuje se pouze pro zpětnou kompatibilitu.

Toto připojení není možné sdílet. Pokud se power app sdílí s jiným uživatelem, zobrazí se výzva k explicitní vytvoření nového připojení.

Limity omezování

Name Volání Období obnovení
Volání rozhraní API na připojení 100 60 sekund

Akce

Aktivace nového spuštění úlohy

Spusťte úlohu a vraťte run_id aktivovaného spuštění.

Azure Databricks Genie

Dotazování prostorů Genie pro získání přehledů z vašich dat

Kontrola stavu a získání výsledků

Získání stavu, manifestu a výsledků příkazu

Provedení příkazu SQL

Spusťte příkaz SQL a volitelně vyčkejte na jeho výsledky po určitou dobu.

Výpis úloh

Načte seznam úloh.

Zrušení spuštění

Zruší spuštění úlohy nebo spuštění úlohy. Spuštění se zruší asynchronně, takže po dokončení tohoto požadavku může být stále spuštěné.

Zrušení spuštění příkazu

Požaduje zrušení prováděcího příkazu. Volající se musí dotazovat na stav terminálu, aby viděli stav terminálu.

Získání jednoho spuštění úlohy

Načte metadata spuštění. Velká pole ve výsledcích budou stránkována, když překročí 100 prvků. Požadavek na jedno spuštění vrátí všechny vlastnosti pro toto spuštění a prvních 100 prvků vlastností pole (úlohy, job_clusters, job_parameters a repair_history). Pomocí pole next_page_token můžete zkontrolovat další výsledky a předat jeho hodnotu jako page_token v dalších požadavcích. Pokud některé vlastnosti pole mají více než 100 prvků, vrátí se další výsledky v následných požadavcích. Pole bez dalších výsledků budou na pozdějších stránkách prázdná.

Získání výsledku podle indexu bloků dat

Po provedení příkazu SUCCEEDED lze tento požadavek použít k načtení libovolného bloku podle indexu.

Získání výstupu pro jedno spuštění

Načtěte výstup a metadata jednoho spuštění úlohy. Když úloha poznámkového bloku vrátí hodnotu prostřednictvím volání dbutils.notebook.exit(), můžete tuto hodnotu načíst pomocí tohoto koncového bodu. Azure Databricks omezuje toto rozhraní API na vrácení prvního 5 MB výstupu. Pokud chcete vrátit větší výsledek, můžete výsledky úloh uložit do služby cloudového úložiště. Tento koncový bod ověří platnost parametru run_id a vrátí stavový kód HTTP 400, pokud je parametr run_id neplatný. Spuštění se automaticky odeberou po 60 dnech. Pokud chcete odkazovat na ně po dobu delší než 60 dnů, musíte před vypršením jejich platnosti uložit staré výsledky spuštění.

Aktivace nového spuštění úlohy

Spusťte úlohu a vraťte run_id aktivovaného spuštění.

Parametry

Name Klíč Vyžadováno Typ Description
idempotency_token
idempotency_token string

Volitelný token, který zaručuje idempotenci žádostí o spuštění úlohy. Pokud již existuje spuštění s poskytnutým tokenem, požadavek nevytvoří nové spuštění, ale místo toho vrátí ID existujícího spuštění. Pokud se odstraní spuštění s poskytnutým tokenem, vrátí se chyba. Pokud zadáte token idempotency, můžete při selhání opakovat, dokud požadavek nebude úspěšný. Azure Databricks zaručuje, že se s tímto tokenem idempotence spustí právě jedno spuštění. Tento token musí mít maximálně 64 znaků. Další informace naleznete v tématu Jak zajistit idempotenci pro úlohy.

job_id
job_id True integer

ID úlohy, která se má provést

job_parameters
job_parameters object

Parametry na úrovni úlohy použité při spuštění například "param": "overriding_val"

pouze
only array of string

Seznam klíčů úkolů, které se mají spustit uvnitř úlohy. Pokud toto pole není zadané, spustí se všechny úkoly v úloze.

performance_target
performance_target string
full_refresh
full_refresh boolean

Pokud je hodnota true, aktivuje úplnou aktualizaci v dynamické tabulce Delta.

enabled
enabled True boolean

Pokud je hodnota true, povolte pro úlohu zařadění do fronty. Toto je povinné pole.

Návraty

Azure Databricks Genie

Dotazování prostorů Genie pro získání přehledů z vašich dat

Parametry

Name Klíč Vyžadováno Typ Description
ID místa Genie
genie_space_id True string

ID místa Genie

Kontrola stavu a získání výsledků

Získání stavu, manifestu a výsledků příkazu

Parametry

Name Klíč Vyžadováno Typ Description
ID příkazu
statement_id True string

ID příkazu

Návraty

Odpověď na spuštění příkazu

Provedení příkazu SQL

Spusťte příkaz SQL a volitelně vyčkejte na jeho výsledky po určitou dobu.

Parametry

Name Klíč Vyžadováno Typ Description
warehouse_id
warehouse_id True string

ID cílového skladu

příkaz
statement True string

Příkaz SQL, který se má provést. Příkaz může být volitelně parametrizován, viz parametry.

název
name True string

Název značky parametru

typ
type string

Datový typ parametru

value
value string

Hodnota parametru

katalog
catalog string

Výchozí katalog pro spuštění

schéma
schema string

Výchozí schéma pro spuštění

uspořádání
disposition string

Režim načítání výsledků

format
format string

Formát sady výsledků

on_wait_timeout
on_wait_timeout string

Akce při vypršení časového limitu

wait_timeout
wait_timeout string

Časový limit čekání výsledku

byte_limit
byte_limit integer

Limit bajtů výsledku

row_limit
row_limit integer

Limit řádku výsledku

Návraty

Odpověď na spuštění příkazu

Výpis úloh

Načte seznam úloh.

Parametry

Name Klíč Vyžadováno Typ Description
Omezení
limit integer

Počet úloh, které se mají vrátit. Tato hodnota musí být větší než 0 a menší nebo rovna 100. Výchozí hodnota je 20.

Rozbalit úkoly
expand_tasks boolean

Určuje, jestli se mají do odpovědi zahrnout podrobnosti o úlohách a clusterech. Všimněte si, že se zobrazí pouze prvních 100 prvků. Pomocí příkazu :method:jobs/get můžete stránkovat všechny úlohy a clustery.

Název úlohy
name string

Filtr seznamu na základě přesného názvu úlohy (nerozlišující malá a velká písmena)

Token stránky
page_token string

Pomocí next_page_token nebo prev_page_token vrácených z předchozího požadavku zobrazíte seznam dalších nebo předchozích stránek úloh.

Návraty

Zrušení spuštění

Zruší spuštění úlohy nebo spuštění úlohy. Spuštění se zruší asynchronně, takže po dokončení tohoto požadavku může být stále spuštěné.

Parametry

Name Klíč Vyžadováno Typ Description
run_id
run_id True integer

Toto pole je povinné.

Zrušení spuštění příkazu

Požaduje zrušení prováděcího příkazu. Volající se musí dotazovat na stav terminálu, aby viděli stav terminálu.

Parametry

Name Klíč Vyžadováno Typ Description
ID příkazu
statement_id True string

ID příkazu

Získání jednoho spuštění úlohy

Načte metadata spuštění. Velká pole ve výsledcích budou stránkována, když překročí 100 prvků. Požadavek na jedno spuštění vrátí všechny vlastnosti pro toto spuštění a prvních 100 prvků vlastností pole (úlohy, job_clusters, job_parameters a repair_history). Pomocí pole next_page_token můžete zkontrolovat další výsledky a předat jeho hodnotu jako page_token v dalších požadavcích. Pokud některé vlastnosti pole mají více než 100 prvků, vrátí se další výsledky v následných požadavcích. Pole bez dalších výsledků budou na pozdějších stránkách prázdná.

Parametry

Name Klíč Vyžadováno Typ Description
ID spuštění
run_id True integer

Kanonický identifikátor spuštění, pro který se mají načíst metadata. Toto pole je povinné.

Zahrnout historii
include_history boolean

Určuje, jestli se má do odpovědi zahrnout historie oprav.

Zahrnout vyřešené hodnoty
include_resolved_values boolean

Určuje, jestli se mají do odpovědi zahrnout přeložené hodnoty parametrů.

Token stránky
page_token string

Použijte next_page_token vrácenou z předchozí odpovědi GetRun a požádejte o další stránku vlastností pole spuštění.

Návraty

Body
JobsRun

Získání výsledku podle indexu bloků dat

Po provedení příkazu SUCCEEDED lze tento požadavek použít k načtení libovolného bloku podle indexu.

Parametry

Name Klíč Vyžadováno Typ Description
ID příkazu
statement_id True string

ID příkazu

Index bloku dat
chunk_index True string

Index bloku dat

Návraty

Získání výstupu pro jedno spuštění

Načtěte výstup a metadata jednoho spuštění úlohy. Když úloha poznámkového bloku vrátí hodnotu prostřednictvím volání dbutils.notebook.exit(), můžete tuto hodnotu načíst pomocí tohoto koncového bodu. Azure Databricks omezuje toto rozhraní API na vrácení prvního 5 MB výstupu. Pokud chcete vrátit větší výsledek, můžete výsledky úloh uložit do služby cloudového úložiště. Tento koncový bod ověří platnost parametru run_id a vrátí stavový kód HTTP 400, pokud je parametr run_id neplatný. Spuštění se automaticky odeberou po 60 dnech. Pokud chcete odkazovat na ně po dobu delší než 60 dnů, musíte před vypršením jejich platnosti uložit staré výsledky spuštění.

Parametry

Name Klíč Vyžadováno Typ Description
ID spuštění
run_id True integer

Kanonický identifikátor spuštění.

Návraty

Definice

Object

SqlBaseChunkInfo

Metadata pro blok dat sady výsledků

Name Cesta Typ Description
byte_count
byte_count integer

Počet bajtů ve výsledném bloku dat

chunk_index
chunk_index integer

Pozice v posloupnosti bloků sad výsledků

row_count
row_count integer

Počet řádků ve výsledném bloku dat

row_offset
row_offset integer

Počáteční posun řádku v sadě výsledků

SqlColumnInfo

Name Cesta Typ Description
název
name string

Název sloupce

postavení
position integer

Pozice sloupce (0)

type_interval_type
type_interval_type string

Formát typu intervalu

type_name
type_name SqlColumnInfoTypeName

Název základního datového typu. Nezahrnuje podrobnosti o složitých typech, jako je STRUCT, MAP nebo ARRAY.

type_precision
type_precision integer

Počet číslic pro typ DECIMAL

type_scale
type_scale integer

Počet desetinných míst pro typ DECIMAL

type_text
type_text string

Úplná specifikace typu SQL

SqlColumnInfoTypeName

Název základního datového typu. Nezahrnuje podrobnosti o složitých typech, jako je STRUCT, MAP nebo ARRAY.

Název základního datového typu. Nezahrnuje podrobnosti o složitých typech, jako je STRUCT, MAP nebo ARRAY.

SqlStatementResponse

Odpověď na spuštění příkazu

Name Cesta Typ Description
manifest
manifest SqlResultManifest

Schéma a metadata sady výsledků

výsledek
result SqlResultData
statement_id
statement_id string

ID příkazu

stav
status SqlStatementStatus

Stav spuštění příkazu

SqlResultManifest

Schéma a metadata sady výsledků

Name Cesta Typ Description
polena
chunks array of SqlBaseChunkInfo

Metadata bloků výsledků

format
format string
schéma
schema SqlResultSchema

Definice sloupců sady výsledků

total_byte_count
total_byte_count integer

Celkový počet bajtů v sadě výsledků

total_chunk_count
total_chunk_count integer

Celkový počet bloků dat

total_row_count
total_row_count integer

Celkový počet řádků

zkrácený
truncated boolean

Stav zkrácení výsledku

SqlStatementStatus

Stav spuštění příkazu

Name Cesta Typ Description
chyba
error SqlServiceError
stav
state SqlStatementState

Stav spuštění příkazu

SqlStatementState

Stav spuštění příkazu

Stav spuštění příkazu

SqlServiceError

Name Cesta Typ Description
error_code
error_code string
zpráva
message string

Zpráva o chybě

SqlResultSchema

Definice sloupců sady výsledků

Name Cesta Typ Description
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Name Cesta Typ Description
byte_count
byte_count integer

Bajty ve výsledném bloku dat

chunk_index
chunk_index integer

Pozice bloku dat

data_array
data_array SqlJsonArray

Pole polí s řetězcovými hodnotami

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Další index bloku dat

next_chunk_internal_link
next_chunk_internal_link string

Další odkaz na blok dat

row_count
row_count integer

Řádky v bloku dat

row_offset
row_offset integer

Odsazení počátečního řádku

SqlJsonArray

Pole polí s řetězcovými hodnotami

Name Cesta Typ Description
Položky
array of
Name Cesta Typ Description
byte_count
byte_count integer

Bajty v bloku dat

chunk_index
chunk_index integer

Pozice bloku dat

vypršení
expiration date-time

Doba vypršení platnosti propojení

external_link
external_link string
http_headers
http_headers object

Požadované hlavičky HTTP

next_chunk_index
next_chunk_index integer

Další index bloku dat

next_chunk_internal_link
next_chunk_internal_link string

Další odkaz na blok dat

row_count
row_count integer

Řádky v bloku dat

row_offset
row_offset integer

Odsazení počátečního řádku

JobsRunNowResponse

Name Cesta Typ Description
run_id
run_id integer

Globálně jedinečné ID nově aktivovaného spuštění.

JobsPerformanceTarget

JobsPipelineParams

Name Cesta Typ Description
full_refresh
full_refresh boolean

Pokud je hodnota true, aktivuje úplnou aktualizaci v dynamické tabulce Delta.

JobsQueueSettings

Name Cesta Typ Description
enabled
enabled boolean

Pokud je hodnota true, povolte pro úlohu zařadění do fronty. Toto je povinné pole.

JobsListJobsResponse

Name Cesta Typ Description
jobs
jobs array of JobsBaseJob

Seznam úloh. Tato odpověď je zahrnuta pouze v případě, že existují úlohy, které se mají vypsat.

next_page_token
next_page_token string

Token, který lze použít k výpisu další stránky úloh (pokud je k dispozici).

prev_page_token
prev_page_token string

Token, který lze použít k výpisu předchozí stránky úloh (pokud je k dispozici).

JobsBaseJob

Name Cesta Typ Description
created_time
created_time integer

Čas vytvoření této úlohy v milisekundách epochy (milisekundy od 1. 1. 1970 UTC).

creator_user_name
creator_user_name string

Uživatelské jméno tvůrce. Toto pole se do odpovědi nezahrne, pokud už byl uživatel odstraněn.

effective_budget_policy_id
effective_budget_policy_id uuid

ID rozpočtové zásady používané touto úlohou pro účely přisuzování nákladů. Toto nastavení může být nastaveno (v pořadí podle priority): 1. Správci rozpočtu prostřednictvím účtu nebo konzoly pracovního prostoru 2. Uživatelské rozhraní úloh na stránce podrobností úlohy a rozhraní API úloh pomocí budget_policy_id 3 Odvozené výchozí nastavení na základě přístupných zásad rozpočtu run_as identity při vytváření nebo úpravě úlohy.

má více
has_more boolean

Označuje, jestli má úloha více vlastností pole (úkoly, job_clusters), které se nezobrazují. K nim je možné přistupovat prostřednictvím :method:jobs/get koncového bodu. Je relevantní pouze pro rozhraní API 2.2 :method:jobs/list požadavků s expand_tasks=true.

job_id
job_id integer

Kanonický identifikátor pro tuto úlohu.

nastavení
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

ÚlohyJobSettings

Name Cesta Typ Description
budget_policy_id
budget_policy_id uuid

ID uživatelem zadané zásady rozpočtu, které se mají použít pro tuto úlohu. Pokud není zadáno, může se při vytváření nebo úpravě úlohy použít výchozí zásada rozpočtu. Viz effective_budget_policy_id pro zásady rozpočtu používané touto úlohou.

nepřetržitý
continuous JobsContinuous
nasazení
deployment JobsJobDeployment
popis
description string

Volitelný popis úlohy. Maximální délka je 27700 znaků v kódování UTF-8.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Seznam specifikací prostředí spouštění úkolů, na které lze odkazovat bezserverovými úlohami této úlohy. Prostředí musí být k dispozici pro úlohy bez serveru. Pro úlohy poznámkového bloku bez serveru je prostředí dostupné v prostředí panelu poznámkového bloku. V případě jiných úloh bez serveru je nutné zadat prostředí úloh pomocí environment_key v nastavení úlohy.

git_source
git_source JobsGitSource
Zdraví
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Seznam specifikací clusteru úloh, které se dají sdílet a opakovaně používat podle úkolů této úlohy. Knihovny nelze deklarovat v clusteru sdílených úloh. V nastavení úloh musíte deklarovat závislé knihovny.

max_concurrent_runs
max_concurrent_runs integer

Volitelný parametr pro maximální povolený počet současně běžících úloh. Tuto hodnotu nastavte, pokud chcete mít možnost souběžně spouštět více spuštění stejné úlohy. To je užitečné například v případě, že úlohu aktivujete podle častého plánu a chcete povolit, aby se po sobě překrývala po sobě, nebo pokud chcete aktivovat více spuštění, která se liší podle jejich vstupních parametrů. Toto nastavení má vliv jenom na nová spuštění. Předpokládejme například, že souběžnost úlohy je 4 a existují 4 souběžná aktivní spuštění. Nastavení souběžnosti na 3 pak nezabije žádné aktivní spuštění. Od tého dne se však nová spuštění přeskočí, pokud nejsou k dispozici méně než 3 aktivní spuštění. Tato hodnota nesmí překročit 1 000. Nastavení této hodnoty na 0 způsobí, že se všechna nová spuštění přeskočí.

název
name string

Volitelný název úlohy. Maximální délka je 4096 bajtů v kódování UTF-8.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Definice parametrů na úrovni úlohy

performance_target
performance_target JobsPerformanceTarget
fronta
queue JobsQueueSettings
run_as
run_as JobsJobRunAs
rozvrh
schedule JobsCronSchedule
tags
tags object

Mapa značek přidružených k úloze Předávají se do clusteru jako tagy pro clustery úloh a podléhají stejným omezením jako tagy clusteru. Do úlohy lze přidat maximálně 25 tagů.

tasks
tasks array of JobsTask

Seznam specifikací úkolů, které má tato úloha provést. Podporuje až 1 000 prvků v koncových bodech zápisu (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Koncové body pro čtení vrací pouze 100 úkolů. Pokud je k dispozici více než 100 úkolů, můžete je stránkovat pomocí :method:jobs/get. Pomocí pole next_page_token v kořenovém adresáři objektu určete, jestli jsou k dispozici více výsledků.

timeout_seconds
timeout_seconds integer

Volitelný časový limit pro každé spuštění této úlohy. Hodnota 0 znamená žádný časový limit.

aktivační událost
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

ÚlohyContinuous

Name Cesta Typ Description
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

ÚlohyJobDeployment

Name Cesta Typ Description
laskavý
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Cesta k souboru, který obsahuje metadata nasazení

ÚlohyJobDeploymentKind

ÚlohyJobEditMode

ÚlohyJobEmailNotifications

Name Cesta Typ Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Seznam e-mailových adres, které mají být oznámeny, když doba trvání spuštění překročí prahovou hodnotu zadanou pro metriku RUN_DURATION_SECONDS v poli stavu. Pokud není v poli stavu úlohy zadáno žádné pravidlo pro metriku RUN_DURATION_SECONDS, oznámení se neodesílají.

on_failure
on_failure array of string

Seznamech Spuštění se považuje za neúspěšné, pokud končí INTERNAL_ERROR life_cycle_state nebo selháním nebo TIMED_OUT result_state. Pokud není zadaný při vytváření úlohy, resetování nebo aktualizaci seznamu je prázdný a oznámení se neodesílají.

on_start
on_start array of string

Seznam e-mailových adres, které mají být oznámeny při zahájení spuštění. Pokud není zadáno při vytváření, resetování nebo aktualizaci úlohy, seznam je prázdný a oznámení se neodesílají.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Seznam e-mailových adres, které mají upozorňovat na překročení prahových hodnot backlogu streamování pro jakýkoli datový proud. Prahové hodnoty backlogu streamování je možné nastavit v poli stavu pomocí následujících metrik: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS nebo STREAMING_BACKLOG_FILES. Upozorňování vychází z 10minutového průměru těchto metrik. Pokud problém přetrvává, oznámení se znovu zasílají každých 30 minut.

on_success
on_success array of string

Seznam e-mailových adres, které se mají oznámit po úspěšném dokončení spuštění. Spuštění se považuje za úspěšné dokončení, pokud končí life_cycle_state TERMINATED a result_state SUCCESS. Pokud není zadáno při vytváření, resetování nebo aktualizaci úlohy, seznam je prázdný a oznámení se neodesílají.

ÚlohyJobEnvironment

Name Cesta Typ Description
environment_key
environment_key string

Klíč prostředí. Musí být jedinečný v rámci úlohy.

specifikace
spec ComputeEnvironment

ComputeEnvironment

Name Cesta Typ Description
závislosti
dependencies array of string

Seznam závislostí pip podporovaných verzí pip v tomto prostředí Každá závislost je platným řádkem souboru požadavků pip na každý https://pip.pypa.io/en/stable/reference/requirements-file-format/. Povolené závislosti zahrnují specifikátor požadavků, archivní adresu URL, místní cestu projektu (například svazky WSFS nebo UC v Azure Databricks) nebo adresu URL projektu VCS.

environment_version
environment_version string

Povinné. Verze prostředí používaná prostředím Každá verze se dodává s konkrétní verzí Pythonu a sadou balíčků Pythonu. Verze je řetězec, který se skládá z celého čísla. Viz https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

JobsGitSource

Name Cesta Typ Description
git_branch
git_branch string

Název větve, kterou má být rezervována a používána touto úlohou. Toto pole nelze zadat ve spojení s git_tag nebo git_commit.

git_commit
git_commit string

Potvrďte rezervaci a použití této úlohy. Toto pole nelze zadat ve spojení s git_branch nebo git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Název značky, kterou má být rezervována a používána touto úlohou. Toto pole nelze zadat ve spojení s git_branch nebo git_commit.

git_url
git_url string

Adresa URL úložiště, které se má naklonovat touto úlohou.

JobsGitProvider

JobsGitSnapshot

Name Cesta Typ Description
used_commit
used_commit string

Potvrzení, které se použilo ke spuštění. Pokud git_branch bylo zadáno, odkazuje to na HEAD větve v době spuštění; pokud byla zadána git_tag, odkazuje to na potvrzení bodů značky.

ÚlohyJobsHealthRules

Name Cesta Typ Description
pravidla
rules array of JobsJobsHealthRule

JobsJobsHealthRule

Name Cesta Typ Description
metrika
metric JobsJobsHealthMetric
Op
op JobsJobsHealthOperator
value
value integer

Určuje prahovou hodnotu, kterou má metrika stavu dodržovat, aby vyhovovala pravidlu stavu.

ÚlohyJobsHealthMetric

JobsJobsHealthOperator

ÚlohyJobCluster

Name Cesta Typ Description
job_cluster_key
job_cluster_key string

Jedinečný název clusteru úloh. Toto pole je povinné a musí být v rámci úlohy jedinečné. JobTaskSettings může odkazovat na toto pole a určit, který cluster se má spustit pro spuštění úlohy.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Name Cesta Typ Description
apply_policy_default_values
apply_policy_default_values boolean

Pokud je nastavena hodnota true, pevné a výchozí hodnoty ze zásady budou použity pro pole, která jsou vynechána. Pokud je nastavená hodnota false, použijí se pouze pevné hodnoty ze zásady.

atuomatické škálování
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Automaticky ukončuje cluster po uplynutí stanovené doby nečinnosti v minutách. Pokud není nastavený, tento cluster se automaticky neukončí. Pokud je tato hodnota zadaná, musí být prahová hodnota v rozmezí od 10 do 1 0000 minut. Uživatelé můžou také tuto hodnotu nastavit na hodnotu 0, aby explicitně zakázali automatické ukončení.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
název klastru
cluster_name string

Název clusteru požadovaný uživatelem To nemusí být jedinečné. Pokud není zadáno při vytváření, bude název clusteru prázdný řetězec. U clusterů úloh se název clusteru automaticky nastaví na základě ID úlohy a spuštění úlohy.

custom_tags
custom_tags object

Další značky pro prostředky clusteru. Azure Databricks kromě default_tags označí všechny prostředky clusteru (např. instance AWS a svazky EBS). Poznámky: – Azure Databricks v současné době umožňuje maximálně 45 vlastních značek – Clustery můžou znovu používat jenom cloudové prostředky, pokud jsou značky prostředků podmnožinou značek clusteru.

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

Volitelné ID fondu instancí pro ovladač clusteru patří. Cluster fondu používá fond instancí s ID (instance_pool_id), pokud není přiřazen fond ovladačů.

driver_node_type_id
driver_node_type_id string

Typ uzlu ovladače Spark. Všimněte si, že toto pole je volitelné; pokud není nastavena, typ uzlu ovladače bude nastaven jako stejná hodnota jako node_type_id definované výše. Toto pole by spolu s node_type_id nemělo být nastaveno, pokud je nastavená virtual_cluster_size. Pokud jsou zadány driver_node_type_id, node_type_id a virtual_cluster_size, pak mají driver_node_type_id a node_type_id přednost.

enable_elastic_disk
enable_elastic_disk boolean

Automatické škálování místního úložiště: Pokud je povoleno, tento cluster dynamicky získá další místo na disku, když pracovním procesům Sparku dochází místo na disku. Tato funkce vyžaduje ke správnému fungování konkrétní oprávnění AWS – další podrobnosti najdete v uživatelské příručce.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Zda povolit LUKS na místních discích virtuálních počítačů clusteru

init_scripts
init_scripts array of ComputeInitScriptInfo

Konfigurace pro ukládání inicializačních skriptů. Lze zadat libovolný počet cílů. Skripty se spouští postupně v zadaném pořadí. Pokud cluster_log_conf zadáte, budou se protokoly inicializačních skriptů odesílat do <cíle>,< ID> clusteru nebo init_scripts.

instance_pool_id
instance_pool_id string

Volitelné ID fondu instancí, do kterého cluster patří.

is_single_node
is_single_node boolean

Toto pole lze použít pouze v případě, že je typ = CLASSIC_PREVIEW. Pokud je hodnota true, Azure Databricks automaticky nastaví jeden uzel související custom_tags, spark_conf a num_workers

laskavý
kind ComputeKind
node_type_id
node_type_id string

Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Například uzly Spark mohou být nakonfigurovány a optimalizovány pro pracovní zátěže náročné na paměť nebo výpočetní výkon. Seznam dostupných typů uzlů lze načíst pomocí volání rozhraní API :method:clusters/listNodeTypes.

num_workers
num_workers integer

Počet pracovních jednotek, které by tento cluster měl mít. Cluster má jeden ovladač Sparku a num_workers Exekutory pro celkem num_workers + 1 uzly Spark. Poznámka: Při čtení vlastností clusteru toto pole odráží požadovaný počet pracovních procesů místo skutečného aktuálního počtu pracovních procesů. Pokud se například změní velikost clusteru z 5 na 10 pracovních procesů, toto pole se okamžitě aktualizuje tak, aby odráželo cílovou velikost 10 pracovních procesů, zatímco pracovní procesy uvedené v spark_info se postupně zvětší z 5 na 10 při zřizování nových uzlů.

policy_id
policy_id string

ID zásady clusteru použité k vytvoření clusteru, pokud je k dispozici.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Jedno uživatelské jméno, pokud je data_security_mode SINGLE_USER

spark_conf
spark_conf object

Objekt obsahující sadu volitelných párů klíč-hodnota pro konfiguraci Sparku, specifikovaných uživatelem. Uživatelé mohou také předat řetězec dalších možností JVM ovladači a exekutorům prostřednictvím spark.driver.extraJavaOptions a spark.executor.extraJavaOptions.

spark_env_vars
spark_env_vars object

Objekt obsahující sadu volitelných párů klíč-hodnota proměnných prostředí specifikovaných uživatelem. Mějte na paměti, že dvojice klíč-hodnota formuláře (X,Y) se exportuje tak, jak je (tj. export X='Y') při spuštění řidiče a pracovníků. Pokud chcete zadat další sadu SPARK_DAEMON_JAVA_OPTS, doporučujeme je připojit k $SPARK_DAEMON_JAVA_OPTS, jak je znázorněno v následujícím příkladu. Tím se zajistí zahrnutí všech výchozích proměnných prostředí spravovaných službou Databricks. Příklady proměnných prostředí Sparku: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} nebo {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

Verze Sparku clusteru, například 3.3.x-scala2.11. Seznam dostupných verzí Sparku lze načíst pomocí volání rozhraní API :method:clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Obsah veřejného klíče SSH, který se přidá do každého uzlu Sparku v tomto clusteru. Odpovídající privátní klíče lze použít k přihlášení pomocí uživatelského jména ubuntu na portu 2200. Je možné zadat až 10 klíčů.

use_ml_runtime
use_ml_runtime boolean

Toto pole lze použít pouze v případě, že je typ = CLASSIC_PREVIEW. effective_spark_version určuje spark_version (verze DBR), toto pole use_ml_runtime a jestli node_type_id je uzel gpu nebo ne.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Name Cesta Typ Description
max_workers
max_workers integer

Maximální počet pracovních procesů, na které může cluster při přetížení vertikálně navýšit kapacitu. Upozorňujeme, že max_workers musí být výhradně větší než min_workers.

min_workers
min_workers integer

Minimální počet pracovních procesů, na které může cluster při nedostatečně využité kapacitě vertikálně snížit. Je to také počáteční počet pracovních procesů, které cluster bude mít po vytvoření.

ComputeAzureAttributes

Name Cesta Typ Description
dostupnost
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

První first_on_demand uzly clusteru se umístí na instance na vyžádání. Tato hodnota by měla být větší než 0, aby se zajistilo, že je uzel ovladače clusteru umístěn na instanci na vyžádání. Pokud je tato hodnota větší nebo rovna aktuální velikosti clusteru, všechny uzly se umístí na instance na vyžádání. Pokud je tato hodnota menší než aktuální velikost clusteru, first_on_demand uzly se umístí na instance na vyžádání a zbytek se umístí na instance dostupnosti. Všimněte si, že tato hodnota nemá vliv na velikost clusteru a v současné době nemůže být ztlumená po celou dobu životnosti clusteru.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

Maximální cena nabídky, která se má použít pro spotové instance Azure. Maximální cena za nabídku nemůže být vyšší než cena instance na vyžádání. Pokud není zadána, výchozí hodnota je -1, která určuje, že instanci nelze vyřadit na základě ceny a pouze na základě dostupnosti. Dále by hodnota měla > být 0 nebo -1.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Name Cesta Typ Description
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Name Cesta Typ Description
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Name Cesta Typ Description
cíl
destination string

cíl dbfs, např. dbfs:/my/path

ComputeVolumesStorageInfo

Name Cesta Typ Description
cíl
destination string

Cíl svazků UC, například /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh nebo dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Name Cesta Typ Description
basic_auth
basic_auth ComputeDockerBasicAuth
adresa URL
url string

Adresa URL image Dockeru

ComputeDockerBasicAuth

Name Cesta Typ Description
heslo
password string

Heslo uživatele

uživatelské jméno
username string

Jméno uživatele

ComputeInitScriptInfo

Name Cesta Typ Description
abfss
abfss ComputeAdlsgen2Info
soubor
file ComputeLocalFileInfo
GCS
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
pracovní prostor
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Name Cesta Typ Description
cíl
destination string

abfss cíl, například abfss:// container-name<@>storage-account-name.dfs.core.windows.net/<> directory-name<>.

ComputeLocalFileInfo

Name Cesta Typ Description
cíl
destination string

cíl místního souboru, např. soubor:/my/local/file.sh

ComputeGcsStorageInfo

Name Cesta Typ Description
cíl
destination string

Cíl/identifikátor URI služby GCS, např. gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Name Cesta Typ Description
cíl
destination string

cíl wsfs, např. workspace:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Name Cesta Typ Description
clients
clients ComputeClientsTypes

ComputeClientsTypes

Name Cesta Typ Description
jobs
jobs boolean

Se sadou úloh je možné cluster použít pro úlohy.

notebooky
notebooks boolean

S nastavenými poznámkovými bloky je možné tento cluster použít pro poznámkové bloky.

ÚlohyJobNotificationSettings

Name Cesta Typ Description
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Pokud je pravda, neodesílejte oznámení příjemcům zadaným v on_failure, pokud je spuštění zrušeno.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Pokud je pravda, neodesílejte oznámení příjemcům zadaným v on_failure pokud je spuštění vynecháno.

ÚlohyJobParameterDefinition

Name Cesta Typ Description
výchozí
default string

Výchozí hodnota parametru.

název
name string

Název definovaného parametru. Smí obsahovat pouze alfanumerické znaky, _, -a .

ÚlohyJobRunAs

Name Cesta Typ Description
service_principal_name
service_principal_name string

ID aplikace aktivního instančního objektu Nastavení tohoto pole vyžaduje roli servicePrincipal/user.

user_name
user_name string

E-mail aktivního uživatele pracovního prostoru Uživatelé, kteří nejsou správci, můžou toto pole nastavit jenom na vlastní e-mail.

JobsCronSchedule

Name Cesta Typ Description
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Výraz Cron využívající syntaxi Quartz, který popisuje plán úlohy. Podrobnosti najdete v tématu Trigger Cron . Toto pole je povinné.

timezone_id
timezone_id string

ID časového pásma Java. Plán úlohy se vyřeší s ohledem na toto časové pásmo. Podrobnosti najdete v sadě Java TimeZone . Toto pole je povinné.

JobsTask

Name Cesta Typ Description
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Volitelné pole objektů určující graf závislostí úkolu. Před spuštěním tohoto úkolu musí být dokončeny všechny úkoly zadané v tomto poli. Úloha se spustí pouze v případě, že je splněna podmínka run_if. Klíč je task_key a hodnota je název přiřazený závislému úkolu.

popis
description string

Volitelný popis tohoto úkolu.

disable_auto_optimization
disable_auto_optimization boolean

Možnost zakázat automatickou optimalizaci v bezserverové verzi

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Klíč, který odkazuje na specifikaci prostředí v úloze. Toto pole se vyžaduje pro skripty Pythonu, kola Pythonu a úlohy dbt při použití bezserverového výpočetního prostředí.

existing_cluster_id
existing_cluster_id string

Pokud existing_cluster_id, ID existujícího clusteru, který se používá pro všechna spuštění. Při spouštění úloh nebo úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy a úlohy v nových clusterech.

for_each_task
for_each_task JobsForEachTask
Zdraví
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Pokud job_cluster_key, spustí se tato úloha opětovným používáním clusteru zadaného v job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Volitelný seznam knihoven, které se mají nainstalovat do clusteru. Výchozí hodnota je prázdný seznam.

max_retries
max_retries integer

Volitelný maximální počet opakování neúspěšného spuštění. Spuštění je považováno za neúspěšné, pokud se dokončí s neúspěšným result_state nebo INTERNAL_ERROR life_cycle_state. Hodnota -1 znamená opakování po neomezenou dobu a hodnota 0 znamená nikdy opakovat.

min_retry_interval_millis
min_retry_interval_millis integer

Volitelný minimální interval v milisekundách mezi spuštěním neúspěšného spuštění a následným opakovaným spuštěním. Výchozí chování je, že neúspěšná spuštění se okamžitě opakuje.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Volitelná zásada určující, jestli se má úloha opakovat, když vyprší časový limit. Výchozí chování není opakovat při vypršení časového limitu.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Jedinečný název úkolu. Toto pole slouží k odkaz na tento úkol z jiných úkolů. Toto pole je povinné a musí být jedinečné v rámci nadřazené úlohy. Při aktualizaci nebo resetování se toto pole používá k odkazování na úlohy, které se mají aktualizovat nebo resetovat.

timeout_seconds
timeout_seconds integer

Volitelný časový limit použitý pro každé spuštění této úlohy. Hodnota 0 znamená žádný časový limit.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Name Cesta Typ Description
vlevo
left string

Levý operand úkolu podmínky. Může to být řetězcová hodnota nebo odkaz na stav úlohy nebo parametr.

Op
op JobsConditionTaskOp
Vpravo
right string

Pravý operand úkolu podmínky. Může to být řetězcová hodnota nebo odkaz na stav úlohy nebo parametr.

JobsConditionTaskOp

JobsDashboardTask

Name Cesta Typ Description
dashboard_id
dashboard_id string

Identifikátor řídicího panelu, který se má aktualizovat.

odběr
subscription JobsSubscription
warehouse_id
warehouse_id string

Volitelné: ID skladu pro spuštění řídicího panelu s plánem. Pokud není zadaný, použije se výchozí sklad řídicího panelu.

Podsítě úloh

Name Cesta Typ Description
custom_subject
custom_subject string

Volitelné: Umožňuje uživatelům zadat vlastní řádek předmětu v e-mailu odeslaném odběratelům.

Pozastaveno
paused boolean

Pokud je hodnota true, odběr neodesílá e-maily.

předplatitelé
subscribers array of JobsSubscriptionSubscriber

Seznam odběratelů, kteří mají odeslat snímek řídicího panelu.

JobsSubscriptionSubscriber

Name Cesta Typ Description
destination_id
destination_id string

Po zobrazení pole destination_id se do cíle odešle snímek řídicího panelu.

user_name
user_name string

Snímek řídicího panelu se odešle do e-mailu uživatele, když je k dispozici pole user_name.

JobsSource

JobsTaskDependency

Name Cesta Typ Description
výsledek
outcome string

Lze zadat pouze u závislostí úkolů podmínky. Výsledek závislého úkolu, který musí být splněn, aby se tento úkol spustil.

task_key
task_key string

Název úkolu, na který úkol tento úkol závisí.

JobsTaskEmailNotifications

Name Cesta Typ Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Seznam e-mailových adres, které mají být oznámeny, když doba trvání spuštění překročí prahovou hodnotu zadanou pro metriku RUN_DURATION_SECONDS v poli stavu. Pokud není v poli stavu úlohy zadáno žádné pravidlo pro metriku RUN_DURATION_SECONDS, oznámení se neodesílají.

on_failure
on_failure array of string

Seznamech Spuštění se považuje za neúspěšné, pokud končí INTERNAL_ERROR life_cycle_state nebo selháním nebo TIMED_OUT result_state. Pokud není zadaný při vytváření úlohy, resetování nebo aktualizaci seznamu je prázdný a oznámení se neodesílají.

on_start
on_start array of string

Seznam e-mailových adres, které mají být oznámeny při zahájení spuštění. Pokud není zadáno při vytváření, resetování nebo aktualizaci úlohy, seznam je prázdný a oznámení se neodesílají.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Seznam e-mailových adres, které mají upozorňovat na překročení prahových hodnot backlogu streamování pro jakýkoli datový proud. Prahové hodnoty backlogu streamování je možné nastavit v poli stavu pomocí následujících metrik: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS nebo STREAMING_BACKLOG_FILES. Upozorňování vychází z 10minutového průměru těchto metrik. Pokud problém přetrvává, oznámení se znovu zasílají každých 30 minut.

on_success
on_success array of string

Seznam e-mailových adres, které se mají oznámit po úspěšném dokončení spuštění. Spuštění se považuje za úspěšné dokončení, pokud končí life_cycle_state TERMINATED a result_state SUCCESS. Pokud není zadáno při vytváření, resetování nebo aktualizaci úlohy, seznam je prázdný a oznámení se neodesílají.

ComputeLibrary

Name Cesta Typ Description
Cran
cran ComputeRCranLibrary
sklenice
jar string

Identifikátor URI knihovny JAR, který se má nainstalovat. Mezi podporované identifikátory URI patří cesty pracovních prostorů, cesty ke svazkům katalogu Unity a identifikátory URI ADLS. Příklad: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } nebo { "jar": "abfss://my-bucket/library.jar" }. Pokud se používá ADLS, ujistěte se, že cluster má v knihovně přístup pro čtení. Možná budete muset spustit cluster s instančním objektem Microsoft Entra ID pro přístup k identifikátoru URI ADLS.

odborník
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
požadavky
requirements string

Identifikátor URI souboru requirements.txt, který se má nainstalovat. Podporují se jenom cesty pracovních prostorů a svazky katalogu Unity. Příklad: { "requirements": "/Workspace/path/to/requirements.txt" } nebo { "requirements" : "/Volumes/path/to/requirements.txt" }

whl
whl string

Identifikátor URI knihovny kol, který se má nainstalovat. Mezi podporované identifikátory URI patří cesty pracovních prostorů, cesty ke svazkům katalogu Unity a identifikátory URI ADLS. Příklad: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } nebo { "whl": "abfss://my-bucket/library.whl" }. Pokud se používá ADLS, ujistěte se, že cluster má v knihovně přístup pro čtení. Možná budete muset spustit cluster s instančním objektem Microsoft Entra ID pro přístup k identifikátoru URI ADLS.

ÚlohyForEachTask

Name Cesta Typ Description
souběžnost
concurrency integer

Volitelný maximální povolený počet souběžných spuštění úlohy. Tuto hodnotu nastavte, pokud chcete mít možnost souběžně spouštět více spuštění úlohy.

vstupy
inputs string

Pole pro úkol, který má iterovat. Může to být řetězec JSON nebo odkaz na parametr pole.

úkol
task Object

ComputeRCranLibrary

Name Cesta Typ Description
balíček
package string

Název balíčku CRAN, který se má nainstalovat.

úložiště
repo string

Úložiště, kde lze balíček najít. Pokud není zadané, použije se výchozí úložiště CRAN.

ComputeMavenLibrary

Name Cesta Typ Description
souřadnice
coordinates string

Souřadnice mavenu ve stylu Gradle Příklad: "org.jep:jep:1.7.2".

výluky
exclusions array of string

Seznam závislostí, které se mají vyloučit Příklad: ["slf4j:slf4j", "*:hadoop-client"]. Vyloučení závislostí Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

úložiště
repo string

Úložiště Maven pro instalaci balíčku Maven z. Pokud tento parametr vynecháte, prohledá se jak centrální úložiště Maven, tak balíčky Sparku.

ComputePythonPyPiLibrary

Name Cesta Typ Description
balíček
package string

Název balíčku pypi, který se má nainstalovat. Podporuje se také volitelná přesná specifikace verze. Příklady: "simplejson" a "simplejson==3.8.0".

úložiště
repo string

Úložiště, kde lze balíček najít. Pokud není zadaný, použije se výchozí index pip.

JobsNotebookTask

Name Cesta Typ Description
base_parameters
base_parameters object

Základní parametry, které se mají použít pro každé spuštění této úlohy. Pokud je spuštění inicializováno voláním metody :method:jobs/run Now se zadanými parametry, obě mapy parametrů se sloučí. Pokud je stejný klíč zadaný v base_parameters a v run-now, použije se hodnota z run-now. Proměnné parametrů úkolu slouží k nastavení parametrů obsahujících informace o spuštění úlohy. Pokud poznámkový blok přebírá parametr, který není zadaný v base_parameters úlohy nebo parametr run-now přepisuje, použije se výchozí hodnota z poznámkového bloku. Načtěte tyto parametry v poznámkovém bloku pomocí dbutils.widgets.get. Reprezentace json tohoto pole nesmí překročit 1 MB.

notebook_path
notebook_path string

Cesta poznámkového bloku, který se má spustit v pracovním prostoru Azure Databricks nebo ve vzdáleném úložišti. U poznámkových bloků uložených v pracovním prostoru Azure Databricks musí být cesta absolutní a musí začínat lomítkem. U poznámkových bloků uložených ve vzdáleném úložišti musí být cesta relativní. Toto pole je povinné.

odeslat k provedení
source JobsSource
warehouse_id
warehouse_id string

Volitelné warehouse_id pro spuštění poznámkového bloku ve službě SQL Warehouse. Klasické sql warehouse nejsou podporované, používejte bezserverové nebo pro SQL Warehouse. Všimněte si, že SQL Warehouse podporují pouze buňky SQL; Pokud poznámkový blok obsahuje buňky jiného typu než SQL, spuštění selže.

JobsTaskNotificationSettings

Name Cesta Typ Description
alert_on_last_attempt
alert_on_last_attempt boolean

Pokud je pravda, neodesílejte oznámení příjemcům zadaným v on_start pro opakování spuštění a neodesílejte oznámení příjemcům zadaným v on_failure až do posledního opakování spuštění.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Pokud je pravda, neodesílejte oznámení příjemcům zadaným v on_failure, pokud je spuštění zrušeno.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Pokud je pravda, neodesílejte oznámení příjemcům zadaným v on_failure pokud je spuštění vynecháno.

JobsPipelineTask

Name Cesta Typ Description
full_refresh
full_refresh boolean

Pokud je hodnota true, aktivuje úplnou aktualizaci v dynamické tabulce Delta.

pipeline_id
pipeline_id string

Úplný název úlohy kanálu, která se má provést.

JobsPythonWheelTask

Name Cesta Typ Description
entry_point
entry_point string

Pojmenovaný vstupní bod, který se má použít, pokud neexistuje v metadatech balíčku, spustí funkci z balíčku přímo pomocí $packageName.$entryPoint()

named_parameters
named_parameters object

Parametry příkazového řádku předané úloze kolečka Pythonu ve formě ["--name=task", "--data=dbfs:/path/to/data.json"]. Pokud parametry nemají hodnotu null, nechte ho prázdné.

package_name
package_name string

Název balíčku, který se má provést

parameters
parameters array of string

Parametry příkazového řádku předané úloze kolečka Pythonu Pokud named_parameters nemá hodnotu null, ponechte ji prázdnou.

JobsRunIf

JobsRunJobTask

Name Cesta Typ Description
job_id
job_id integer

ID úlohy, která se má aktivovat.

job_parameters
job_parameters object

Parametry na úrovni úlohy použité k aktivaci úlohy

pipeline_params
pipeline_params JobsPipelineParams

JobsSparkJarTask

Name Cesta Typ Description
main_class_name
main_class_name string

Úplný název třídy obsahující hlavní metodu, která se má provést. Tato třída musí být obsažena v JAR souboru, který je poskytován jako knihovna. Kód musí k získání kontextu Sparku použít SparkContext.getOrCreate; v opačném případě se spuštění úlohy nezdaří.

parameters
parameters array of string

Parametry předané hlavní metodě. Proměnné parametrů úkolu slouží k nastavení parametrů obsahujících informace o spuštění úlohy.

JobsSparkPythonTask

Name Cesta Typ Description
parameters
parameters array of string

Parametry příkazového řádku předané souboru Pythonu. Proměnné parametrů úkolu slouží k nastavení parametrů obsahujících informace o spuštění úlohy.

python_file
python_file string

Soubor Pythonu, který se má spustit. Podporují se identifikátory URI cloudových souborů (například dbfs:/, s3:/, adls:/, gcs:/) a cesty pracovních prostorů. U souborů Pythonu uložených v pracovním prostoru Azure Databricks musí být cesta absolutní a musí začínat na /. U souborů uložených ve vzdáleném úložišti musí být cesta relativní. Toto pole je povinné.

odeslat k provedení
source JobsSource

ÚlohySparkSubmitTask

Name Cesta Typ Description
parameters
parameters array of string

Parametrypříkazového Proměnné parametrů úkolu slouží k nastavení parametrů obsahujících informace o spuštění úlohy.

ÚlohyWebhookNotifications

Name Cesta Typ Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Volitelný seznam ID systémových oznámení, která se mají volat, když doba trvání spuštění překročí prahovou hodnotu zadanou pro metriku RUN_DURATION_SECONDS v poli stavu. Pro on_duration_warning_threshold_exceeded vlastnost lze zadat maximálně 3 cíle.

on_failure
on_failure array of JobsWebhook

Volitelný seznam ID systémových oznámení, která se mají volat, když se spuštění nezdaří. Pro vlastnost on_failure lze zadat maximálně 3 cíle.

on_start
on_start array of JobsWebhook

Volitelný seznam ID systémových oznámení, která se mají volat při spuštění. Pro on_start vlastnost lze zadat maximálně 3 cíle.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Volitelný seznam ID systémových oznámení, která se mají volat při překročení prahových hodnot backlogu streamování pro jakýkoli datový proud. Prahové hodnoty backlogu streamování je možné nastavit v poli stavu pomocí následujících metrik: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS nebo STREAMING_BACKLOG_FILES. Upozorňování vychází z 10minutového průměru těchto metrik. Pokud problém přetrvává, oznámení se znovu zasílají každých 30 minut. Pro vlastnost on_streaming_backlog_exceeded lze zadat maximálně 3 cíle.

on_success
on_success array of JobsWebhook

Volitelný seznam ID systémových oznámení, která se mají volat po úspěšném dokončení spuštění. Pro on_success vlastnost lze zadat maximálně 3 cíle.

JobsWebhook

Name Cesta Typ Description
identifikační číslo
id string

JobsTriggerSettings

Name Cesta Typ Description
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
periodický
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Name Cesta Typ Description
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

Pokud je tato možnost nastavená, spustí se spuštění až po uplynutí zadané doby od posledního spuštění triggeru. Minimální povolená hodnota je 60 sekund.

adresa URL
url string

Adresa URL, která se má monitorovat pro přijetí souborů. Cesta musí odkazovat na kořen nebo dílčí cestu externího umístění.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

Pokud je tato možnost nastavená, trigger se spustí až po uplynutí zadané doby, kdy nedošlo k žádné aktivitě souboru. To umožňuje počkat na doručení dávky příchozích souborů před aktivací spuštění. Minimální povolená hodnota je 60 sekund.

ÚlohyPeriodicTriggerConfiguration

Name Cesta Typ Description
interval
interval integer

Interval, ve kterém má trigger běžet.

jednotka
unit JobsPeriodicTriggerConfigurationTimeUnit

ÚlohyPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Name Cesta Typ Description
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Name Cesta Typ Description
using_file_events
using_file_events boolean

Určuje, jestli trigger využívá události souborů k detekci doručení souborů.

Spuštění úloh

Name Cesta Typ Description
attempt_number
attempt_number integer

Pořadové číslo tohoto pokusu o spuštění pro aktivovanou úlohu. Počáteční pokus o spuštění má attempt_number 0. Pokud se počáteční pokus o spuštění nezdaří a úloha má zásadu opakování (max_retries > 0), další spuštění se vytvoří s original_attempt_run_id ID původního pokusu a zvýšením attempt_number. Spuštění se opakují, dokud nebudou úspěšné a maximální attempt_number bude stejná jako hodnota max_retries úlohy.

cleanup_duration
cleanup_duration integer

Doba v milisekundách trvala ukončení clusteru a vyčištění všech přidružených artefaktů. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole cleanup_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Uživatelské jméno tvůrce. Toto pole se do odpovědi nezahrne, pokud už byl uživatel odstraněn.

popis
description string

Popis spuštění

effective_performance_target
effective_performance_target JobsPerformanceTarget
čas ukončení
end_time integer

Čas ukončení tohoto běhu v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). Toto pole je nastaveno na hodnotu 0, pokud je úloha stále spuštěná.

execution_duration
execution_duration integer

Doba v milisekundách trvala spuštění příkazů v souboru JAR nebo poznámkovém bloku, dokud nebyly dokončeny, selhaly, vypršel časový limit, byly zrušeny nebo došlo k neočekávané chybě. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole execution_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

git_source
git_source JobsGitSource
má více
has_more boolean

Označuje, jestli má spuštění více vlastností pole (úlohy, job_clusters), které se nezobrazují. K nim je možné přistupovat prostřednictvím koncového bodu :method:jobs/getrun. Je relevantní pouze pro rozhraní API 2.2 :method:jobs/listruns požadavky s expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Seznam specifikací clusteru úloh, které se dají sdílet a opakovaně používat podle úkolů této úlohy. Knihovny nelze deklarovat v clusteru sdílených úloh. V nastavení úloh musíte deklarovat závislé knihovny. Pokud je k dispozici více než 100 clusterů úloh, můžete je stránkovat pomocí :method:jobs/getrun.

job_id
job_id integer

Kanonický identifikátor úlohy, která obsahuje toto spuštění.

job_parameters
job_parameters array of JobsJobParameter

Parametry na úrovni úlohy použité při spuštění

job_run_id
job_run_id integer

ID spuštění úlohy, do které toto spuštění patří. U starších verzí a úloh s jedním úkolem se pole naplní ID spuštění úlohy. U spuštění úkolů je pole naplněno ID spuštění úlohy, do které úkol patří.

next_page_token
next_page_token string

Token, který lze použít k výpisu další stránky vlastností pole.

original_attempt_run_id
original_attempt_run_id integer

Pokud se jedná o opakování předchozího pokusu o spuštění, obsahuje toto pole run_id původního pokusu; jinak je to stejné jako run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Doba v milisekundách, kterou spuštění strávilo ve frontě.

repair_history
repair_history array of JobsRepairHistoryItem

Historie opravy spuštění.

run_duration
run_duration integer

Čas v milisekundách trvalo spuštění úlohy a dokončení všech jeho oprav.

run_id
run_id integer

Kanonický identifikátor spuštění. Toto ID je jedinečné pro všechna spuštění všech úloh.

run_name
run_name string

Volitelný název spuštění. Maximální délka je 4096 bajtů v kódování UTF-8.

run_page_url
run_page_url string

Adresa URL na stránku podrobností spuštění.

typ_spuštění
run_type JobsRunType
rozvrh
schedule JobsCronSchedule
setup_duration
setup_duration integer

Doba v milisekundách trvala nastavení clusteru. U spuštění, která běží na nových clusterech, je to čas vytvoření clusteru, pro spuštění, která běží na existujících clusterech, by tentokrát měla být velmi krátká. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole setup_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

čas_startu
start_time integer

Čas zahájení tohoto spuštění v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). To nemusí být čas, kdy se úloha úlohy spustí, například pokud je úloha naplánovaná tak, aby běžela v novém clusteru, jedná se o čas vydání volání vytvoření clusteru.

stav
status JobsRunStatus
tasks
tasks array of JobsRunTask

Seznam úkolů provedených spuštěním Každý úkol má vlastní run_id, které můžete použít k volání ÚlohGetOutput k načtení spuštění resutls. Pokud je k dispozici více než 100 úkolů, můžete je stránkovat pomocí :method:jobs/getrun. Pomocí pole next_page_token v kořenovém adresáři objektu určete, jestli jsou k dispozici více výsledků.

aktivační událost
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

Instance JobsClusterInstance

Name Cesta Typ Description
cluster_id
cluster_id string

Kanonický identifikátor clusteru používaného spuštěním. Toto pole je vždy k dispozici pro spuštění v existujících clusterech. Pro spuštění na nových clusterech bude po vytvoření clusteru k dispozici. Tuto hodnotu můžete použít k zobrazení protokolů tak, že přejdete na /#setting/sparkui/$cluster_id/driver-logs. Po dokončení spuštění budou protokoly dál dostupné. Odpověď nebude obsahovat toto pole, pokud identifikátor ještě není k dispozici.

spark_context_id
spark_context_id string

Kanonický identifikátor kontextu Sparku používaného spuštěním. Toto pole se vyplní po zahájení spuštění. Tuto hodnotu můžete použít k zobrazení uživatelského rozhraní Sparku tak, že přejdete na /#setting/sparkui/$cluster_id/$spark_context_id. Uživatelské rozhraní Sparku bude i nadále dostupné po dokončení spuštění. Odpověď nebude obsahovat toto pole, pokud identifikátor ještě není k dispozici.

JobsClusterSpec

Name Cesta Typ Description
existing_cluster_id
existing_cluster_id string

Pokud existing_cluster_id, ID existujícího clusteru, který se používá pro všechna spuštění. Při spouštění úloh nebo úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy a úlohy v nových clusterech.

job_cluster_key
job_cluster_key string

Pokud job_cluster_key, spustí se tato úloha opětovným používáním clusteru zadaného v job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Volitelný seznam knihoven, které se mají nainstalovat do clusteru. Výchozí hodnota je prázdný seznam.

new_cluster
new_cluster ComputeClusterSpec

ÚlohyJobParameter

Name Cesta Typ Description
výchozí
default string

Volitelná výchozí hodnota parametru

název
name string

Název parametru

value
value string

Hodnota použitá při spuštění

JobsRunParameters

Name Cesta Typ Description
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Name Cesta Typ Description
effective_performance_target
effective_performance_target JobsPerformanceTarget
čas ukončení
end_time integer

Koncový čas (opraveného) spuštění.

identifikační číslo
id integer

ID opravy. Vrátí se pouze pro položky, které představují opravu v repair_history.

čas_startu
start_time integer

Čas spuštění (opraveno)

stav
status JobsRunStatus
task_run_ids
task_run_ids array of integer

ID spuštění úlohy, která byla spuštěna jako součást této položky historie oprav.

typ
type JobsRepairHistoryItemType

JobsRunStatus

Name Cesta Typ Description
queue_details
queue_details JobsQueueDetails
stav
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Name Cesta Typ Description
kód
code JobsQueueDetailsCodeCode
zpráva
message string

Popisná zpráva s podrobnostmi o frontě Toto pole je nestrukturované a jeho přesný formát se může změnit.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Name Cesta Typ Description
kód
code JobsTerminationCodeCode
zpráva
message string

Popisná zpráva s podrobnostmi o ukončení. Toto pole není strukturované a formát se může změnit.

typ
type JobsTerminationTypeType

JobsTerminationCodeCodeCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Name Cesta Typ Description
attempt_number
attempt_number integer

Pořadové číslo tohoto pokusu o spuštění pro aktivovanou úlohu. Počáteční pokus o spuštění má attempt_number 0. Pokud se počáteční pokus o spuštění nezdaří a úloha má zásadu opakování (max_retries > 0), další spuštění se vytvoří s original_attempt_run_id ID původního pokusu a zvýšením attempt_number. Spuštění se opakují, dokud nebudou úspěšné a maximální attempt_number bude stejná jako hodnota max_retries úlohy.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Doba v milisekundách trvala ukončení clusteru a vyčištění všech přidružených artefaktů. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole cleanup_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Volitelné pole objektů určující graf závislostí úkolu. Všechny úkoly zadané v tomto poli musí být před spuštěním tohoto úkolu úspěšně dokončeny. Klíč je task_key a hodnota je název přiřazený závislému úkolu.

popis
description string

Volitelný popis tohoto úkolu.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
čas ukončení
end_time integer

Čas ukončení tohoto běhu v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). Toto pole je nastaveno na hodnotu 0, pokud je úloha stále spuštěná.

environment_key
environment_key string

Klíč, který odkazuje na specifikaci prostředí v úloze. Toto pole se vyžaduje pro skripty Pythonu, kola Pythonu a úlohy dbt při použití bezserverového výpočetního prostředí.

execution_duration
execution_duration integer

Doba v milisekundách trvala spuštění příkazů v souboru JAR nebo poznámkovém bloku, dokud nebyly dokončeny, selhaly, vypršel časový limit, byly zrušeny nebo došlo k neočekávané chybě. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole execution_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

existing_cluster_id
existing_cluster_id string

Pokud existing_cluster_id, ID existujícího clusteru, který se používá pro všechna spuštění. Při spouštění úloh nebo úloh v existujícím clusteru možná budete muset cluster restartovat ručně, pokud přestane reagovat. Pro větší spolehlivost doporučujeme spouštět úlohy a úlohy v nových clusterech.

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Pokud job_cluster_key, spustí se tato úloha opětovným používáním clusteru zadaného v job.settings.job_clusters.

libraries
libraries array of Object

Volitelný seznam knihoven, které se mají nainstalovat do clusteru. Výchozí hodnota je prázdný seznam.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Doba v milisekundách, kterou spuštění strávilo ve frontě.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

Čas v milisekundách trvalo spuštění úlohy a dokončení všech jeho oprav.

run_id
run_id integer

ID spuštění úlohy.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

Doba v milisekundách trvala nastavení clusteru. U spuštění, která běží na nových clusterech, je to čas vytvoření clusteru, pro spuštění, která běží na existujících clusterech, by tentokrát měla být velmi krátká. Doba trvání spuštění úlohy je součet setup_duration, execution_duration a cleanup_duration. Pole setup_duration je nastaveno na hodnotu 0 pro spuštění úloh s více úkoly. Celková doba trvání spuštění úlohy s více úkoly je hodnota pole run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
čas_startu
start_time integer

Čas zahájení tohoto spuštění v epoch milisekundách (milisekundy od 1. 1. 1970 UTC). To nemusí být čas, kdy se úloha úlohy spustí, například pokud je úloha naplánovaná tak, aby běžela v novém clusteru, jedná se o čas vydání volání vytvoření clusteru.

stav
status JobsRunStatus
task_key
task_key string

Jedinečný název úkolu. Toto pole slouží k odkaz na tento úkol z jiných úkolů. Toto pole je povinné a musí být jedinečné v rámci nadřazené úlohy. Při aktualizaci nebo resetování se toto pole používá k odkazování na úlohy, které se mají aktualizovat nebo resetovat.

timeout_seconds
timeout_seconds integer

Volitelný časový limit použitý pro každé spuštění této úlohy. Hodnota 0 znamená žádný časový limit.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Name Cesta Typ Description
vlevo
left string

Levý operand úkolu podmínky. Může to být řetězcová hodnota nebo odkaz na stav úlohy nebo parametr.

Op
op JobsConditionTaskOp
výsledek
outcome string

Výsledek vyhodnocení výrazu podmínky. Vyplněno, pokud byl úkol úspěšně dokončen. Může být true nebo false.

Vpravo
right string

Pravý operand úkolu podmínky. Může to být řetězcová hodnota nebo odkaz na stav úlohy nebo parametr.

JobsTriggerType

JobsTriggerInfo

Name Cesta Typ Description
run_id
run_id integer

ID spuštění úlohy spuštění úlohy spuštění

JobsRunOutput

Name Cesta Typ Description
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
chyba
error string

Chybová zpráva označující, proč úloha selhala nebo proč není výstup k dispozici. Zpráva je nestrukturovaná a její přesný formát se může změnit.

error_trace
error_trace string

Pokud při spuštění spuštění došlo k chybě, obsahuje toto pole jakékoli dostupné trasování zásobníku.

info
info string
protokoly
logs string

Výstup úkolů, které zapisují do standardních datových proudů (stdout/stderr), jako jsou spark_jar_task, spark_python_task, python_wheel_task. Nepodporuje se pro notebook_task, pipeline_task nebo spark_submit_task. Azure Databricks omezuje toto rozhraní API na vrácení posledních 5 MB těchto protokolů.

logs_truncated
logs_truncated boolean

Zda jsou protokoly zkráceny.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Name Cesta Typ Description
výsledek
result string

Hodnota předaná dbutils.notebook.exit() Azure Databricks omezuje toto rozhraní API tak, aby vrátilo prvních 5 MB hodnoty. Pro větší výsledek může vaše úloha uložit výsledky ve službě cloudového úložiště. Toto pole chybí, pokud se dbutils.notebook.exit() nikdy nevolal.

zkrácený
truncated boolean

Zda byl výsledek zkrácen nebo ne.

JobsRunJobOutput

Name Cesta Typ Description
run_id
run_id integer

ID spuštění aktivované úlohy

JobsResolvedValues

Name Cesta Typ Description
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Name Cesta Typ Description
vlevo
left string
Vpravo
right string

JobsResolvedDbtTaskValues

Name Cesta Typ Description
commands
commands array of string

JobsResolvedNotebookTaskValues

Name Cesta Typ Description
base_parameters
base_parameters object

ÚlohyResolvedPythonWheelTaskValues

Name Cesta Typ Description
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Name Cesta Typ Description
job_parameters
job_parameters object
parameters
parameters object

ÚlohyResolvedParamPairValues

Name Cesta Typ Description
parameters
parameters object

JobsResolvedStringParamsValues

Name Cesta Typ Description
parameters
parameters array of string