Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Deklarativní balíčky automatizace (dříve označované jako Sady prostředků Databricks) umožňují zadat informace o Azure Databricks prostředcích používaných sadou v mapování resources v konfiguraci sady. Viz referenční informace k prostředkům.
Tato stránka obsahuje referenční informace o konfiguraci pro všechny podporované typy prostředků pro balíčky a poskytuje podrobnosti a příklad pro každý podporovaný typ. Další příklady najdete v tématu Příklady konfigurace sady.
Schéma JSON pro sady, které slouží k ověření konfigurace YAML, je v úložišti rozhraní příkazového řádku GitHub Databricks.
Tip
Pokud chcete vygenerovat YAML pro jakýkoli existující prostředek, použijte příkaz databricks bundle generate. Zobrazení vygenerování sady Databricks
podporované prostředky
Následující tabulka uvádí podporované typy prostředků pro sady (YAML a Python, pokud je to možné). Některé prostředky je možné vytvořit tak, že je definujete v sadě a nasadíte sadu a některé prostředky je možné vytvořit pouze odkazem na existující prostředek, který se má zahrnout do sady.
Konfigurace prostředků definuje objekt Databricks, který odpovídá objektu rozhraní REST API Databricks . Podporovaná pole žádosti o vytvoření pro objekt REST API, vyjádřená ve formátu YAML, jsou klíče podporované prostředkem. Odkazy na dokumentaci pro odpovídající objekt jednotlivých prostředků najdete v následující tabulce.
Tip
Příkaz databricks bundle validate vrátí upozornění, pokud se v konfiguračních souborech sady nacházejí neznámé vlastnosti prostředku.
výstraha
Type: Map
Prostředek upozornění definuje výstrahu SQL (v2).
Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0
alerts:
<alert-name>:
<alert-field-name>: <alert-field-value>
| Key | Typ | Description |
|---|---|---|
custom_description |
String | Optional. Vlastní popis výstrahy Podporuje šablonu mustache. Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
custom_summary |
String | Optional. Vlastní souhrn výstrahy Podporuje šablonu mustache. Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
display_name |
String | Povinné. Zobrazovaný název výstrahy, například Example alert.Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
evaluation |
Map | Povinné. Nastavení vyhodnocení pro výstrahu. Viz alert.evaluation. Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
file_path |
String | Cesta k místnímu souboru prostředku výstrahy. Přidání do Rozhraní příkazového řádku Databricks verze 0.282.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
parent_path |
String | Optional. Cesta k pracovnímu prostoru složky obsahující výstrahu. Dá se nastavit jenom při vytváření a nedá se aktualizovat. Příklad: /Users/someone@example.com.Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
permissions |
Sequence | Oprávnění k upozornění. Zobrazit oprávnění Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
query_text |
String | Povinné. Text dotazu, který se má spustit, například SELECT 1.Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
run_as |
Map | Optional. Určuje identitu, která se použije ke spuštění výstrahy. Toto pole umožňuje nakonfigurovat výstrahy, aby mohly fungovat jako konkrétní uživatel nebo hlavní služba. Viz run_as.
Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
schedule |
Map | Povinné. Konfigurace rozvrhu pro výstrahu. Viz alert.schedule. Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
warehouse_id |
String | Povinné. ID skladu SQL připojeného k výstraze, a7066a8ef796be84například .Přidání do Rozhraní příkazového řádku Databricks verze 0.279.0 |
upozornění.vyhodnocení
Type: Map
Nastavení vyhodnocení pro výstrahu.
| Key | Typ | Description |
|---|---|---|
comparison_operator |
String | Operátor použitý k porovnání v vyhodnocení výstrahy. |
empty_result_state |
String | Stav výstrahy, pokud je výsledek prázdný. Vyhýbejte se nastavení tohoto pole na UNKNOWN, protože UNKNOWN je plánované zrušení stavu. |
notification |
Map | Uživatel nebo jiné cílové místo, které má být upozorněno, když se výstraha spustí. Viz alert.evaluation.notification. |
source |
Map | Zdrojový sloupec z výsledku, který se má použít k vyhodnocení výstrahy. Viz alert.evaluation.source. |
threshold |
Map | Prahová hodnota, která se má použít pro vyhodnocení výstrahy. Může to být sloupec nebo hodnota. Viz alert.evaluation.threshold. |
upozornění.hodnocení.oznámení
Type: Map
Uživatel nebo jiné cílové místo, které má být upozorněno, když se výstraha spustí.
| Key | Typ | Description |
|---|---|---|
notify_on_ok |
logický | Optional. Jestli chcete upozornit odběratele upozornění, když se výstraha vrátí zpět do normálu. |
retrigger_seconds |
Integer | Optional. Počet sekund, po které upozornění po aktivaci počká, než se povolí odeslat další oznámení. Pokud je tato možnost nastavená 0 nebo vynechána, upozornění po prvním triggeru neodešle žádná další oznámení. Nastavením této hodnoty 1 umožníte upozornění odeslat oznámení při každém vyhodnocení, ve kterém je podmínka splněna, a tím se bude vždy opakovat pro účely oznámení. |
subscriptions |
Sequence | Optional. Neuspořádaný seznam odběrů oznámení Podívejte se na alert.evaluation.notification.subscriptions. |
upozornění.na.zkoumání.oznámení.předplatná
Type: Sequence
Neuspořádaný seznam odběrů oznámení.
Každá položka v seznamu je AlertSubscription:
| Key | Typ | Description |
|---|---|---|
destination_id |
String | ID cíle oznámení. |
user_email |
String | E-mailová adresa uživatele, která má být upozorněna. |
upozornění.hodnocení.zdroj
Type: Map
Zdrojový sloupec z výsledku, který se má použít k vyhodnocení výstrahy.
| Key | Typ | Description |
|---|---|---|
aggregation |
String | Metoda agregace, která se má použít u zdrojového sloupce. Platné hodnoty jsou SUM, , COUNTCOUNT_DISTINCTAVGMEDIANMINMAXSTDDEV |
display |
String | Zobrazovaný název zdrojového sloupce. |
name |
String | Název zdrojového sloupce z výsledku dotazu. |
upozornění.hodnocení.prahová_hodnota
Type: Map
Prahová hodnota, která se má použít pro vyhodnocení výstrah, může být sloupec nebo hodnota.
| Key | Typ | Description |
|---|---|---|
column |
Map | Odkaz na sloupec, který se má použít jako prahová hodnota. Viz alert.evaluation.source. |
value |
Map | Konstantní hodnota, která se má použít jako prahová hodnota. Viz alert.evaluation.threshold.value. |
upozornění.hodnocení.prahová hodnota.hodnota
Type: Map
Konstantní hodnota, která se má použít jako prahová hodnota. Zadejte jeden z následujících typů hodnot.
| Key | Typ | Description |
|---|---|---|
bool_value |
logický | Optional. Booleovská hodnota pro práh, například true. |
double_value |
Double | Optional. Číselná hodnota prahové hodnoty, například 1.25. |
string_value |
String | Optional. Řetězcová hodnota pro práh, například test. |
upozornění.plán
Type: Map
Konfigurace rozvrhu pro výstrahu.
| Key | Typ | Description |
|---|---|---|
pause_status |
String | Optional. Bez ohledu na to, jestli je tento plán pozastavený nebo ne. Platné hodnoty: UNPAUSED, PAUSED. Výchozí hodnota: UNPAUSED. |
quartz_cron_schedule |
String | Povinné. Výraz cron používající syntaxi quartz, který určuje plán pro tuto pipeline. Formát quartz je popsán ve formátu plánovače quartz. |
timezone_id |
String | Povinné. ID Java časového pásma. Plán se vyřeší pomocí tohoto časového pásma. To se zkombinuje s quartz_cron_schedule, k určení plánu. Podrobnosti najdete v SET TIME ZONE. |
Examples
Následující příklad konfigurace definuje výstrahu s jednoduchým vyhodnocením:
resources:
alerts:
my_alert:
display_name: my_alert
evaluation:
comparison_operator: EQUAL
source:
name: '1'
threshold:
value:
double_value: 2
query_text: select 2
schedule:
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: Europe/Amsterdam
warehouse_id: 799f096837fzzzz4
Následující příklad konfigurace definuje výstrahu s oprávněními, která vyhodnocují použití agregace a odesílají oznámení:
resources:
alerts:
my_alert:
permissions:
- level: CAN_MANAGE
user_name: someone@example.com
custom_summary: 'My alert'
display_name: 'My alert'
evaluation:
comparison_operator: 'EQUAL'
notification:
notify_on_ok: false
retrigger_seconds: 1
source:
aggregation: 'MAX'
display: '1'
name: '1'
threshold:
value:
double_value: 2
query_text: 'select 2'
schedule:
pause_status: 'UNPAUSED'
quartz_cron_schedule: '44 19 */1 * * ?'
timezone_id: 'Europe/Amsterdam'
warehouse_id: 799f096837fzzzz4
aplikace
Type: Map
Prostředek aplikace definuje aplikaci Databricks. Informace o Databricks Apps najdete v tématu Databricks Apps.
Pokud chcete přidat aplikaci, zadejte nastavení pro definování aplikace, včetně požadovaného source_code_path.
Tip
Sadu můžete inicializovat pomocí aplikace Streamlit Databricks pomocí následujícího příkazu:
databricks bundle init https://github.com/databricks/bundle-examples --template-dir contrib/templates/streamlit-app
Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0
apps:
<app-name>:
<app-field-name>: <app-field-value>
| Key | Typ | Description |
|---|---|---|
budget_policy_id |
String | ID zásad rozpočtu pro aplikaci Přidání do Rozhraní příkazového řádku Databricks verze 0.243.0 |
compute_size |
String | Velikost výpočetní kapacity aplikace. Platné hodnoty jsou MEDIUM nebo LARGE jsou závislé na konfiguraci pracovního prostoru.Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
config |
Map | Příkazy konfigurace aplikací a proměnné prostředí Viz app.config. Přidání do Rozhraní příkazového řádku Databricks verze 0.283.0 |
description |
String | Popis aplikace Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0 |
git_repository |
Map | Konfigurace úložiště Git pro nasazení aplikací. Po zadání můžou nasazení odkazovat na kód z tohoto úložiště tak, že poskytnou pouze odkaz gitu (větev, značku nebo potvrzení). Viz app.git_repository. Přidání do Rozhraní příkazového řádku Databricks verze 0.290.0 |
git_source |
Map | Konfigurace zdroje Gitu pro nasazení aplikací. Určuje, který odkaz Gitu (větev, značka nebo potvrzení) se má použít při nasazování aplikace. Používá se ve spojení s nasazením git_repository kódu přímo z Gitu.
source_code_path Uvnitř git_source určuje relativní cestu k kódu aplikace v úložišti. Viz app.git_source.Přidání do Rozhraní příkazového řádku Databricks verze 0.290.0 |
lifecycle |
Map | Chování prostředku při jeho nasazení nebo zničení Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název aplikace. Název musí obsahovat pouze malé alfanumerické znaky a pomlčky. Musí být jedinečný v rámci pracovního prostoru. Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0 |
permissions |
Sequence | Oprávnění aplikace. Zobrazit oprávnění Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0 |
resources |
Sequence | Výpočetní prostředky aplikace. Viz app.resources. Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0 |
source_code_path |
String | Místní ./app cesta zdrojového kódu aplikace Databricks.Přidáno v Rozhraní příkazového řádku Databricks verze 0.239.0 |
usage_policy_id |
String | ID zásady použití bez serveru, které se mají použít pro tuto aplikaci. Přidání do Rozhraní příkazového řádku Databricks verze 0.283.0 |
user_api_scopes |
Sequence | Obory uživatelského rozhraní API. Přidání do Rozhraní příkazového řádku Databricks verze 0.246.0 |
app.config
Příkazy konfigurace aplikací a proměnné prostředí Viz Konfigurace spuštění aplikace Databricks pomocí app.yaml.
app.git_repository
Type: Map
Konfigurace úložiště Git určující umístění úložiště.
| Key | Typ | Description |
|---|---|---|
url |
String | Adresa URL úložiště Git. |
app.git_source
Type: Map
Konfigurace zdroje Gitu pro nasazení aplikací.
| Key | Typ | Description |
|---|---|---|
branch |
String | Větev Gitu, která se má rezervovat. |
commit |
String | Sha potvrzení Gitu, které se má rezervovat. |
source_code_path |
Map | Relativní cesta ke zdrojovému kódu aplikace v úložišti Git Pokud není zadaný, použije se kořen úložiště. |
tag |
String | Značka Gitu, která se má rezervovat. |
app.zdroje
Type: Sequence
Seznam výpočetních prostředků pro aplikaci
Každá položka v seznamu je AppResource:
| Key | Typ | Description |
|---|---|---|
app |
Map | Název a oprávnění aplikace |
description |
String | Popis zdroje aplikace |
database |
Map | Nastavení, která identifikují databázi zřizování Lakebase, která se má použít. Viz app.resources.database. |
experiment |
Map | Nastavení, která identifikují experiment MLflow, který se má použít. Viz app.resources.experiment. |
genie_space |
Map | Nastavení, která identifikují prostor Genie, který se má použít. Viz app.resources.genie_space. |
job |
Map | Nastavení, která identifikují prostředek úlohy, který se má použít. Viz app.resources.job. |
name |
String | Název prostředku aplikace. |
postgres |
Map | Nastavení, která identifikují databázi automatického škálování Lakebase, která se má použít. Viz app.resources.postgres. |
secret |
Map | Nastavení, která identifikují Azure Databricks tajný prostředek, který se má použít. Viz app.resources.secret. |
serving_endpoint |
Map | Nastavení, která identifikují model obsluhující prostředek koncového bodu, který se má použít. Podívejte se na app.resources.serving_endpoint. |
sql_warehouse |
Map | Nastavení, která identifikují prostředek SQL Warehouse, který se má použít. Viz app.resources.sql_warehouse. |
uc_securable |
Map | Nastavení, která identifikují svazek katalogu Unity, který se má použít. Viz app.resources.uc_securable. |
app.resources.database
Type: Map
Nastavení, která identifikují databázi Lakebase, která se má použít.
| Key | Typ | Description |
|---|---|---|
database_name |
String | Název databáze. |
instance_name |
String | Název instance databáze. |
permission |
String | Úroveň oprávnění pro databázi. Platné hodnoty jsou CAN_CONNECT_AND_CREATE. |
app.resources.experiment
Type: Map
Nastavení, která identifikují experiment MLflow, který se má použít.
| Key | Typ | Description |
|---|---|---|
experiment_id |
String | ID experimentu MLflow. |
permission |
String | Úroveň oprávnění pro experiment. Platné hodnoty zahrnují CAN_READ, CAN_EDIT, CAN_MANAGE. |
app.resources.genie_space
Type: Map
Nastavení, která identifikují prostor Genie, který se má použít.
| Key | Typ | Description |
|---|---|---|
name |
String | Název prostoru Genie. |
permission |
String | Úroveň oprávnění pro prostor. Platné hodnoty zahrnují CAN_VIEW, CAN_EDIT, CAN_MANAGE, CAN_RUN. |
space_id |
String | ID prostoru Genie, například 550e8400-e29b-41d4-a716-999955440000. |
app.resources.job
Type: Map
Nastavení, která identifikují prostředek úlohy, který se má použít.
| Key | Typ | Description |
|---|---|---|
id |
String | Identifikátor úlohy. |
permission |
String | Úroveň oprávnění pro úlohu. Platné hodnoty zahrnují CAN_VIEW, CAN_MANAGE_RUN, CAN_MANAGE, IS_OWNER. |
app.resources.postgres
Type: Map
Nastavení, která identifikují databázi automatického škálování Lakebase, která se má použít.
| Key | Typ | Description |
|---|---|---|
branch |
String | Název větve, například projects/proj-abc123/branches/branch-xyz789. |
database |
String | Název instance databáze, například projects/proj-abc123/branches/branch-xyz789/databases/db-456. |
permission |
String | Úroveň oprávnění pro databázi. Platné hodnoty jsou CAN_CONNECT_AND_CREATE. |
app.zdroje.tajné
Type: Map
Nastavení, která identifikují Azure Databricks tajný prostředek, který se má použít.
| Key | Typ | Description |
|---|---|---|
key |
String | Tajný klíč pro udělení oprávnění. |
permission |
String | Úroveň oprávnění pro tajný klíč. Platné hodnoty zahrnují READ, WRITE, MANAGE. |
scope |
String | Název tajného rozsahu. |
app.resources.ukončující_koncový_bod
Type: Map
Nastavení, která identifikují model obsluhující prostředek koncového bodu, který se má použít.
| Key | Typ | Description |
|---|---|---|
name |
String | Název obslužného koncového bodu. |
permission |
String | Úroveň oprávnění pro obsluhující koncový bod. Platné hodnoty zahrnují CAN_QUERY, CAN_MANAGE, CAN_VIEW. |
app.resources.sql_warehouse
Type: Map
Nastavení, která identifikují službu SQL Warehouse, která se mají použít.
| Key | Typ | Description |
|---|---|---|
id |
String | Identifikátor SQL skladu. |
permission |
String | Úroveň oprávnění pro SQL Warehouse. Platné hodnoty zahrnují CAN_USE, CAN_MANAGE, IS_OWNER. |
app.resources.uc_securable
Type: Map
Nastavení, která identifikují svazek katalogu Unity, který se má použít.
| Key | Typ | Description |
|---|---|---|
permission |
String | Úroveň oprávnění pro zabezpečitelný katalog Unity. Platné hodnoty jsou READ_VOLUME a WRITE_VOLUME. |
securable_full_name |
String | Úplný název objektu zabezpečení v katalogu Unity ve formátu catalog.schema.volume. |
securable_type |
String | Typ zabezpečitelného katalogu Unity. Platné hodnoty jsou VOLUME. |
Examples
Kurz, který vás provede vytvořením sady, která definuje aplikaci, najdete v tématu Správa aplikací Databricks pomocí deklarativních sad automation.
Následující příklad definuje základní aplikaci:
resources:
apps:
hello_world_app:
name: 'hello-world-app'
source_code_path: . # This assumes the app source code is at the root of the project.
description: 'A Databricks app'
Následující příklad vytvoří aplikaci s názvem my_app , která spravuje úlohu vytvořenou sadou. Úplný příklad najdete v bundle-examples GitHub repository.
resources:
jobs:
# Define a job in the bundle
hello_world:
name: hello_world
tasks:
- task_key: task
spark_python_task:
python_file: ../src/main.py
environment_key: default
environments:
- environment_key: default
spec:
environment_version: '2'
# Define an app that manages the job in the bundle
apps:
job_manager:
name: 'job_manager_app'
description: 'An app which manages a job created by this bundle'
# The location of the source code for the app
source_code_path: ../src/app
# The resources in the bundle which this app has access to. This binds the resource in the app with the bundle resource.
resources:
- name: 'app-job'
job:
id: ${resources.jobs.hello_world.id}
permission: 'CAN_MANAGE_RUN'
app.yaml Odpovídající definuje konfiguraci pro spuštění aplikace:
command:
- flask
- --app
- app
- run
- --debug
env:
- name: JOB_ID
valueFrom: 'app-job'
Následující příklad vytvoří aplikaci, která má přístup k experimentu MLflow vytvořenému sadě:
resources:
experiments:
# Define an MLflow experiment in the bundle
my_experiment:
name: /Users/${workspace.current_user.userName}/my-app-experiment
apps:
my_ml_app:
name: 'my-ml-app'
description: 'An app with access to an MLflow experiment'
source_code_path: ./app
# Grant the app access to the MLflow experiment
resources:
- name: 'app-experiment'
experiment:
experiment_id: ${resources.experiments.my_experiment.id}
permission: 'CAN_MANAGE'
Následující příklad také definuje aplikaci s vlastní konfigurací definovanou v konfiguraci sady:
resources:
apps:
my_app:
name: my_app
description: my_app_description
source_code_path: ./app
config:
command: ['flask', '--app', 'app', 'run']
env:
- name: MY_ENV_VAR
value: test_value
- name: ANOTHER_VAR
value: another_value
Následující příklad definuje aplikaci s prostředkem automatického škálování LakeBase:
resources:
apps:
my_app:
name: my-app
source_code_path: .
resources:
- name: lakebase-db
postgres:
branch: projects/my-app/branches/production
database: projects/my-app/branches/production/databases/db-xxxx-yyyyyyyy
permission: CAN_CONNECT_AND_CREATE
catalogs
Type: Map
Prostředek katalogu umožňuje definovat katalogy (Katalog Unity) v sadě.
Note
Použití deklarativních balíčků automatizace k definování katalogů je podporováno pouze v případě, že používáte modul přímého nasazení.
Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0
catalogs:
<catalog-name>:
<catalog-field-name>: <catalog-field-value>
| Key | Typ | Description |
|---|---|---|
comment |
String | Uživatelský textový popis bezplatného formuláře katalogu. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
connection_name |
String | Název připojení k externímu zdroji dat. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
grants |
Sequence | Granty přidružené k katalogu. Viz přidělení. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
name |
String | Povinné. Název katalogu. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
options |
Object | Mapa vlastností klíč-hodnota připojených k zabezpečitelné. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
properties |
Object | Mapa vlastností klíč-hodnota připojených k zabezpečitelné. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
provider_name |
String | Název zprostředkovatele rozdílového sdílení Katalog Sdílení delta je katalog založený na sdílené složce Delta na serveru pro vzdálené sdílení. Viz Co je Delta Sharing? Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
share_name |
String | Název sdílené složky pod poskytovatelem sdílené složky. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
storage_root |
String | Kořenová adresa URL úložiště pro spravované tabulky v katalogu. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
Example
resources:
catalogs:
my_catalog:
name: my_catalog
comment: 'Catalog created by Declarative Automation Bundles'
properties:
purpose: 'Testing'
grants:
- principal: someone@example.com
privileges:
- USE_CATALOG
- CREATE_SCHEMA
schemas:
my_schema:
name: my_schema
catalog_name: ${resources.catalogs.my_catalog.name}
comment: 'Schema in custom catalog'
klastr
Type: Map
Klastrový prostředek definuje klastr.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
clusters:
<cluster-name>:
<cluster-field-name>: <cluster-field-value>
| Key | Typ | Description |
|---|---|---|
apply_policy_default_values |
logický | Pokud je nastavena hodnota true, pevné a výchozí hodnoty ze zásady budou použity pro pole, která jsou vynechána. Pokud je nastavená hodnota false, použijí se pouze pevné hodnoty ze zásady. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
autoscale |
Map | Parametry potřebné k automatickému vertikálnímu navýšení a snížení kapacity clusterů na základě zatížení Viz automatické škálování. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
autotermination_minutes |
Integer | Automaticky ukončuje cluster po uplynutí stanovené doby nečinnosti v minutách. Pokud není nastavený, tento cluster se automaticky neukončí. Pokud je tato hodnota zadaná, musí být prahová hodnota v rozmezí od 10 do 1 0000 minut. Uživatelé můžou také tuto hodnotu nastavit na hodnotu 0, aby explicitně zakázali automatické ukončení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
aws_attributes |
Map | Atributy související s clustery běžícími na Amazon Web Services Pokud nezadáte hodnoty při vytváření clusteru, použije se sada výchozích. Viz aws_attributes. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
azure_attributes |
Map | Atributy související s clustery běžícími na Microsoft Azure Pokud nezadáte hodnoty při vytváření clusteru, použije se sada výchozích. Viz azure_attributes. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
cluster_log_conf |
Map | Konfigurace pro doručování protokolů Sparku do dlouhodobého cíle úložiště. Viz cluster_log_conf. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
cluster_name |
String | Název clusteru požadovaný uživatelem To nemusí být jedinečné. Pokud není zadáno při vytváření, bude název clusteru prázdný řetězec. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
custom_tags |
Map | Další značky pro prostředky clusteru. Databricks kromě těchto značek default_tagsoznačí všechny prostředky clusteru (např. instance AWS a svazky EBS).Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
data_security_mode |
String | Model zásad správného řízení dat, který se má použít při přístupu k datům z clusteru. Platné hodnoty zahrnují NONE, , SINGLE_USERUSER_ISOLATION, LEGACY_SINGLE_USER, LEGACY_TABLE_ACL, , LEGACY_PASSTHROUGH.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
docker_image |
Map | Vlastní image Dockeru. Viz docker_image. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
driver_instance_pool_id |
String | Volitelné ID fondu instancí pro ovladač clusteru patří. Cluster fondu používá fond instancí s ID (instance*pool_id), pokud fond ovladačů není přiřazen. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
driver_node_type_flexibility |
Map | Flexibilní konfigurace typu uzlu pro uzel ovladače Viz cluster.driver_node_type_flexibility. Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0 |
driver_node_type_id |
String | Typ uzlu ovladače Spark. Toto pole je volitelné. Pokud není nastavena, typ uzlu ovladače je nastaven na hodnotu node_type_id. Toto pole by nemělo být nastaveno, node_type_idpokud virtual_cluster_size je nastaveno. Pokud jsou zadány a driver_node_type_idnode_type_idvirtual_cluster_sizejsou zadány driver_node_type_id a node_type_id mají přednost.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
enable_elastic_disk |
logický | Automatické škálování místního úložiště: Pokud je povoleno, tento cluster dynamicky získá další místo na disku, když pracovním procesům Sparku dochází místo na disku. Tato funkce vyžaduje ke správnému fungování konkrétní oprávnění AWS – další podrobnosti najdete v uživatelské příručce. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
enable_local_disk_encryption |
logický | Jestli chcete povolit LUKS na místních discích virtuálních počítačů clusteru. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
gcp_attributes |
Map | Atributy související s clustery běžícími na platformě Google Cloud Platform Pokud nezadáte hodnoty při vytváření clusteru, použije se sada výchozích. Viz gcp_attributes. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
init_scripts |
Sequence | Konfigurace pro ukládání inicializačních skriptů. Lze zadat libovolný počet cílů. Skripty se spouští postupně v zadaném pořadí. Viz init_scripts. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
instance_pool_id |
String | Volitelné ID fondu instancí, do kterého cluster patří. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
is_single_node |
logický | Toto pole lze použít pouze v případě, že kind = CLASSIC_PREVIEW. Pokud je nastavená hodnota true, Databricks automaticky nastaví jeden uzel související custom_tags, spark_confa num_workers.Přidání do Rozhraní příkazového řádku Databricks verze 0.237.0 |
kind |
String | Druh výpočtu popsaného v této specifikaci. Přidání do Rozhraní příkazového řádku Databricks verze 0.237.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
node_type_id |
String | Toto pole kóduje prostředky dostupné pro každý z uzlů Sparku v tomto clusteru prostřednictvím jedné hodnoty. Například uzly Spark mohou být nakonfigurovány a optimalizovány pro pracovní zátěže náročné na paměť nebo výpočetní výkon. Seznam dostupných typů uzlů lze načíst pomocí rozhraní API typů uzlů Seznamu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
num_workers |
Integer | Počet pracovních jednotek, které by tento cluster měl mít. Cluster má jeden ovladač Sparku a num_workers exekutory pro celkem num_workers + 1 uzly Spark.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
permissions |
Sequence | Oprávnění clusteru. Zobrazit oprávnění Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
policy_id |
String | ID zásady clusteru použité k vytvoření clusteru, pokud je k dispozici. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
remote_disk_throughput |
Integer | Propustnost vzdáleného disku v bajtech za sekundu Přidání do Rozhraní příkazového řádku Databricks verze 0.257.0 |
runtime_engine |
String | Určuje modul runtime clusteru, buď STANDARD nebo PHOTON.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
single_user_name |
String | Jedno uživatelské jméno, pokud jsou data*security_mode SINGLE_USER.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
spark_conf |
Map | Objekt obsahující sadu volitelných párů klíč-hodnota pro konfiguraci Sparku, specifikovaných uživatelem. Uživatelé mohou také předat řetězec dalších možností JVM ovladači a exekutorům prostřednictvím spark.driver.extraJavaOptions a spark.executor.extraJavaOptions v uvedeném pořadí.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
spark_env_vars |
Map | Objekt obsahující sadu volitelných párů klíč-hodnota proměnných prostředí specifikovaných uživatelem. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
spark_version |
String | Verze Sparku clusteru, např. 3.3.x-scala2.11 Seznam dostupných verzí Sparku je možné načíst pomocí rozhraní API pro seznam dostupných verzí Sparku.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
ssh_public_keys |
Sequence | Obsah veřejného klíče SSH, který se přidá do každého uzlu Sparku v tomto clusteru. Odpovídající privátní klíče lze použít k přihlášení pomocí uživatelského jména ubuntu na portu 2200. Je možné zadat až 10 klíčů.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
total_initial_remote_disk_size |
Integer | Celková počáteční velikost vzdáleného disku v bajtech Přidání do Rozhraní příkazového řádku Databricks verze 0.257.0 |
use_ml_runtime |
logický | Toto pole lze použít pouze v případě, že kind = CLASSIC_PREVIEW.
effective_spark_version je určeno spark_version (verzí Databricks Runtime), tímto polem use_ml_runtime a tím, zda je node_type_id uzlem GPU nebo ne.Přidání do Rozhraní příkazového řádku Databricks verze 0.237.0 |
worker_node_type_flexibility |
Map | Flexibilní konfigurace typu uzlu pro pracovní uzly Viz cluster.worker_node_type_flexibility. Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0 |
workload_type |
Map | Atributy clusteru se zobrazují pro typy úloh clusterů. Viz workload_type. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
cluster.autoscale
Type: Map
Parametry pro automatické škálování clusterů nahoru a dolů na základě zatížení
| Key | Typ | Description |
|---|---|---|
min_workers |
Integer | Minimální počet pracovních procesů, na které může cluster při nedostatečně využité kapacitě vertikálně snížit. Je to také počáteční počet pracovních procesů, které cluster bude mít po vytvoření. |
max_workers |
Integer | Maximální počet pracovních procesů, na které může cluster při přetížení vertikálně navýšit kapacitu.
max_workers musí být přísně větší než min_workers. |
atributy AWS skupiny
Type: Map
Atributy související s clustery běžícími na Amazon Web Services
| Key | Typ | Description |
|---|---|---|
zone_id |
String | Identifikátor zóny dostupnosti nebo datacentra, ve kterém se cluster nachází. Tento řetězec bude mít tvar jako us-west-2a. |
availability |
String | Typ dostupnosti použitý pro všechny následující uzly po first_on_demand. Platné hodnoty jsou SPOT, ON_DEMAND. SPOT_WITH_FALLBACK |
spot_bid_price_percent |
Integer | Maximální procentuální cena spotových instancí AWS jako procento ceny odpovídajícího typu instance na vyžádání. |
instance_profile_arn |
String | Uzly pro tento cluster budou umístěny pouze na instance AWS s tímto profilem instance. |
first_on_demand |
Integer | První first_on_demand uzly clusteru se umístí na instance na vyžádání. Tato hodnota by měla být větší než 0, aby se zajistilo, že uzel ovladače clusteru je umístěn na instanci na vyžádání. |
ebs_volume_type |
String | Typ svazků EBS, které budou spuštěny s tímto clusterem. Platné hodnoty jsou GENERAL_PURPOSE_SSD nebo THROUGHPUT_OPTIMIZED_HDD. |
ebs_volume_count |
Integer | Počet svazků spuštěných pro každou instanci. |
ebs_volume_size |
Integer | Velikost každého svazku EBS (v GiB) spuštěného pro každou instanci. |
ebs_volume_iops |
Integer | Počet vstupně-výstupních operací za sekundu na svazek EBS gp3. |
ebs_volume_throughput |
Integer | Propustnost na svazek EBS gp3 v MiB za sekundu. |
cluster.azure_attributes
Type: Map
Atributy související s clustery běžícími na Microsoft Azure
| Key | Typ | Description |
|---|---|---|
first_on_demand |
Integer | První first_on_demand uzly clusteru se umístí na instance na vyžádání. |
availability |
String | Typ dostupnosti použitý pro všechny následující uzly po first_on_demand. Platné hodnoty jsou SPOT_AZURE, ON_DEMAND_AZURE. SPOT_WITH_FALLBACK_AZURE |
spot_bid_max_price |
Number | Maximální cena za Azure spotových instancí. Slouží -1 k zadání nejnižší ceny. |
log_analytics_info |
Map | Konfigurace pro Azure Log Analytics agenta. Viz log_analytics_info. |
cluster.azure_attributes.log_analytics_info
Type: Map
Konfigurace pro Azure Log Analytics agenta.
| Key | Typ | Description |
|---|---|---|
log_analytics_workspace_id |
String | ID pracovního prostoru Azure Log Analytics. |
log_analytics_primary_key |
String | Primární klíč pro pracovní prostor Azure Log Analytics. |
cluster.gcp_vlastnosti
Type: Map
Atributy související s clustery běžícími na platformě Google Cloud Platform
| Key | Typ | Description |
|---|---|---|
use_preemptible_executors |
logický | Zda použít předběžné exekutory. Předpětelné exekutory jsou předem dostupné instance GCE, které může GCE kdykoli uvolnit. |
google_service_account |
String | Účet služby Google, který bude používat instance virtuálních počítačů clusteru Databricks. |
local_ssd_count |
Integer | Počet místních disků SSD, které se mají připojit ke každému uzlu v clusteru. Výchozí hodnota je 0. |
zone_id |
String | Identifikátor zóny dostupnosti nebo datacentra, ve kterém se cluster nachází. |
availability |
String | Typ dostupnosti používaný pro všechny uzly. Platné hodnoty jsou PREEMPTIBLE_GCP, ON_DEMAND_GCP. PREEMPTIBLE_WITH_FALLBACK_GCP |
boot_disk_size |
Integer | Velikost spouštěcího disku v GB. Hodnoty obvykle jsou v rozsahu od 100 do 1000. |
cluster.cluster_log_conf
Konfigurace pro doručování logů Sparku do dlouhodobého úložiště.
| Key | Typ | Description |
|---|---|---|
dbfs |
Map | Umístění DBFS pro doručení protokolů clusteru Viz dbfs. |
s3 |
Map | Umístění pro doručování logů clusteru v S3 Viz s3. |
volumes |
Map | Umístění disků pro dodávání protokolů clusteru Viz svazky. |
cluster.cluster_log_conf.dbfs
Type: Map
Umístění DBFS pro doručení protokolů clusteru
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta DBFS pro doručení logů clusteru (například dbfs:/cluster-logs). |
cluster.cluster_log_conf.s3
Type: Map
Umístění pro doručování logů clusteru v S3
| Key | Typ | Description |
|---|---|---|
destination |
String | URI S3 pro doručování logů clusteru (například s3://my-bucket/cluster-logs). |
region |
String | Oblast AWS kontejneru S3. |
endpoint |
String | Adresa URL koncového bodu S3 (volitelné). |
enable_encryption |
logický | Určuje, jestli chcete povolit šifrování pro protokoly clusteru. |
encryption_type |
String | Typ šifrování. Platné hodnoty zahrnují SSE_S3, SSE_KMS. |
kms_key |
String | Klíč KMS ARN pro šifrování (používaný při SSE_KMS). |
canned_acl |
String | Přednastavený ACL, který se má použít pro protokoly clusteru. |
cluster.cluster_log_conf.volumes
Type: Map
Umístění disků pro dodávání protokolů clusteru
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta ke svazku pro doručování protokolů clusteru (například /Volumes/catalog/schema/volume/cluster_log). |
cluster.docker_image (obraz Dockeru v clusteru)
Type: Map
Vlastní konfigurace obrazu Docker.
| Key | Typ | Description |
|---|---|---|
url |
String | Adresa URL obrazu Docker |
basic_auth |
Map | Základní ověřování pro úložiště Dockeru Viz basic_auth. |
cluster.docker_image.basic_auth
Type: Map
Základní ověřování pro úložiště Dockeru
| Key | Typ | Description |
|---|---|---|
username |
String | Uživatelské jméno pro ověřování registru Dockeru. |
password |
String | Heslo pro ověřování registru Dockeru. |
cluster.init_scripts
Type: Map
Konfigurace pro ukládání inicializačních skriptů. Musí být zadán alespoň jeden typ umístění.
| Key | Typ | Description |
|---|---|---|
dbfs |
Map | Umístění dbFS inicializačního skriptu Viz dbfs. |
workspace |
Map | Umístění pracovního prostoru pro inicializační skript. Viz pracovní prostor. |
s3 |
Map | Umístění inicializačního skriptu S3 Viz s3. |
abfss |
Map | Umístění inicializačního skriptu ABFSS Viz abfss. |
gcs |
Map | Umístění inicializačního skriptu GCS Viz gcs. |
volumes |
Map | Umístění svazků UC inicializačního skriptu Viz svazky. |
cluster.init_scripts.dbfs
Type: Map
Umístění dbFS inicializačního skriptu
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta k inicializačnímu skriptu v DBFS. |
cluster.init_scripts.workspace
Type: Map
Umístění pracovního prostoru pro inicializační skript.
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta k inicializačnímu skriptu v pracovním prostoru. |
cluster.init_scripts.s3
Type: Map
Umístění inicializačního skriptu S3
| Key | Typ | Description |
|---|---|---|
destination |
String | URI S3 inicializačního skriptu. |
region |
String | Oblast AWS kontejneru S3. |
endpoint |
String | Adresa URL koncového bodu S3 (volitelné). |
cluster.init_scripts.abfss
Type: Map
Umístění inicializačního skriptu ABFSS
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta inicializačního skriptu ABFSS. |
cluster.inicializační_skripty.gcs
Type: Map
Umístění inicializačního skriptu GCS
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta GCS inicializačního skriptu. |
cluster.init_scripts.volumes
Type: Map
Umístění úložišť inicializačního skriptu
| Key | Typ | Description |
|---|---|---|
destination |
String | Cesta svazků UC inicializačního skriptu. |
cluster.driver_node_type_flexibility
Type: Map
Flexibilní konfigurace typu uzlu pro uzel ovladače
Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0
| Key | Typ | Description |
|---|---|---|
alternate_node_type_ids |
Sequence | Seznam ID typu uzlu, které se mají použít jako záložní, pokud primární typ uzlu není k dispozici. Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0 |
cluster.worker_node_type_flexibility
Type: Map
Flexibilní konfigurace typu uzlu pro pracovní uzly
Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0
| Key | Typ | Description |
|---|---|---|
alternate_node_type_ids |
Sequence | Seznam ID typu uzlu, které se mají použít jako záložní, pokud primární typ uzlu není k dispozici. Přidání do Rozhraní příkazového řádku Databricks verze 0.285.0 |
cluster.typ_zatížení
Type: Map
Atributy clusteru zobrazující typy úloh clusteru
| Key | Typ | Description |
|---|---|---|
clients |
Map | Definuje, jaký typ klientů může cluster používat. Zobrazit klienty |
cluster.workload_type.klienti
Type: Map
Typ klientů pro tuto výpočetní úlohu.
| Key | Typ | Description |
|---|---|---|
jobs |
logický | Určuje, jestli cluster může spouštět úlohy. |
notebooks |
logický | Určuje, jestli cluster může spouštět notebooky. |
Examples
Následující příklad vytvoří vyhrazený cluster (s jedním uživatelem) pro aktuálního uživatele s Modulem Databricks Runtime 15.4 LTS a zásadami clusteru:
resources:
clusters:
my_cluster:
num_workers: 0
node_type_id: 'i3.xlarge'
driver_node_type_id: 'i3.xlarge'
spark_version: '15.4.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
autotermination_minutes: 60
enable_elastic_disk: true
single_user_name: ${workspace.current_user.userName}
policy_id: '000128DB309672CA'
enable_local_disk_encryption: false
data_security_mode: SINGLE_USER
runtime_engine: STANDARD
Tento příklad vytvoří jednoduchý cluster my_cluster a nastaví ho jako cluster pro spuštění poznámkového bloku v my_job:
bundle:
name: clusters
resources:
clusters:
my_cluster:
num_workers: 2
node_type_id: 'i3.xlarge'
autoscale:
min_workers: 2
max_workers: 7
spark_version: '13.3.x-scala2.12'
spark_conf:
'spark.executor.memory': '2g'
jobs:
my_job:
tasks:
- task_key: test_task
notebook_task:
notebook_path: './src/my_notebook.py'
existing_cluster_id: ${resources.clusters.my_cluster.id}
řídicí panel
Type: Map
Zdroj řídicího panelu umožňuje spravovat řídicí panely AI/BI v rámci jedné sady. Informace o AI/BI řídicích panelech naleznete v řídicích panelech.
Pokud jste nasadili sadu obsahující řídicí panel z místního prostředí a pak pomocí uživatelského rozhraní upravte tento řídicí panel, nebudou změny provedené prostřednictvím uživatelského rozhraní použity u souboru JSON řídicího panelu v místní sadě, pokud ho explicitně neaktualizujete pomocí bundle generate. Pomocí možnosti --watch můžete průběžně dotazovat a načítat změny na dashboardu. Zobrazení vygenerování sady Databricks
Pokud se navíc pokusíte nasadit sadu z místního prostředí, která obsahuje soubor JSON řídicího panelu, který se liší od souboru JSON ve vzdáleném pracovním prostoru, dojde k chybě. Pokud chcete vynutit nasazení a přepsání řídicího panelu ve vzdáleném pracovním prostoru tím lokálním, použijte možnost --force. Podívejte se na nasazení sady databricks.
Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0
Note
Pokud používáte balíčky deklarativní automatizace s podporou Gitu řídicího panelu, znemožnit generování duplicitních řídicích panelů přidáním mapování synchronizace , aby se řídicí panely nesynchronizují jako soubory:
sync:
exclude:
- src/*.lvdash.json
dashboards:
<dashboard-name>:
<dashboard-field-name>: <dashboard-field-value>
| Key | Typ | Description |
|---|---|---|
dataset_catalog |
String | Výchozí hodnota katalogu používaná všemi datovými sadami na řídicím panelu, pokud není v dotazu jinak zadaná. Například konfigurace, která toto pole nastaví, najdete v tématu Katalog řídicích panelů a parametrizace schématu. Přidání do Rozhraní příkazového řádku Databricks verze 0.283.0 |
dataset_schema |
String | Výchozí hodnota schématu používaná všemi datovými sadami na řídicím panelu, pokud není v dotazu jinak zadaná. Například konfigurace, která toto pole nastaví, najdete v tématu Katalog řídicích panelů a parametrizace schématu. Přidání do Rozhraní příkazového řádku Databricks verze 0.283.0 |
display_name |
String | Zobrazovaný název řídicího panelu Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
embed_credentials |
logický | Určuje, zda se přihlašovací údaje identity nasazení balíku používají ke spouštění dotazů pro všechny prohlížeče řídicích panelů. Pokud je nastavená na false, použijí se přihlašovací údaje prohlížeče. Výchozí hodnota je false.Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
etag |
String | Jmenovka řídicího panelu. Volitelně je možné u aktualizací zadat, aby se řídicí panel od posledního čtení nezměnil. Přidání do Rozhraní příkazového řádku Databricks verze 0.234.0 |
file_path |
String | Místní cesta k prostředku řídicího panelu, včetně názvu souboru. Exportované řídicí panely mají vždy příponu .lvdash.jsonsouboru .Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. |
parent_path |
String | Cesta k pracovnímu prostoru složky obsahující řídicí panel. Obsahuje počáteční lomítko a koncové lomítko. Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
path |
String | Cesta k pracovnímu prostoru prostředku řídicího panelu, včetně názvu prostředku. Přidání do Rozhraní příkazového řádku Databricks verze 0.234.0 |
permissions |
Sequence | Oprávnění řídicího panelu. Zobrazit oprávnění Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
serialized_dashboard |
Any | Obsah řídicího panelu ve formuláři serializovaného řetězce Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
warehouse_id |
String | ID skladu použité ke spuštění řídicího panelu. Přidání do Rozhraní příkazového řádku Databricks verze 0.232.0 |
Example
Následující příklad zahrnuje a nasazuje ukázkový dashboard NYC Taxi Trip Analysis do pracovního prostoru Databricks.
resources:
dashboards:
nyc_taxi_trip_analysis:
display_name: 'NYC Taxi Trip Analysis'
file_path: ../src/nyc_taxi_trip_analysis.lvdash.json
warehouse_id: ${var.warehouse_id}
katalog_databází
Type: Map
Prostředek katalogu databází umožňuje definovat katalogy databází , které odpovídají instancím databáze v sadě. Katalog databází je databáze Lakebase, která je zaregistrovaná jako katalog Katalogu Unity.
Informace o katalogech databází naleznete v tématu Vytvoření katalogu.
Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0
database_catalogs:
<database_catalog-name>:
<database_catalog-field-name>: <database_catalog-field-value>
| Key | Typ | Description |
|---|---|---|
create_database_if_not_exists |
logický | Zda chcete vytvořit databázi, pokud neexistuje. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
database_instance_name |
String | Název instance, která je součástí databáze. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
database_name |
String | Název databáze (v instanci) přidružené k katalogu. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku, včetně chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
name |
String | Název katalogu v katalogu Unity. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
Example
Následující příklad definuje instanci databáze s odpovídajícím katalogem databází:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
databázová instance
Type: Map
Prostředek instance databáze umožňuje definovat instance databáze v sadě. Instance databáze Lakebase spravuje úložiště a výpočetní prostředky a poskytuje koncové body, ke kterým se uživatelé připojují.
Note
Nové instance databáze vytvořené prostředkem database_instances se teď vytvářejí jako projekty automatického škálování LakeBase. Podrobnosti najdete v tématu Automatické škálování ve výchozím nastavení . Pro novou práci lakebase doporučujeme místo toho použít postgres_projects prostředek.
Důležité
Když nasadíte sadu s instancí databáze, instance se okamžitě spustí a podléhá ceně. Viz ceny Lakebase.
Informace o instancích databáze najdete v tématu Co je instance databáze?.
Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0
database_instances:
<database_instance-name>:
<database_instance-field-name>: <database_instance-field-value>
| Key | Typ | Description |
|---|---|---|
capacity |
String | Skladová položka instance. Platné hodnoty jsou CU_1, CU_2, CU_4, CU_8.Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
custom_tags |
Sequence | Seznam dvojic klíč-hodnota, které určují vlastní štítky přidružené k instanci. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
enable_pg_native_login |
logický | Určuje, jestli je u instance povolené nativní přihlášení pg. Výchozí hodnota je true.Přidání do Rozhraní příkazového řádku Databricks verze 0.267.0 |
enable_readable_secondaries |
logický | Jestli chcete povolit sekundární provoz, který bude obsluhovat provoz jen pro čtení. Výchozí hodnota je false.Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název instance. Toto je jedinečný identifikátor instance. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
node_count |
Integer | Počet uzlů v instanci, který se skládá z 1 primárních a 0 nebo více sekundárních uzlů. Výchozí hodnota je 1 primární a 0 sekundárních souborů. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
parent_instance_ref |
Map | Odkaz na nadřazenou instanci. Tato možnost je k dispozici pouze v případě, že instance je podřízená instance. Viz nadřazená instance. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
permissions |
Sequence | Oprávnění instance databáze. Zobrazit oprávnění Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
retention_window_in_days |
Integer | Okno uchovávání pro instanci. Toto je časové období ve dnech, po které se historická data uchovávají. Výchozí hodnota je 7 dní. Platné hodnoty jsou 2 až 35 dnů. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
stopped |
logický | Zda je instance zastavena. Přidání do Rozhraní příkazového řádku Databricks verze 0.265.0 |
usage_policy_id |
String | Požadované zásady použití bez serveru, které se mají přidružit k instanci. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
database_instance.parent_instance_ref
Type: Map
Odkaz na nadřazenou instanci. Tato možnost je k dispozici pouze v případě, že instance je podřízená instance.
| Key | Typ | Description |
|---|---|---|
branch_time |
String | Čas větvení instance ref databáze. U referenční nadřazené instance je to časový bod nadřazené instance, ze které byla instance vytvořena. Pro podřízenou instanci ref je to časový bod v rámci instance, z níž byla podřízená instance vytvořena. |
lsn |
String | Uživatelem zadaný WAL LSN instance referenční databáze. |
name |
String | Název instance referenční databáze. |
Example
Následující příklad definuje instanci databáze s odpovídajícím katalogem databází:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: ${resources.database_instances.my_instance.name}
name: example_catalog
database_name: my_database
create_database_if_not_exists: true
Příklad sady, která ukazuje, jak definovat instanci databáze a odpovídající katalog databází, najdete v bundle-examples GitHub repository.
experiment
Type: Map
Prostředek experimentu umožňuje definovat experimenty MLflow v balíčku. Informace o experimentech MLflow najdete v tématu Uspořádání trénovacích běhů pomocí experimentů MLflow.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
experiments:
<experiment-name>:
<experiment-field-name>: <experiment-field-value>
| Key | Typ | Description |
|---|---|---|
artifact_location |
String | Umístění, kde jsou uloženy artefakty experimentu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Popisný název, který identifikuje experiment. Název experimentu musí být absolutní cesta v pracovním prostoru Databricks, například /Workspace/Users/someone@example.com/my_experiment.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
permissions |
Sequence | Oprávnění experimentu. Zobrazit oprávnění Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
tags |
Sequence | Další páry metadat ve formě klíč-hodnota. Viz značky. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
Example
Následující příklad definuje experiment, který můžou zobrazit všichni uživatelé:
resources:
experiments:
experiment:
name: /Workspace/Users/someone@example.com/my_experiment
permissions:
- level: CAN_READ
group_name: users
description: MLflow experiment used to track runs
external_location (katalog Unity)
Type: Map
Prostředek externího umístění umožňuje definovat externí umístění (Katalog Unity) v sadě.
Note
Použití deklarativních balíčků automatizace k definování externích umístění je podporováno pouze v případě, že používáte modul přímého nasazení.
Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0
external_locations:
<external-location-name>:
<external-location-field-name>: <external-location-field-value>
| Key | Typ | Description |
|---|---|---|
comment |
String | Textový popis externího umístění, který poskytuje uživatel. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
credential_name |
String | Povinné. Název přihlašovacích údajů úložiště, které se používají s tímto umístěním. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
enable_file_events |
logický | Určuje, jestli chcete povolit události souborů v tomto externím umístění. Výchozí hodnota je true. Skutečná použitá hodnota se může lišit z důvodu výchozích hodnot na straně serveru. Zkontrolujte effective_enable_file_events efektivní stav.Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
encryption_details |
Map | Možnosti šifrování, které platí pro klienty připojující se ke cloudovému úložišti. Viz external_location.encryption_details. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
fallback |
logický | Určuje, jestli je pro toto externí umístění povolený záložní režim. Pokud je povolený záložní režim, přístup k umístění se vrátí k přihlašovacím údajům clusteru, pokud přihlašovací údaje katalogu Unity nestačí. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
file_event_queue |
Map | Nastavení fronty událostí souboru pro toto externí umístění Pokud enable_file_events není false, musí být tento klíč definován a musí mít přesně jednu z zdokumentovaných vlastností. Viz external_location.file_event_queue.Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
grants |
Sequence | Granty přidružené k externímu umístění. Viz přidělení. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
name |
String | Povinné. Název externího umístění. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
read_only |
logický | Určuje, jestli je externí umístění jen pro čtení. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
skip_validation |
logický | Přeskočí ověření přihlašovacích údajů úložiště, které jsou spojeny s externím umístěním. Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
url |
String | Povinné. Adresa URL cesty externího umístění Přidání do Rozhraní příkazového řádku Databricks verze 0.289.0 |
external_location.encryption_details
Type: Map
Možnosti šifrování, které platí pro klienty připojující se ke cloudovému úložišti.
| Key | Typ | Description |
|---|---|---|
sse_encryption_details |
Map | Vlastnosti šifrování na straně serveru pro klienty komunikující s Amazon S3 |
external_location.file_event_queue
Type: Map
Nastavení fronty událostí souboru pro toto externí umístění
| Key | Typ | Description |
|---|---|---|
managed_aqs |
Map | Spravovaná nastavení Azure Queue Storage |
managed_pubsub |
Map | Spravovaná nastavení Google Cloud Pub/Sub |
managed_sqs |
Map | Spravovaná nastavení Amazon SQS |
provided_aqs |
Map | Uživatelsky poskytovaná nastavení Azure Queue Storage |
provided_pubsub |
Map | Uživatelsky poskytovaná nastavení Google Cloud Pub/Sub |
provided_sqs |
Map | Uživatelsky poskytovaná nastavení Amazon SQS |
Example
resources:
external_locations:
my_external_location:
name: my_external_location
url: 's3://my-bucket/my-path'
credential_name: my_storage_credential
comment: 'External location created by Databricks Asset Bundles'
grants:
- principal: someone@example.com
privileges:
- CREATE_EXTERNAL_TABLE
- READ_FILES
práce
Type: Map
Úlohy se podporují v Python pro balíčky deklarativní automatizace. Viz databricks.bundles.jobs.
Zdroje pro úlohy vám umožňují definovat úlohy a jejich příslušné úkoly ve vašem balíčku.
Informace o úlohách naleznete v tématu Úlohy Lakeflow. Kurz, který k vytvoření úlohy používá šablonu deklarativních balíčků automation, najdete v tématu Vývoj úlohy pomocí deklarativních sad automation.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
jobs:
<job-name>:
<job-field-name>: <job-field-value>
| Key | Typ | Description |
|---|---|---|
budget_policy_id |
String | ID zásady rozpočtu zadané uživatelem, která má být použita pro tuto úlohu. Pokud není zadáno, může se při vytváření nebo úpravě úlohy použít výchozí zásada rozpočtu. Podívejte se effective_budget_policy_id na zásady rozpočtu používané touto úlohou.Přidání do Rozhraní příkazového řádku Databricks verze 0.231.0 |
continuous |
Map | Volitelná souvislá vlastnost pro tuto úlohu. Průběžná vlastnost zajistí, že vždy probíhá jedno spuštění. Použít lze pouze jeden z schedule a continuous. Viz kontinuální.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
deployment |
Map | Informace o nasazení pro úlohy spravované externími zdroji Viz nasazení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
description |
String | Volitelný popis úlohy. Maximální délka je 27700 znaků v kódování UTF-8. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
email_notifications |
Map | Volitelná sada e-mailových adres, která je upozorněna při zahájení nebo dokončení běhu této úlohy, stejně jako při jejím odstranění. Viz email_notifications. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
environments |
Sequence | Seznam specifikací prostředí spouštění úkolů, na které lze odkazovat bezserverovými úlohami této úlohy. Prostředí musí být k dispozici pro úlohy bez serveru. Pro úlohy poznámkového bloku bez serveru je prostředí dostupné v prostředí panelu poznámkového bloku. V případě jiných úloh bez serveru je nutné zadat prostředí úloh pomocí environment_key v nastavení úlohy. Podívejte se na prostředí. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
format |
String | Deprecated. Formát úlohy. |
git_source |
Map | Volitelná specifikace pro vzdálené úložiště Git obsahující zdrojový kód používaný úlohami. Viz job.git_source. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější Důležité: Pole a pole úkolu git_source nastavené na source se nedoporučují pro balíčky, protože místní relativní cesty nemusí odkazovat na stejný obsah v úložišti Git a balíčky očekávají, že nasazená úloha má stejný obsah jako místní kopie, ze které byla nasazena.Místo toho naklonujte úložiště lokálně a nastavte projekt svazku v rámci tohoto úložiště, aby zdrojem úkolů byl přímo pracovní prostor. |
health |
Map | Volitelná sada zdravotních pravidel, která lze pro tuto úlohu definovat. Podívejte se na zdraví. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
job_clusters |
Sequence | Seznam specifikací clusteru úloh, které se dají sdílet a opakovaně používat podle úkolů této úlohy. Viz job_clusters. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
max_concurrent_runs |
Integer | Volitelný parametr pro maximální povolený počet současně běžících úloh. Tuto hodnotu nastavte, pokud chcete mít možnost souběžně spouštět více spuštění stejné úlohy. |
name |
String | Volitelný název úlohy. Maximální délka je 4096 bajtů v kódování UTF-8. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
notification_settings |
Map | Volitelná nastavení oznámení, která se používají při odesílání oznámení pro každé email_notifications a webhook_notifications v rámci této úlohy. Viz notification_settings.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
parameters |
Sequence | Definice parametrů na úrovni úlohy Viz job.parameters. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
performance_target |
String | Definuje, jak výkonná nebo nákladově efektivní by měla být provádění běhu na bezserverové platformě. Přidání do Rozhraní příkazového řádku Databricks verze 0.241.0 |
permissions |
Sequence | Oprávnění úlohy. Zobrazit oprávnění Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
queue |
Map | Nastavení fronty úlohy. Podívejte se na frontu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
run_as |
Map | Nastavení jen pro zápis Určuje uživatele nebo principál služby, pod kterým úloha běží. Pokud není zadáno, úloha se spustí jako uživatel, který úlohu vytvořil. Buď user_name nebo service_principal_name by se mělo zadat. Pokud ne, vyvolá se chyba. Viz run_as.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
schedule |
Map | Volitelný pravidelný plán pro tuto úlohu. Výchozí chování spočívá v tom, že úloha se spustí pouze po aktivaci kliknutím na Spustit nyní v uživatelském rozhraní úloh nebo odesláním požadavku rozhraní API na runNow. Viz plán.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
tags |
Map | Mapa značek přidružených k úloze Předávají se do clusteru jako tagy pro clustery úloh a podléhají stejným omezením jako tagy clusteru. Do úlohy lze přidat maximálně 25 tagů. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
tasks |
Sequence | Seznam specifikací úkolů, které má tato úloha provést. Viz Přidání úkolů do úloh v deklarativních balíčcích automatizace. Přidání do Rozhraní příkazového řádku Databricks verze 0.237.0 |
timeout_seconds |
Integer | Volitelný časový limit pro každé spuštění této úlohy. Hodnota 0 znamená žádný časový limit.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
trigger |
Map | Konfigurace, která aktivuje spuštění při splnění určitých podmínek. Viz trigger. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
usage_policy_id |
String | ID zásady použití bez serveru, které se mají použít pro tuto úlohu. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
webhook_notifications |
Map | Kolekce ID systémových upozornění, která jsou použita k oznámení, když se tato úloha spustí nebo dokončí. Viz webhook_notifications. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
job.kontinuální
Type: Map
Konfigurace pro průběžné spouštění úloh
| Key | Typ | Description |
|---|---|---|
pause_status |
String | Bez ohledu na to, jestli je nepřetržitá úloha pozastavená nebo ne. Platné hodnoty: PAUSED, UNPAUSED. |
task_retry_mode |
String | Uveďte, jak průběžná úloha používá opakování na úrovni úkolů. Platné hodnoty jsou NEVER a ON_FAILURE. Výchozí hodnota je NEVER. |
úloha.nasazení
Type: Map
Informace o nasazení pro úlohy spravované externími zdroji
| Key | Typ | Description |
|---|---|---|
kind |
String | Druh nasazení. Například: BUNDLE. |
metadata_file_path |
String | Cesta k souboru metadat pro nasazení. |
job.email_oznámení
Type: Map
Nastavení e-mailových oznámení pro spuštění úloh
| Key | Typ | Description |
|---|---|---|
on_start |
Sequence | Seznam e-mailových adres pro oznámení při spuštění. |
on_success |
Sequence | Seznam e-mailových adres, které mají být informovány při úspěšném spuštění. |
on_failure |
Sequence | Seznam e-mailových adres, které budou upozorněny, když spuštění selže. |
on_duration_warning_threshold_exceeded |
Sequence | Seznam e-mailových adres, které je třeba upozornit, když délka běhu přesáhne varovný práh. |
no_alert_for_skipped_runs |
logický | Jestli chcete přeskočit odesílání výstrah pro přeskočená spuštění. |
on_streaming_backlog_exceeded |
Sequence | Seznam e-mailových adres, které mají upozorňovat na překročení prahových hodnot backlogu streamování pro jakýkoli datový proud. Prahové hodnoty backlogu streamování lze v health poli nastavit pomocí následujících metrik: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDSnebo STREAMING_BACKLOG_FILES. Upozorňování vychází z 10minutového průměru těchto metrik. Pokud problém přetrvává, oznámení se znovu zasílají každých 30 minut. |
job.prostředí
Type: Sequence
Seznam specifikací prostředí spouštění úkolů, na které lze odkazovat bezserverové úlohy úlohy.
Každá položka v seznamu je JobEnvironment:
| Key | Typ | Description |
|---|---|---|
environment_key |
String | Klíč prostředí. Musí být jedinečný v rámci úlohy. |
spec |
Map | Entita, která představuje bezserverové prostředí. Viz job.environment.spec. |
job.environment.spec
Type: Map
Entita, která představuje bezserverové prostředí.
| Key | Typ | Description |
|---|---|---|
client |
String | Deprecated. Verze klienta. |
dependencies |
Sequence | Seznam závislostí pip podporovaných verzí pip v tomto prostředí |
environment_version |
String | Povinné. Verze prostředí používaná prostředím Každá verze se dodává s konkrétní verzí Python a sadou balíčků Python. Verze je řetězec, který se skládá z celého čísla. |
job.git_source
Type: Map
Konfigurace úložiště Git pro zdrojový kód úlohy
| Key | Typ | Description |
|---|---|---|
git_branch |
String | Název větve, která má být vytvořena a používána touto úlohou. Toto pole nelze zadat ve spojení s git_tag nebo git_commit. |
git_commit |
String | Potvrďte rezervaci a použití této úlohy. Toto pole nelze zadat ve spojení s git_branch nebo git_tag. |
git_provider |
String | Jedinečný identifikátor služby používané k hostování úložiště Git. Hodnota není citlivá na velikost písmen. Platné hodnoty jsou gitHub, , bitbucketCloud, gitLabazureDevOpsServicesgitHubEnterprise, bitbucketServer, , . gitLabEnterpriseEdition |
git_snapshot |
Map | Stav vzdáleného úložiště jen pro čtení v době, kdy byla úloha spuštěna. Toto pole je zahrnuto pouze při bězích úloh. Viz git_snapshot. |
git_tag |
String | Název značky, kterou má být rezervována a používána touto úlohou. Toto pole nelze zadat ve spojení s git_branch nebo git_commit. |
git_url |
String | Adresa URL úložiště, které se má naklonovat touto úlohou. |
job.git_source.git_snapshot
Type: Map
Snímek informací o commitu pouze pro čtení
| Key | Typ | Description |
|---|---|---|
used_commit |
String | Potvrzení, které se použilo ke spuštění. Pokud bylo git_branch zadáno, tento ukazatel odkazuje na HEAD větve v době spuštění; pokud bylo git_tag zadáno, ukazuje na commit, na který odkazuje značka. |
úloha.stav
Type: Map
Konfigurace monitorování zdravotního stavu pro úlohu
| Key | Typ | Description |
|---|---|---|
rules |
Sequence | Seznam pravidel zdraví úloh Každé pravidlo obsahuje metric a op (operátor) a value. Vizte job.health.rules. |
pravidla zdraví úlohy
Type: Sequence
Seznam pravidel zdraví úloh
Každá položka v seznamu je JobHealthRule:
| Key | Typ | Description |
|---|---|---|
metric |
String | Určuje zdravotní metriku, která se vyhodnocuje pro konkrétní zdravotní pravidlo.
|
op |
String | Určuje operátor použitý k porovnání hodnoty metriky stavu se zadanou prahovou hodnotou. |
value |
Integer | Určuje prahovou hodnotu, kterou má metrika stavu dodržovat, aby vyhovovala pravidlu stavu. |
job.job_clusters
Type: Sequence
Seznam specifikací clusteru úloh, které se dají sdílet a opakovaně používat podle úkolů této úlohy. Knihovny nelze deklarovat v clusteru sdílených úloh. V nastavení úloh musíte deklarovat závislé knihovny.
Každá položka v seznamu je JobCluster:
| Key | Typ | Description |
|---|---|---|
job_cluster_key |
String | Jedinečný název clusteru úloh. Toto pole je povinné a musí být v rámci úlohy jedinečné.
JobTaskSettings může odkazovat na toto pole a určit, který cluster se má spustit pro provádění úlohy. |
new_cluster |
Map | Pokud new_cluster, popis clusteru vytvořeného pro každou úlohu. Viz cluster. |
Upozornění na nastavení úloh
Type: Map
Nastavení oznámení, která platí pro všechna oznámení pro úlohu.
| Key | Typ | Description |
|---|---|---|
no_alert_for_skipped_runs |
logický | Jestli chcete přeskočit odesílání výstrah pro přeskočená spuštění. |
no_alert_for_canceled_runs |
logický | Zda se mají přeskočit odesílání výstrah pro zrušená spuštění. |
job.parameters
Type: Sequence
Seznam definic parametrů úlohy.
Každá položka v seznamu je JobParameter:
| Key | Typ | Description |
|---|---|---|
default |
String | Povinné. Výchozí hodnota parametru, například "users". |
name |
String | Povinné. Název definovaného parametru, například "table". Platné hodnoty obsahují pouze alfanumerické znaky, _, -a .. |
fronta úloh
Type: Map
Nastavení fronty pro úlohu
| Key | Typ | Description |
|---|---|---|
enabled |
logický | Zda povolit frontování pro úlohu. |
plán.práce
Type: Map
Naplánujte konfiguraci pro pravidelné provádění úloh.
| Key | Typ | Description |
|---|---|---|
quartz_cron_expression |
String | Výraz Cron používající syntaxi Quartz, který určuje, kdy se úloha spustí. Například 0 0 9 * * ? úlohu spustí každý den v 9:00 UTC. |
timezone_id |
String | Časové pásmo harmonogramu. Například America/Los_Angeles nebo UTC. |
pause_status |
String | Bez ohledu na to, jestli je plán pozastavený nebo ne. Platné hodnoty: PAUSED, UNPAUSED. |
job.spouštěč
Type: Map
Konfigurace triggeru pro spouštění úloh řízených událostmi
| Key | Typ | Description |
|---|---|---|
file_arrival |
Map | Spouštění na základě přijetí souboru Podívejte se na file_arrival. |
table |
Map | Trigger založený na tabulce Viz tabulka. |
table_update |
Map | Trigger založený na aktualizacích tabulek Podívejte se na table_update. |
periodic |
Map | Pravidelná aktivační událost. Podívejte se na periodické. |
úloha.spuštění.příchod_souboru
Type: Map
Aktivace konfigurace na základě doručení souboru
| Key | Typ | Description |
|---|---|---|
url |
String | Cesta k monitorování nových souborů. |
min_time_between_triggers_seconds |
Integer | Minimální doba v sekundách mezi aktivačními událostmi |
wait_after_last_change_seconds |
Integer | Čekací doba v sekundách po poslední změně souboru před zahájením akce. |
job.trigger.table
Type: Map
Aktivace konfigurace na základě tabulky
| Key | Typ | Description |
|---|---|---|
table_names |
Sequence | Seznam názvů tabulek, které chcete monitorovat. |
condition |
String | Podmínka SQL, která musí být splněna, aby se úloha aktivovala. |
úloha.spouštěč.aktualizace_tabulky
Type: Map
Konfigurace spouště na základě aktualizací tabulky
| Key | Typ | Description |
|---|---|---|
table_names |
Sequence | Seznam názvů tabulek, které mají být sledovány kvůli aktualizacím. |
condition |
String | Podmínka SQL, která musí být splněna, aby se úloha aktivovala. |
wait_after_last_change_seconds |
Integer | Čekací doba v sekundách po poslední aktualizaci tabulky před aktivací. |
úloha.spoušť.periodická
Type: Map
Konfigurace periodického spouštěče
| Key | Typ | Description |
|---|---|---|
interval |
Integer | Hodnota intervalu pravidelného triggeru. |
unit |
String | Jednotka času pro interval. Platné hodnoty: HOURS, DAYS, WEEKS. |
úloha.webhook_oznámení
Type: Map
Nastavení oznámení webhooku pro spuštění úloh
| Key | Typ | Description |
|---|---|---|
on_start |
Sequence | Seznam ID oznámení webhooku, které bude upozorněno, když začne spuštění. |
on_success |
Sequence | Seznam ID oznámení webhooku, které budou oznámeny, když spuštění proběhne úspěšně. |
on_failure |
Sequence | Seznam ID oznámení pro webhooky, která budou upozorněna, když se spuštění nezdaří. |
on_duration_warning_threshold_exceeded |
Sequence | Seznam ID oznámení webhooku, kterým se má poslat upozornění, když doba běhu překročí varovný práh. |
on_streaming_backlog_exceeded |
Sequence | Seznam ID systémových oznámení, která se mají volat při překročení prahových hodnot backlogu streamování pro jakýkoli datový proud. Prahové hodnoty backlogu streamování lze v health poli nastavit pomocí následujících metrik: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDSnebo STREAMING_BACKLOG_FILES. Upozorňování vychází z 10minutového průměru těchto metrik. Pokud problém přetrvává, oznámení se znovu zasílají každých 30 minut. Je možné zadat maximálně 3 cíle. |
Examples
Následující příklad definuje úlohu s klíčem zdroje hello-job s jedním úkolem poznámkového bloku:
resources:
jobs:
hello-job:
name: hello-job
tasks:
- task_key: hello-task
notebook_task:
notebook_path: ./hello.py
Následující příklad definuje úlohu s poznámkovým blokem SQL:
resources:
jobs:
job_with_sql_notebook:
name: 'Job to demonstrate using a SQL notebook with a SQL warehouse'
tasks:
- task_key: notebook
notebook_task:
notebook_path: ./select.sql
warehouse_id: 799f096837fzzzz4
Další příklady konfigurace úloh najdete v tématu Konfigurace úlohy.
Informace o definování úloh a úpravě nastavení úlohy najdete zde:
model (původní)
Type: Map
Modelový zdroj umožňuje definovat starší modely v balíčcích. Databricks doporučuje místo toho používat modely registrované v katalogu Unity .
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
koncový bod pro obsluhu modelu
Type: Map
Prostředek model_serving_endpoint umožňuje definovat model obsluhující koncové body. Viz Správa modelů obsluhujících koncové body.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
model_serving_endpoints:
<model_serving_endpoint-name>:
<model_serving_endpoint-field-name>: <model_serving_endpoint-field-value>
| Key | Typ | Description |
|---|---|---|
ai_gateway |
Map | Konfigurace brány AI pro obsluhující koncový bod. POZNÁMKA: V současné době se podporují pouze externí modely a koncové body zřízené propustnosti. Viz ai_gateway. Přidání do Rozhraní příkazového řádku Databricks verze 0.230.0 |
budget_policy_id |
String | ID zásad rozpočtu, které se mají použít pro tento koncový bod. Přidání do Rozhraní příkazového řádku Databricks verze 0.244.0 |
config |
Map | Základní konfigurace servisního koncového bodu. Viz konfigurace. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
description |
String | Popis koncového bodu obsluhy Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
email_notifications |
Map | Konfigurace e-mailových oznámení pro koncový bod obsluhy Viz email_notifications. Přidání do Rozhraní příkazového řádku Databricks verze 0.264.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název obslužného koncového bodu. Toto pole je povinné a musí být jedinečné v rámci pracovního prostoru Databricks. Název koncového bodu se může skládat z alfanumerických znaků, pomlček a podtržítka. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
permissions |
Sequence | Model obsluhující oprávnění koncového bodu. Zobrazit oprávnění Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
rate_limits |
Sequence | Deprecated. Limity rychlosti, které se použijí pro koncový bod obsluhy. Ke správě limitů rychlosti použijte AI Gateway. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
route_optimized |
logický | Povolte optimalizaci trasy pro koncový bod služby. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
tags |
Sequence | Značky, které se mají připojit ke koncovému bodu obsluhy a automaticky se přenesou do fakturačních protokolů. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
model_serving_endpoint.email_notifications
Type: Map
Konfigurace e-mailových oznámení pro koncový bod obsluhy
| Key | Typ | Description |
|---|---|---|
on_update_failure |
Sequence | Seznamech |
on_update_success |
Sequence | Seznam e-mailových adres, které se mají informovat, když koncový bod úspěšně aktualizuje jeho konfiguraci nebo stav. |
koncový bod pro poskytování modelu.ai brána
Type: Map
Konfigurace AI Gateway pro obsluhující koncový bod
| Key | Typ | Description |
|---|---|---|
fallback_config |
Map | Konfigurace pro záložní provoz, který automaticky propadne jiným obsluhovaným entitám, pokud požadavek na obsluhované entity selže s určitými kódy chyb, aby se zvýšila dostupnost. Viz fallback_config. |
guardrails |
Map | Konfigurace mantinely. Viz zábrany. |
inference_table_config |
Map | Konfigurace protokolování inferencí v tabulkách Unity Catalogu Viz inference_table_config. |
rate_limits |
Sequence | Konfigurace omezení rychlosti. |
usage_tracking_config |
Map | Konfigurace pro sledování využití Viz usage_tracking_config. |
model_serving_endpoint.ai_gateway.fallback_config
Type: Map
Konfigurace pro záložní provoz, který automaticky propadne jiným obsluhovaným entitám, pokud požadavek selže s určitými kódy chyb.
| Key | Typ | Description |
|---|---|---|
enabled |
logický | Určuje, jestli je pro tento koncový bod povolený náhradní bod. |
koncový_bod_pro_nasazení_modelu.AI_brana.ochranné_mechanismy
Type: Map
Konfigurace mantinely brány AI.
| Key | Typ | Description |
|---|---|---|
input |
Map | Konfigurace vstupních mantinelí s poli, jako je safety, pii. |
output |
Map | Konfigurace výstupních omezení s poli jako safety a pii. |
invalid_keywords |
Sequence | Seznam klíčových slov, která se mají blokovat. |
model_serving_endpoint.ai_gateway.inference_table_config
Type: Map
Konfigurace protokolování inferencí v tabulkách Unity Catalogu
| Key | Typ | Description |
|---|---|---|
catalog_name |
String | Název katalogu v katalogu Unity. |
schema_name |
String | Název schématu v katalogu Unity. |
table_name_prefix |
String | Předpona pro názvy tabulek inference. |
enabled |
logický | Určuje, jestli je povolené protokolování odvozovací tabulky. |
koncový bod pro poskytování modelů.ai_gateway.konfigurace sledování využití
Type: Map
Konfigurace brány AI pro monitorování využití
| Key | Typ | Description |
|---|---|---|
enabled |
logický | Určuje, jestli je povolené sledování využití. |
model_serving_endpoint.config
Type: Map
Základní konfigurace koncového bodu služby.
| Key | Typ | Description |
|---|---|---|
served_entities |
Sequence | Seznam obsluhovaných entit pro koncový bod, který má sloužit. Každá obsluhovaná entita obsahuje pole jako entity_name, entity_version, workload_size, scale_to_zero_enabled, workload_type, . environment_vars |
served_models |
Sequence | (Zastaralé: místo toho použijte served_entities) Seznam obsluhovaných modelů, které má koncový bod sloužit. |
traffic_config |
Map | Konfigurační nastavení provozu definující směr, kterým mají být volání směrována na obslužný koncový bod. Viz traffic_config. |
auto_capture_config |
Map | Konfigurace pro odvozovací tabulky, které automaticky protokoluje požadavky a odpovědi do katalogu Unity. Viz auto_capture_config. |
model_serving_endpoint.config.nastavení_traffic
Type: Map
Konfigurační nastavení provozu definující směr, kterým mají být volání směrována na obslužný koncový bod.
| Key | Typ | Description |
|---|---|---|
routes |
Sequence | Seznam tras pro distribuci provozu Každá trasa obsahuje served_model_name a traffic_percentage. |
model_serving_endpoint.config.auto_capture_config (automatická konfigurace záznamu)
Type: Map
Konfigurace pro odvozovací tabulky, které automaticky protokoluje požadavky a odpovědi do katalogu Unity.
| Key | Typ | Description |
|---|---|---|
catalog_name |
String | Název katalogu v katalogu Unity. |
schema_name |
String | Název schématu v katalogu Unity. |
table_name_prefix |
String | Předpona pro názvy tabulek inference. |
enabled |
logický | Určuje, jestli je povolené protokolování odvozovací tabulky. |
Example
Následující příklad definuje koncový bod pro obsluhu modelu Unity Catalog.
resources:
model_serving_endpoints:
uc_model_serving_endpoint:
name: 'uc-model-endpoint'
config:
served_entities:
- entity_name: 'myCatalog.mySchema.my-ads-model'
entity_version: '10'
workload_size: 'Small'
scale_to_zero_enabled: 'true'
traffic_config:
routes:
- served_model_name: 'my-ads-model-10'
traffic_percentage: '100'
tags:
- key: 'team'
value: 'data science'
potrubí
Type: Map
Kanály jsou podporovány v Python pro balíčky deklarativní automatizace. Viz databricks.bundles.pipelines.
Prostředek potrubí umožňuje vytvářet potrubí. Informace o kanálech najdete v tématu Deklarativní kanály Sparku pro Lakeflow. Kurz, který k vytvoření kanálu používá šablonu deklarativních balíčků automation, najdete v tématu Vývoj kanálů pomocí deklarativních sad automation.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
pipelines:
<pipeline-name>:
<pipeline-field-name>: <pipeline-field-value>
| Key | Typ | Description |
|---|---|---|
allow_duplicate_names |
logický | Pokud je false, nasazení selže, pokud je název v konfliktu s názvem jiného potrubí. Přidání do Rozhraní příkazového řádku Databricks verze 0.261.0 |
budget_policy_id |
String | Rozpočtová zásada tohoto kanálu. Přidání do Rozhraní příkazového řádku Databricks verze 0.230.0 |
catalog |
String | Katalog Unity pro publikování dat z této pipeline. Pokud target je zadán, tabulky v tomto kanálu se publikují do schématu target uvnitř catalog (například catalog.target.).table Pokud target není zadáno, nebudou v katalogu Unity publikována žádná data.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
channel |
String | Kanál vydání Lakeflow Spark deklarativních kanálů, který specifikuje, kterou verzi použít. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
clusters |
Sequence | Nastavení clusteru pro toto nasazení pipeline. Viz cluster. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
configuration |
Map | Konfigurace pro spuštění této pipeline. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
continuous |
logický | Bez ohledu na to, jestli je kanál průběžný nebo aktivovaný. Tím se nahradí trigger.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
deployment |
Map | Typ nasazení tohoto potrubí Viz nasazení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
development |
logický | Určuje, jestli je potrubí ve vývojovém režimu. Výchozí nastavení je „false“. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
dry_run |
logický | Určuje, jestli je kanál suchým spuštěním. |
edition |
String | Edice produktu kanálu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
environment |
Map | Specifikace prostředí pro tento kanál sloužící k instalaci závislostí na bezserverové výpočetní prostředky. Viz prostředí. Tento klíč je podporován pouze v Databricks CLI verze 0.258 a vyšší. Přidání do Rozhraní příkazového řádku Databricks verze 0.257.0 |
event_log |
Map | Konfigurace protokolu událostí pro tento kanál. Viz event_log. Přidání do Rozhraní příkazového řádku Databricks verze 0.246.0 |
filters |
Map | Filtry, které určují, které balíčky kanálu se mají zahrnout do nasazeného grafu. Viz filtry. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
gateway_definition |
Map | Konfigurace kanálu brány. Tato nastavení nelze použít s ingestion_definition nastavením.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
id |
String | Jedinečný identifikátor pro tento kanál. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
ingestion_definition |
Map | Konfigurace pro spravovaný kanál příjmu dat. Tato nastavení nelze použít s parametrem libraries, schema, targetani catalog nastavením. Viz ingestion_definition.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
libraries |
Sequence | Seznam knihoven nebo kódu potřebných tímto nasazením Viz pipeline.libraries. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Popisný název tohoto kanálu Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
notifications |
Sequence | Nastavení oznámení pro tento kanál. Podívejte se na oznámení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
permissions |
Sequence | Oprávnění kanálu. Zobrazit oprávnění Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
photon |
logický | Určuje, jestli je pro tento kanál povolená funkce Photon. Tento klíč je ignorován, pokud serverless je nastavena na true.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
restart_window |
Map | Definuje okno restartování pro tento kanál. Kanály je možné restartovat v rámci tohoto okna, aniž by zapadly. |
root_path |
String | Kořenová cesta pro tento kanál. To se používá jako kořenový adresář při úpravě kanálu v uživatelském rozhraní Databricks a je přidán do adresáře sys.path při provádění Python zdrojů během provádění kanálu. Přidání do Rozhraní příkazového řádku Databricks verze 0.253.0 |
run_as |
Map | Identita, pod kterou je potrubí spouštěno. Pokud není zadána, pipelina bude spuštěna jako uživatel, který pipelinu vytvořil. Pouze user_name nebo service_principal_name lze zadat. Pokud jsou oba zadány, vyvolá se chyba. Viz run_as.Přidání do Rozhraní příkazového řádku Databricks verze 0.241.0 |
schema |
String | Výchozí schéma (databáze), do kterého se tabulky čtou nebo publikují. Přidání do Rozhraní příkazového řádku Databricks verze 0.230.0 |
serverless |
logický | Určuje, jestli je pro tento kanál povolený bezserverový výpočetní výkon. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
storage |
String | Kořenový adresář DBFS pro ukládání kontrolních bodů a tabulek. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
tags |
Map | Mapa značek přidružených k kanálu Ty se předávají do clusteru jako značky clusteru, a proto podléhají stejným omezením. Do kanálu lze přidat maximálně 25 značek. Přidání do Rozhraní příkazového řádku Databricks verze 0.256.0 |
target |
String | Cílové schéma (databáze) pro přidání tabulek v tomto kanálu. Přesně jedna z schema nebo target musí být zadána. Chcete-li publikovat do katalogu Unity, zadejte také catalog. Toto starší pole je zastaralé pro vytváření kanálu, a upřednostňuje se pole schema.Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
usage_policy_id |
String | ID zásady použití bez serveru, které se mají použít pro tento kanál. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
nasazení potrubí
Type: Map
Konfigurace typu nasazení pro přenosovou trasu.
| Key | Typ | Description |
|---|---|---|
kind |
String | Druh nasazení. Například: BUNDLE. |
metadata_file_path |
String | Cesta k souboru metadat pro nasazení. |
potrubí.prostředí
Type: Map
Specifikace prostředí pro instalaci závislostí na výpočetní prostředky bez serveru
| Key | Typ | Description |
|---|---|---|
dependencies |
Sequence | Seznam závislostí pip podporovaných verzí pip v tomto prostředí. Každá závislost je řádek požadavkového souboru pip. |
pipeline.protokol_událostí
Type: Map
Konfigurace protokolu událostí pro pipeline
| Key | Typ | Description |
|---|---|---|
catalog |
String | Katalog Unity, do kterého je protokol událostí publikován. |
name |
String | Název protokolu událostí se publikuje v katalogu Unity. |
schema |
String | Schéma katalogu Unity, ve které se protokol událostí publikuje. |
potrubí.filtry
Type: Map
Filtry, které určují, které balíčky pipeline zahrnout do nasazeného grafu.
| Key | Typ | Description |
|---|---|---|
include |
Sequence | Seznam názvů balíčků, které se mají zahrnout. |
exclude |
Sequence | Seznam názvů balíčků, které chcete vyloučit. |
pipeline.ingestion_definition
Type: Map
Konfigurace pro spravovaný kanál příjmu dat Tato nastavení nelze použít s parametrem libraries, schema, targetani catalog nastavením.
| Key | Typ | Description |
|---|---|---|
connection_name |
String | Název připojení, které se má použít k příjmu. |
full_refresh_window |
Map | (Volitelné) Okno, které určuje sadu časových rozsahů pro dotazy na snímky v CDC. |
ingestion_gateway_id |
String | ID brány pro příjem dat. |
objects |
Sequence | Povinné. Nastavení určující tabulky, které se mají replikovat, a cíl replikovaných tabulek. Každý objekt může být SchemaSpec, TableSpec nebo ReportSpec. |
source_type |
String | Vyžaduje se při použití source_configurations. Určuje typ spojnice (například POSTGRESQL, MYSQL). |
source_configurations |
Sequence | Parametry konfigurace zdroje na úrovni katalogu Při použití tohoto pole je nutné zadat source_typetaké . Viz source_configurations. |
table_configuration |
Map | Konfigurace pro tabulky příjmu dat Viz table_configuration. |
SchemaSpec
Type: Map
Specifikace objektu schématu pro ingestování všech tabulek ze schématu
| Key | Typ | Description |
|---|---|---|
source_schema |
String | Název zdrojového schématu pro ingestování. |
destination_catalog |
String | Název cílového katalogu v katalogu Unity. |
destination_schema |
String | Název cílového schématu v katalogu Unity. |
table_configuration |
Map | Konfigurace, která se použije pro všechny tabulky v tomto schématu. Podívejte se na pipeline.ingestion_definition.table_configuration. |
SpecifikaceTabulky
Type: Map
Specifikace tabulkového objektu pro ingestování dané tabulky.
| Key | Typ | Description |
|---|---|---|
source_schema |
String | Název zdrojového schématu obsahujícího tabulku. |
source_table |
String | Název zdrojové tabulky, která se má ingestovat. |
destination_catalog |
String | Název cílového katalogu v katalogu Unity. |
destination_schema |
String | Název cílového schématu v katalogu Unity. |
destination_table |
String | Název cílové tabulky v katalogu Unity. |
table_configuration |
Map | Konfigurace pro tuto konkrétní tabulku Podívejte se na pipeline.ingestion_definition.table_configuration. |
Specifikace zprávy
Type: Map
Specifikace objektu sestavy pro příjem analytických zpráv
| Key | Typ | Description |
|---|---|---|
source_url |
String | Adresa URL zdrojové sestavy. |
source_report |
String | Název nebo identifikátor zdrojové sestavy. |
destination_catalog |
String | Název cílového katalogu v katalogu Unity. |
destination_schema |
String | Název cílového schématu v katalogu Unity. |
destination_table |
String | Název cílové tabulky pro údaje zprávy. |
table_configuration |
Map | Konfigurace pro tabulku sestavy Podívejte se na pipeline.ingestion_definition.table_configuration. |
pipeline.ingestion_definition.source_configurations
Type: Sequence
Konfigurace pro zdroj Každý prvek v sekvenci je mapa obsahující konfiguraci na úrovni katalogu.
| Key | Typ | Description |
|---|---|---|
catalog |
Map | Parametry konfigurace zdroje na úrovni katalogu Viz katalog. |
pipeline.ingestion_definition.source_configurations.catalog
Type: Map
Parametry konfigurace zdroje na úrovni katalogu
| Key | Typ | Description |
|---|---|---|
postgres |
Map | Parametry konfigurace na úrovni katalogu specifické pro Postgres Obsahuje jeden slot_config klíč, který představuje Map konfiguraci slotu Postgres, která se má použít pro logickou replikaci. |
source_catalog |
String | Název zdrojového katalogu. |
pipeline.ingestion_definition.konfigurace_tabulek
Type: Map
Možnosti konfigurace pro tabulky příjmu dat
| Key | Typ | Description |
|---|---|---|
exclude_columns |
Sequence | Seznam názvů sloupců, které mají být vyloučeny pro ingestování. Pokud není uvedeno, include_columns plně určuje, které sloupce se mají ingestovat. Po zadání se automaticky zahrnou všechny ostatní sloupce, včetně těch, které budou přidány v budoucnu, pro zpracování. Toto pole se vzájemně vylučuje s include_columns. |
include_columns |
Sequence | Seznam názvů sloupců, které se mají zahrnout pro příjem dat. Pokud ho nezadáte, budou zahrnuty všechny sloupce kromě sloupců exclude_columns . Budoucí sloupce se automaticky zahrnou. Po zadání budou všechny ostatní budoucí sloupce automaticky vyloučeny z příjmu dat. Toto pole se vzájemně vylučuje s exclude_columns. |
primary_keys |
Sequence | Seznam názvů sloupců, které se mají použít jako primární klíče tabulky. |
sequence_by |
Sequence | Názvy sloupců určující logické pořadí událostí ve zdrojových datech. Deklarativní kanály Sparku používají toto sekvencování ke zpracování událostí změn, které přicházejí mimo pořadí. |
pipeline.libraries
Type: Sequence
Definuje seznam knihoven nebo kódu potřebných tímto kanálem.
Každá položka v seznamu je definice:
| Key | Typ | Description |
|---|---|---|
file |
Map | Cesta k souboru, který definuje kanál a je uložen v databricks Repos. Viz pipeline.libraries.file. |
glob |
Map | Sjednocené pole pro zahrnutí zdrojového kódu. Každá položka může být cesta k poznámkovému bloku, cesta k souboru nebo cesta ke složce, která končí /**. Toto pole nelze použít společně s notebook nebo file. Viz pipeline.libraries.glob. |
notebook |
Map | Cesta k poznámkovému bloku, který definuje kanál a je uložený v pracovním prostoru Databricks. Viz pipeline.libraries.notebook. |
whl |
String | Toto pole je zastaralé. |
pipeline.knihovny.soubor
Type: Map
Cesta k souboru, který definuje kanál a je uložený v Repos Databricks.
| Key | Typ | Description |
|---|---|---|
path |
String | Absolutní cesta ke zdrojovému kódu. |
pipeline.libraries.glob
Type: Map
Sjednocené pole pro zahrnutí zdrojového kódu. Každá položka může být cesta k poznámkovému bloku, cesta k souboru nebo cesta ke složce, která končí /**. Toto pole nelze použít společně s notebook nebo file.
| Key | Typ | Description |
|---|---|---|
include |
String | Zdrojový kód, který se má zahrnout pro pipeliny |
pipeline.libraries.notebook
Type: Map
Cesta k poznámkovému bloku, který definuje kanál a je uložený v pracovním prostoru Databricks.
| Key | Typ | Description |
|---|---|---|
path |
String | Absolutní cesta ke zdrojovému kódu. |
pipeline.notifications
Type: Sequence
Nastavení oznámení pro tento kanál. Každá položka v sekvenci je konfigurace oznámení.
| Key | Typ | Description |
|---|---|---|
alerts |
Sequence | Seznam výstrah, které aktivují oznámení Platné hodnoty zahrnují on-update-success, on-update-failure, on-update-fatal-failure, on-flow-failure. |
email_recipients |
Sequence | Seznam e-mailch |
Example
Následující příklad definuje pipeline s klíčem prostředku hello-pipeline:
resources:
pipelines:
hello-pipeline:
name: hello-pipeline
clusters:
- label: default
num_workers: 1
development: true
continuous: false
channel: CURRENT
edition: CORE
photon: false
libraries:
- notebook:
path: ./pipeline.py
Další příklady konfigurace kanálu najdete v tématu Konfigurace kanálu.
postgres_branch
Type:Map
Prostředek větve Postgres umožňuje definovat větve Lakebase v sadě. Musíte také definovat odpovídající projekty Postgres a koncové body výpočetních prostředků.
Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0
postgres_branches:
<postgres_branch-name>:
<postgres_branch-field-name>: <postgres_branches-field-value>
| Key | Typ | Description |
|---|---|---|
branch_id |
String | ID, které se má použít pro větev. Tím se stane poslední součástí názvu prostředku větve. Id je povinné a musí mít délku 1 až 63 znaků, musí začínat malým písmenem a obsahovat pouze malá písmena, číslice a pomlčky. Například z development se stane projects/my-app/branches/development.Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
expire_time |
String | Časové razítko absolutního vypršení platnosti Po nastavení vyprší platnost větve v tuto chvíli. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
is_protected |
logický | Pokud je nastavená hodnota true, chrání větev před odstraněním a resetováním. Přidružené výpočetní koncové body a projekt nelze odstranit, když je větev chráněná. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
no_expiry |
logický | Explicitně zakažte vypršení platnosti. Pokud je nastavená hodnota true, platnost větve nevyprší. Pokud je nastavená hodnota false, požadavek je neplatný; zadejte místo toho hodnotu ttl nebo expire_time. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
parent |
String | Projekt, ve kterém se tato větev vytvoří. Formát: projects/{project_id}Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
source_branch |
String | Název zdrojové větve, ze které byla tato větev vytvořena (rodokmen dat pro obnovení k určitému bodu v čase). Pokud není zadáno, nastaví se výchozí větev projektu. Formát: projects/{project_id}/branches/{branch_id}Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
source_branch_lsn |
String | Pořadové číslo protokolu (LSN) ve zdrojové větvi, ze které byla tato větev vytvořena. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
source_branch_time |
String | Bod v čase ve zdrojové větvi, ze které byla tato větev vytvořena. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
ttl |
String | Relativní doba trvání mezi časem a dobou trvání. Po nastavení vyprší platnost větve na creation_time + ttl. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
Example
Viz postgres_projects příklad.
postgres_endpoint
Type: Map
Prostředek postgres_endpoints umožňuje definovat koncové body výpočetních prostředků Lakebase v sadě. Musíte také definovat odpovídající projekty Lakebase a větve Lakebase.
Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0
postgres_endpoints:
<postgres_endpoint-name>:
<postgres_endpoint-field-name>: <postgres_endpoint-field-value>
| Key | Typ | Description |
|---|---|---|
autoscaling_limit_max_cu |
Number | Maximální počet výpočetních jednotek. Minimální hodnota je 0,5. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
autoscaling_limit_min_cu |
Number | Minimální počet výpočetních jednotek. Minimální hodnota je 0,5. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
disabled |
logický | Určuje, jestli chcete omezit připojení k výpočetnímu koncovému bodu. Povolením této možnosti naplánujete pozastavenou výpočetní operaci. Zakázaný koncový bod výpočetních prostředků nelze povolit akcí připojení nebo konzoly. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
endpoint_id |
String | ID, které se má použít pro koncový bod. Tím se stane poslední součástí názvu prostředku koncového bodu. Id je povinné a musí mít délku 1 až 63 znaků, musí začínat malým písmenem a obsahovat pouze malá písmena, číslice a pomlčky. Například z primary se stane projects/my-app/branches/development/endpoints/primary.Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
endpoint_type |
String | Typ koncového bodu. Větev může mít pouze jeden koncový bod READ_WRITE. Možné hodnoty: ENDPOINT_TYPE_READ_WRITE, ENDPOINT_TYPE_READ_ONLY.Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
group |
Map | Konfigurace skupiny koncových bodů. Viz postgres_endpoint.group. |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
no_suspension |
logický | Pokud je nastavená hodnota true, explicitně zakáže automatické pozastavení (nikdy se pozastaví). Při zadání by mělo být nastaveno na hodnotu True. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
parent |
String | Větev, ve které se tento koncový bod vytvoří. Formát: projects/{project_id}/branches/{branch_id}Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
settings |
Map | Kolekce nastavení pro výpočetní koncový bod. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
suspend_timeout_duration |
String | Doba nečinnosti, po které se výpočetní koncový bod automaticky pozastaví. Pokud je zadáno, mělo by být mezi 60 a 604800s (1 minuta až 1 týden). Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
postgres_endpoint.group
Type: Map
Konfigurace skupiny koncových bodů.
| Key | Typ | Description |
|---|---|---|
enable_readable_secondaries |
logický | Určuje, jestli chcete povolit připojení jen pro čtení ke koncovým bodům pro čtení i zápis. Relevantní pouze pro koncové body pro čtení i zápis, kde group.max > 1. |
max |
Integer | Povinné. Maximální počet výpočetních prostředků ve skupině koncových bodů. V současné době musí být roven min. Pokud chcete zakázat vysokou dostupnost (HA), nastavte pro 1 jednotlivé koncové body výpočetních prostředků. Pokud chcete ručně pozastavit všechny výpočetní prostředky ve skupině koncových bodů, nastavte disabled je na true koncový bod. |
min |
Integer | Povinné. Minimální počet výpočetních prostředků ve skupině koncových bodů. V současné době musí být roven max. To musí být větší než nebo rovno 1. |
Example
Viz postgres_projects příklad.
postgres_project
Type: Map
Zdroj projektu Postgres umožňuje definovat projekty postgres databáze Postgres služby Lakebase autoscaling v sadě. Musíte také definovat odpovídající větve Postgres a koncové body výpočetních prostředků.
Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0
postgres_projects:
<postgres_project-name>:
<postgres_project-field-name>: <postgres_project-field-value>
| Key | Typ | Description |
|---|---|---|
budget_policy_id |
String | ID zásady rozpočtu pro tento projekt. |
custom_tags |
Sequence | Vlastní značky pro tento projekt Viz postgres_project.custom_tags. |
default_endpoint_settings |
Map | Kolekce nastavení pro výpočetní koncový bod. Viz postgres_project.default_endpoint_settings. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
display_name |
String | Název projektu čitelný pro člověka. Délka by měla být 1 až 256 znaků. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
history_retention_duration |
String | Počet sekund uchování sdílené historie pro obnovení k určitému bodu v čase pro všechny větve v tomto projektu. Hodnota by měla být mezi 0 a 2592000s (až 30 dní). Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
pg_version |
Integer | Hlavní číslo verze Postgres. Podporované verze jsou 16 a 17. Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
project_id |
String | ID, které se má použít pro Project. Tím se stane poslední součástí názvu zdroje projektu. Id je povinné a musí mít délku 1 až 63 znaků, musí začínat malým písmenem a obsahovat pouze malá písmena, číslice a pomlčky. Například z my-app se stane projects/my-app.Přidání do Rozhraní příkazového řádku Databricks verze 0.287.0 |
Příklad
resources:
postgres_projects:
my_db:
project_id: test-prod-app
display_name: 'Production Database'
pg_version: 17
postgres_branches:
main:
parent: ${resources.postgres_projects.my_db.id}
branch_id: main
is_protected: false
no_expiry: true
postgres_endpoints:
primary:
parent: ${resources.postgres_branches.main.id}
endpoint_id: primary
endpoint_type: ENDPOINT_TYPE_READ_WRITE
autoscaling_limit_min_cu: 0.5
autoscaling_limit_max_cu: 4
postgres_project.custom_tags
Type: Sequence
Seznam vlastních značek pro projekt
| Key | Typ | Description |
|---|---|---|
key |
String | Klíč vlastní značky. |
value |
String | Hodnota vlastní značky. |
postgres_project.default_endpoint_settings
Type: Map
| Key | Typ | Description |
|---|---|---|
autoscaling_limit_max_cu |
Number | Maximální počet výpočetních jednotek. Minimální hodnota je 0,5. |
autoscaling_limit_min_cu |
Number | Minimální počet výpočetních jednotek. Minimální hodnota je 0,5. |
no_suspension |
logický | Pokud je nastavená hodnota true, explicitně zakáže automatické pozastavení (nikdy se pozastaví). Při zadání by mělo být nastaveno na hodnotu True. |
pg_settings |
Map | Nezpracovaná reprezentace nastavení Postgres. |
suspend_timeout_duration |
String | Doba nečinnosti, po které se výpočetní koncový bod automaticky pozastaví. Pokud je zadáno, mělo by být mezi 60 a 604800s (1 minuta až 1 týden). |
monitor kvality (katalog Unity)
Type: Map
Prostředek quality_monitor umožňuje definovat monitor tabulky katalogu Unity. Informace o monitorování najdete v tématu Profilace dat.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
quality_monitors:
<quality_monitor-name>:
<quality_monitor-field-name>: <quality_monitor-field-value>
| Key | Typ | Description |
|---|---|---|
assets_dir |
String | Adresář pro ukládání monitorovacích prostředků (např. řídicího panelu, tabulek metrik). Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
baseline_table_name |
String | Název základní tabulky, ze které se metriky posunu počítají. Sloupce v monitorované tabulce by se měly vyskytovat také v tabulce směrného plánu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
custom_metrics |
Sequence | Vlastní metriky pro výpočty v monitorované tabulce Mohou to být agregované metriky, odvozené metriky (z již vypočítaných agregovaných metrik) nebo metriky posunu (porovnání metrik napříč časovými intervaly). Viz custom_metrics. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
inference_log |
Map | Konfigurace pro monitorování protokolů inference. Viz inference_log. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
latest_monitor_failure_msg |
String | Nejnovější chybová zpráva pro selhání monitorování. Jedná se o pole jen pro čtení, které se vyplní, když se monitorování nezdaří. Přidání do Rozhraní příkazového řádku Databricks verze 0.264.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
notifications |
Map | Nastavení oznámení pro monitor. Podívejte se na oznámení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
output_schema_name |
String | Schéma, ve kterém se vytvářejí výstupní tabulky metrik. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
schedule |
Map | Plán pro automatickou aktualizaci a obnovení tabulek metrik Viz plán. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
skip_builtin_dashboard |
logický | Zda se má přeskočit vytvoření výchozího řídicího panelu se souhrnem metrik kvality dat. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
slicing_exprs |
Sequence | Seznam výrazů sloupců pro určování průřezů dat pro cílenou analýzu. Data jsou seskupována podle jednotlivých výrazů nezávisle, což vede k samostatnému řezu pro každý predikát a jeho doplňky. U sloupců s vysokou kardinalitou vygenerují řezy pouze prvních 100 jedinečných hodnot podle četnosti. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
snapshot |
Map | Konfigurace pro monitorování snímkových tabulek Podívejte se na snímek. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
table_name |
String | Úplný název tabulky. Přidání do Rozhraní příkazového řádku Databricks verze 0.235.0 |
time_series |
Map | Konfigurace pro monitorování tabulek časových řad Viz time_series. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
warehouse_id |
String | Volitelný argument pro zadání skladu pro vytvoření řídicího panelu. Pokud není zadaný, použije se první spuštěný sklad. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
monitor_kvality.vlastní_metodiky
Type: Sequence
Seznam vlastních definic metrik
Každá položka v seznamu je CustomMetric:
| Key | Typ | Description |
|---|---|---|
definition |
String | Šablona Jinja pro výraz SQL, který určuje, jak vypočítat metriku. Viz vytvoření definice metriky. |
input_columns |
Sequence | Seznam názvů sloupců ve vstupní tabulce, pro které by se měla metrika vypočítat. Dá se použít :table k označení, že metrika potřebuje informace z více sloupců. |
name |
String | Název metriky ve výstupních tabulkách |
output_data_type |
String | Výstupní typ vlastní metriky. |
type |
String | Může to být pouze jeden z CUSTOM_METRIC_TYPE_AGGREGATE, CUSTOM_METRIC_TYPE_DERIVEDnebo CUSTOM_METRIC_TYPE_DRIFT. Metriky CUSTOM_METRIC_TYPE_AGGREGATE a CUSTOM_METRIC_TYPE_DERIVED se počítají na jedné tabulce, zatímco CUSTOM_METRIC_TYPE_DRIFT porovnává metriky mezi základní a vstupní tabulkou, nebo mezi dvěma po sobě jdoucími časovými okny.
|
quality_monitor.inference_log
Type: Map
Konfigurace pro monitorování protokolů inference.
| Key | Typ | Description |
|---|---|---|
granularities |
Sequence | Granularity času pro agregaci inferenčních logů (například ["1 day"]). |
model_id_col |
String | Název sloupce obsahujícího ID modelu. |
prediction_col |
String | Název sloupce obsahujícího predikci. |
timestamp_col |
String | Název sloupce obsahujícího časové razítko. |
problem_type |
String | Typ problému strojového učení. Platné hodnoty zahrnují PROBLEM_TYPE_CLASSIFICATION, PROBLEM_TYPE_REGRESSION. |
label_col |
String | Název sloupce obsahujícího popisek (základní pravda). |
prediction_proba_col |
String | Název sloupce obsahujícího pravděpodobnosti předpovědi. |
quality_monitor.notifikace
Type: Map
Nastavení oznámení pro monitor
| Key | Typ | Description |
|---|---|---|
on_failure |
Map | Nastavení oznámení, když selže monitor. Viz on_failure. |
on_new_classification_tag_detected |
Map | Nastavení oznámení při zjištění nových značek klasifikace Viz on_new_classification_tag_detected. |
monitor_kvality.notifikace.při_selhání
Type: Map
Nastavení oznámení, když selže monitor.
| Key | Typ | Description |
|---|---|---|
email_addresses |
Sequence | Seznam e-mailových adres k upozornění na selhání monitoru. |
quality_monitor.oznámení.on_new_classification_tag_detected
Type: Map
Nastavení oznámení při zjištění nových značek klasifikace
| Key | Typ | Description |
|---|---|---|
email_addresses |
Sequence | Seznam e-mailových adres, které vás upozorní, když se zjistí nové značky klasifikace. |
quality_monitor.schedule
Type: Map
Naplánujte automatickou aktualizaci a aktualizaci tabulek metrik.
| Key | Typ | Description |
|---|---|---|
quartz_cron_expression |
String | Výraz Cron používající syntaxi Quartz. Například 0 0 8 * * ? probíhá každý den v 8:00 ráno. |
timezone_id |
String | Časové pásmo pro plán (například UTC, America/Los_Angeles). |
pause_status |
String | Zda je plán pozastaven. Platné hodnoty: PAUSED, UNPAUSED. |
monitor_kvality.snímek
Type: Map
Konfigurace pro monitorování snímkových tabulek
quality_monitor.časová_řada
Konfigurace pro monitorování tabulek časových řad
| Key | Typ | Description |
|---|---|---|
granularities |
Sequence | Časové členitosti agregace dat časových řad (například ["30 minutes"]). |
timestamp_col |
String | Název sloupce obsahujícího časové razítko. |
Examples
Následující příklady definují monitorování kvality pro typy profilů InferenceLog, TimeSeries a Snapshot .
# InferenceLog profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 day]
model_id_col: model_id
prediction_col: prediction
label_col: price
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# TimeSeries profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
time_series:
granularities: [30 minutes]
timestamp_col: timestamp
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
# Snapshot profile type
resources:
quality_monitors:
my_quality_monitor:
table_name: dev.mlops_schema.predictions
output_schema_name: ${bundle.target}.mlops_schema
assets_dir: /Workspace/Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
snapshot: {}
schedule:
quartz_cron_expression: 0 0 8 * * ? # Run Every day at 8am
timezone_id: UTC
Následující příklad nakonfiguruje monitorování kvality a odpovídající úlohu opětovného trénování modelu na základě monitorování:
# Quality monitoring workflow
resources:
quality_monitors:
mlops_quality_monitor:
table_name: ${bundle.target}.mlops_demo.predictions
output_schema_name: ${bundle.target}.mlops_demo
assets_dir: /Users/${workspace.current_user.userName}/databricks_lakehouse_monitoring
inference_log:
granularities: [1 hour]
model_id_col: model_version
prediction_col: prediction
label_col: fare_amount
problem_type: PROBLEM_TYPE_REGRESSION
timestamp_col: inference_timestamp
schedule:
quartz_cron_expression: 57 0 14 * * ? # refresh monitoring metrics every day at 7 am PT
timezone_id: UTC
jobs:
retraining_job:
name: ${bundle.target}-mlops_demo-monitoring-retraining-job
tasks:
- task_key: monitored_metric_violation_check
notebook_task:
notebook_path: ../monitoring/notebooks/MonitoredMetricViolationCheck.py
base_parameters:
env: ${bundle.target}
table_name_under_monitor: ${bundle.target}.mlops_demo.predictions
metric_to_monitor: r2_score
metric_violation_threshold: 0.7
num_evaluation_windows: 24
num_violation_windows: 5 # 5 out of the past 24 windows have metrics lower than threshold
- task_key: is_metric_violated
depends_on:
- task_key: monitored_metric_violation_check
condition_task:
op: EQUAL_TO
left: '{{tasks.monitored_metric_violation_check.values.is_metric_violated}}'
right: 'true'
- task_key: trigger_retraining
depends_on:
- task_key: is_metric_violated
outcome: 'true'
run_job_task:
job_id: ${resources.jobs.model_training_job.id}
schedule:
quartz_cron_expression: '0 0 15 * * ?' # daily at 8 am PDT
timezone_id: UTC
# To get notifications, provide a list of emails to the on_failure argument.
#
# email_notifications:
# on_failure:
# - someone@example.com
registrovaný_model (Unity Catalog)
Type: Map
Registrovaný modelový prostředek umožňuje definovat modely v katalogu Unity. Informace o registrovaných modelech v Unity Catalognaleznete v Katalogu Unity v tématu Správa životního cyklu modelu.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
registered_models:
<registered_model-name>:
<registered_model-field-name>: <registered_model-field-value>
| Key | Typ | Description |
|---|---|---|
aliases |
Sequence | Seznam aliasů přidružených k registrovanému modelu Viz registered_model.aliasy. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
browse_only |
logický | Určuje, jestli je objekt zabezpečení omezen na načtení metadat přidruženého objektu prostřednictvím oprávnění BROWSE, když je v požadavku povolená include_browse. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
catalog_name |
String | Název katalogu, ve kterém se nachází schéma a zaregistrovaný model. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
comment |
String | Komentář připojený k registrovanému modelu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
created_at |
Integer | Časové razítko registrovaného modelu v milisekundách od epochy unixu Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
created_by |
String | Identifikátor uživatele, který vytvořil registrovaný model. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
full_name |
String | Tříúrovňový (plně kvalifikovaný) název registrovaného modelu. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
grants |
Sequence | Granty přidružené k registrovanému modelu. Viz přidělení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
metastore_id |
String | Jedinečný identifikátor metastoru. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
name |
String | Název registrovaného modelu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
owner |
String | Identifikátor uživatele, který vlastní registrovaný model. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
schema_name |
String | Název schématu, ve kterém se nachází zaregistrovaný model. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
storage_location |
String | Umístění úložiště v cloudu, ve kterém jsou uložené datové soubory verze modelu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
updated_at |
String | Časové razítko poslední aktualizace registrovaného modelu v milisekundách od epochy Unixu. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
updated_by |
String | Identifikátor uživatele, který naposledy aktualizoval registrovaný model. Přidání do Rozhraní příkazového řádku Databricks verze 0.273.0 |
registered_model.aliases
Type: Sequence
Seznam aliasů přidružených k registrovanému modelu
Každá položka v seznamu je Alias:
| Key | Typ | Description |
|---|---|---|
alias_name |
String | Název aliasu, např. šampión nebo latest_stable |
catalog_name |
String | Název katalogu obsahující verzi modelu |
id |
String | Jedinečný identifikátor aliasu |
model_name |
String | Název nadřazeného registrovaného modelu verze modelu vzhledem k nadřazenému schématu |
schema_name |
String | Název schématu obsahujícího verzi modelu vzhledem k nadřazeného katalogu |
version_num |
Integer | Celočíselné číslo verze modelu, na kterou tento alias odkazuje. |
Example
Následující příklad definuje registrovaný model v Katalogu Unity:
resources:
registered_models:
model:
name: my_model
catalog_name: ${bundle.target}
schema_name: mlops_schema
comment: Registered model in Unity Catalog for ${bundle.target} deployment target
grants:
- privileges:
- EXECUTE
principal: account users
schéma (katalog Unity)
Type: Map
Schémata jsou podporována v Python pro deklarativní automatizační sady. Viz databricks.bundles.schemas.
Typ prostředku schématu umožňuje definovat schémata katalogu Unity pro tabulky a další zdroje ve vašich pracovních postupech a pipelinech vytvořených jako součást balíčku. Schéma, které se liší od jiných typů prostředků, má následující omezení:
- Vlastníkem prostředku schématu je vždy uživatel, který provádí nasazení, a nelze jej změnit. Pokud je v balíčku zadán
run_as, bude operacemi ve schématu ignorován. - Pro prostředek schématu jsou dostupná pouze pole podporovaná odpovídajícím objektem API pro vytváření schémat. Například
enable_predictive_optimizationse nepodporuje, protože je k dispozici pouze v rozhraní API aktualizace.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
schemas:
<schema-name>:
<schema-field-name>: <schema-field-value>
| Key | Typ | Description |
|---|---|---|
catalog_name |
String | Název nadřazeného katalogu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
comment |
String | Popis volného textu poskytnutého uživatelem. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
grants |
Sequence | Granty přidružené ke schématu. Viz přidělení. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název schématu vzhledem k nadřazenému katalogu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
properties |
Map | Mapa vlastností typu klíč-hodnota připojených ke schématu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
storage_root |
String | Kořenová adresa URL úložiště pro spravované tabulky v rámci schématu. Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější |
Examples
Následující příklad definuje kanál s klíčem my_pipeline prostředku, který vytvoří schéma katalogu Unity s klíčem my_schema jako cílem. Tento příklad používá náhrady.
resources:
pipelines:
my_pipeline:
name: test-pipeline
libraries:
- notebook:
path: ../src/nb.ipynb
- file:
path: ../src/range.sql
development: true
catalog: ${resources.schemas.my_schema.catalog_name}
target: ${resources.schemas.my_schema.id}
schemas:
my_schema:
name: test-schema
catalog_name: main
comment: This schema was created by Declarative Automation Bundles.
Balíčky deklarativní automatizace nepodporují mapování grantů nejvyšší úrovně, takže pokud chcete nastavit granty pro schéma, definujte granty pro schéma v rámci schemas mapování. Další informace o grantech naleznete v tématu Zobrazit, udělit a odvolat oprávnění.
Následující příklad definuje schéma katalogu Unity s granty:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
tajný_scope
Type: Map
Prostředek secret_scope umožňuje definovat tajné oblasti v sadě. Informace o oborech tajných kódů najdete v tématu Správa tajných kódů.
Přidání do Rozhraní příkazového řádku Databricks verze 0.252.0
secret_scopes:
<secret_scope-name>:
<secret_scope-field-name>: <secret_scope-field-value>
| Key | Typ | Description |
|---|---|---|
backend_type |
String | Typ back-endu, s kterým bude obor vytvořen. Pokud není zadáno, tato výchozí hodnota je DATABRICKS.Přidání do Rozhraní příkazového řádku Databricks verze 0.252.0 |
keyvault_metadata |
Map | Metadata pro tajný rozsah, pokud backend_type je AZURE_KEYVAULT. Viz keyvault_metadata.Přidání do Rozhraní příkazového řádku Databricks verze 0.252.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název oboru požadovaný uživatelem Názvy oborů jsou jedinečné. Přidání do Rozhraní příkazového řádku Databricks verze 0.252.0 |
permissions |
Sequence | Oprávnění, která se mají použít pro obor tajných kódů. Oprávnění se spravují prostřednictvím ACL (seznamů řízení přístupu) tajného rozsahu. Zobrazit oprávnění Přidání do Rozhraní příkazového řádku Databricks verze 0.252.0 |
secret_scope.keyvault_metadata
Type: Map
Metadata pro obory tajných kódů Azure Key Vault.
| Key | Typ | Description |
|---|---|---|
resource_id |
String | ID prostředku Azure Key Vault. |
dns_name |
String | Název DNS Azure Key Vault. |
Examples
Následující příklad definuje obor pro tajnosti, který používá úložiště klíčů jako zázemí:
resources:
secret_scopes:
secret_scope_azure:
name: test-secrets-azure-backend
backend_type: 'AZURE_KEYVAULT'
keyvault_metadata:
resource_id: my_azure_keyvault_id
dns_name: my_azure_keyvault_dns_name
Následující příklad nastaví vlastní ACL pomocí oborů tajných hodnot a oprávnění.
resources:
secret_scopes:
my_secret_scope:
name: my_secret_scope
permissions:
- user_name: admins
level: WRITE
- user_name: users
level: READ
Příklad sady, která ukazuje, jak definovat obor tajného kódu a úlohu s úkolem, který z něj čte v sadě, najdete v bundle-examples GitHub úložiště.
sql_warehouse
Type: Map
Prostředek SQL Warehouse umožňuje definovat SQL Warehouse v sadě. Informace o skladech SQL najdete v tématu Data warehouse na Azure Databricks.
Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0
sql_warehouses:
<sql-warehouse-name>:
<sql-warehouse-field-name>: <sql-warehouse-field-value>
| Key | Typ | Description |
|---|---|---|
auto_stop_mins |
Integer | Doba v minutách, po kterou musí být SQL Warehouse nečinná (například bez spuštěných dotazů), než se automaticky zastaví. Platné hodnoty jsou 0, což znamená, že neprobíhá automatické zastavení, nebo větší či rovné 10. Výchozí hodnota je 120. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
channel |
Map | Podrobnosti o kanálu. Viz kanál. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
cluster_size |
String | Velikost clusterů přidělených pro tento sklad Zvětšení velikosti clusteru Spark umožňuje spouštět na něm větší dotazy. Pokud chcete zvýšit počet souběžných dotazů, vylaďte max_num_clusters. Podporované hodnoty najdete v cluster_size. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
creator_name |
String | Jméno uživatele, který vytvořil sklad. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
enable_photon |
logický | Určuje, jestli má sklad používat clustery optimalizované pro Photon. Výchozí nastavení je „false“. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
enable_serverless_compute |
logický | Určuje, jestli má sklad používat bezserverové výpočetní prostředky. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
instance_profile_arn |
String | Deprecated. Profil instance sloužící k předání role IAM do clusteru. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
max_num_clusters |
Integer | Maximální počet clusterů, které automatické škálování vytvoří pro zpracování souběžných dotazů. Hodnoty musí být menší než nebo rovny 30 a větší než nebo rovny min_num_clusters. Výchozí hodnota je min_clusters, pokud není nastavená.Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
min_num_clusters |
Integer | Minimální počet dostupných clusterů, které budou zachovány pro tento SQL Warehouse. Zvýšení tohoto parametru zajistí, že vždy bude běžet větší počet clusterů a tím se může zkrátit doba studeného startu pro nové dotazy. To se podobá rezervovaným a odvolatelným jádrům ve Správci prostředků. Hodnoty musí být větší než 0 a menší než nebo rovny min(max_num_clusters; 30). Výchozí hodnota je 1. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
name |
String | Logický název clusteru. Název musí být jedinečný v rámci organizace a musí být menší než 100 znaků. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
permissions |
Sequence | Oprávnění, která se mají vztahovat na sklad. Zobrazit oprávnění Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
spot_instance_policy |
String | Určuje, jestli se mají používat spotové instance. Platné hodnoty jsou POLICY_UNSPECIFIED, COST_OPTIMIZED. RELIABILITY_OPTIMIZED Výchozí hodnota je COST_OPTIMIZED.Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
tags |
Map | Sada vlastních značek pro sklad. Viz sql_warehouse.tags. Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
warehouse_type |
String | Typ skladu, PRO nebo CLASSIC. Pokud chcete používat bezserverové výpočetní prostředky, nastavte toto pole na PRO a nastavte pole enable_serverless_compute na true.Přidání do Rozhraní příkazového řádku Databricks verze 0.260.0 |
sql_warehouse.kanál
Type: Map
Konfigurace kanálu pro SQL Warehouse.
| Key | Typ | Description |
|---|---|---|
name |
String | Název kanálu. Platné hodnoty zahrnují CHANNEL_NAME_CURRENT, CHANNEL_NAME_PREVIEW, CHANNEL_NAME_CUSTOM. |
dbsql_version |
String | Verze DBSQL pro vlastní kanály. |
sql_warehouse.tags
Type: Map
Vlastní značky pro SQL Warehouse.
| Key | Typ | Description |
|---|---|---|
custom_tags |
Sequence | Sada párů klíč-hodnota, které identifikují značky u všech prostředků (například instancí AWS a svazků EBS) přidružených k tomuto SQL Warehouse. Počet značek musí být menší než 45. |
Example
Následující příklad definuje SQL Warehouse:
resources:
sql_warehouses:
my_sql_warehouse:
name: my_sql_warehouse
cluster_size: X-Large
enable_serverless_compute: true
max_num_clusters: 3
min_num_clusters: 1
auto_stop_mins: 60
warehouse_type: PRO
tags:
custom_tags:
- key: 'bizunit'
value: 'commercial'
- key: 'area'
value: 'marketing'
synchronizovaná_databázová_tabulka
Type: Map
Prostředek synchronizované tabulky databáze umožňuje definovat databázové tabulky Lakebase v sadě.
Informace o synchronizovaných databázových tabulkách najdete v tématu Co je instance databáze?.
Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0
synced_database_tables:
<synced_database_table-name>:
<synced_database_table-field-name>: <synced_database_table-field-value>
| Key | Typ | Description |
|---|---|---|
database_instance_name |
String | Název cílové instance databáze. To se vyžaduje při vytváření synchronizovaných databázových tabulek ve standardních katalogech. To je volitelné při vytváření synchronizovaných databázových tabulek v registrovaných katalogech. Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
logical_database_name |
String | Název cílového databázového objektu Postgres (logická databáze) pro tuto tabulku. Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0 |
name |
String | Úplný název tabulky ve formuláři catalog.schema.table.Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0 |
spec |
Map | Specifikace tabulky databáze. Viz specifikace synchronizované tabulky databáze. Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0 |
synced_database_table.spec
Type: Map
Specifikace tabulky databáze.
Přidání do Rozhraní příkazového řádku Databricks verze 0.266.0
| Key | Typ | Description |
|---|---|---|
create_database_objects_if_missing |
logický | Zda vytvořit logickou databázi a zdroje schématu synchronizované tabulky, pokud ještě neexistují. |
existing_pipeline_id |
String | ID existujícího potrubí. Pokud je toto nastaveno, synchronizovaná tabulka bude efektivně zabalena do stávajícího kanálu, na nějž se odkazuje. Tím se zabrání vytvoření nového kanálu a umožňuje sdílení existujících výpočetních prostředků. V tomto případě musí synchronizovaná tabulka scheduling_policy odpovídat zásadám plánování existujícího kanálu. Měla by být definována maximálně jedna z existing_pipeline_id a new_pipeline_spec. |
new_pipeline_spec |
Map | Specifikace nového kanálu. Viz new_pipeline_spec. Měla by být definována maximálně jedna z existing_pipeline_id a new_pipeline_spec. |
primary_key_columns |
Sequence | Seznam názvů sloupců, které tvoří primární klíč. |
scheduling_policy |
String | Zásady plánování pro synchronizaci. Platné hodnoty zahrnují SNAPSHOT, CONTINUOUS, TRIGGERED. |
source_table_full_name |
String | Úplný název zdrojové tabulky ve formátu catalog.schema.table. |
timeseries_key |
String | Klíč časové řady pro odstranění duplicitních řádků se stejným primárním klíčem. |
synced_database_table.spec.new_pipeline_spec
Type: Map
Specifikace nového kanálu používaného synchronizovanou tabulkou databáze.
| Key | Typ | Description |
|---|---|---|
budget_policy_id |
String | ID zásad rozpočtu, které se nastaví v nově vytvořeném kanálu. |
storage_catalog |
String | Katalog kanálu pro ukládání zprostředkujících souborů, jako jsou kontrolní body a protokoly událostí. Musí to být standardní katalog, kde má uživatel oprávnění k vytváření tabulek Delta. |
storage_schema |
String | Schéma kanálu pro ukládání zprostředkujících souborů, jako jsou kontrolní body a protokoly událostí. Musí to být ve standardním katalogu, kde má uživatel oprávnění k vytváření tabulek Delta. |
Examples
Následující příklad definuje synchronizovanou tabulku databáze v rámci odpovídajícího katalogu databází:
resources:
database_instances:
my_instance:
name: my-instance
capacity: CU_1
database_catalogs:
my_catalog:
database_instance_name: my-instance
database_name: 'my_database'
name: my_catalog
create_database_if_not_exists: true
synced_database_tables:
my_synced_table:
name: ${resources.database_catalogs.my_catalog.name}.${resources.database_catalogs.my_catalog.database_name}.my_destination_table
database_instance_name: ${resources.database_catalogs.my_catalog.database_instance_name}
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'my_source_table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
Následující příklad definuje synchronizovanou tabulku databáze v rámci standardního katalogu:
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.public.synced_table'
# database_instance_name is required for synced tables created in standard catalogs.
database_instance_name: 'my-database-instance'
# logical_database_name is required for synced tables created in standard catalogs:
logical_database_name: ${resources.database_catalogs.my_catalog.database_name}
spec:
source_table_full_name: 'source_catalog.schema.table'
scheduling_policy: SNAPSHOT
primary_key_columns:
- my_pk_column
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'my_delta_catalog'
storage_schema: 'my_delta_schema'
Tento příklad vytvoří synchronizovanou databázovou tabulku a přizpůsobí harmonogram zpracování pro ni. Předpokládá se, že už máte:
- Instance databáze s názvem
my-database-instance - Standardní katalog s názvem
my_standard_catalog - Schéma ve standardním katalogu s názvem
default - Zdrojová delta tabulka s názvem
source_delta.schema.customera primárním klíčemc_custkey
resources:
synced_database_tables:
my_synced_table:
name: 'my_standard_catalog.default.my_synced_table'
database_instance_name: 'my-database-instance'
logical_database_name: 'test_db'
spec:
source_table_full_name: 'source_delta.schema.customer'
scheduling_policy: SNAPSHOT
primary_key_columns:
- c_custkey
create_database_objects_if_missing: true
new_pipeline_spec:
storage_catalog: 'source_delta'
storage_schema: 'schema'
jobs:
sync_pipeline_schedule_job:
name: sync_pipeline_schedule_job
description: 'Job to schedule synced database table pipeline.'
tasks:
- task_key: synced-table-pipeline
pipeline_task:
pipeline_id: ${resources.synced_database_tables.my_synced_table.data_synchronization_status.pipeline_id}
schedule:
quartz_cron_expression: '0 0 0 * * ?'
objem (Unity Catalog)
Type: Map
Svazky jsou podporovány v Python pro svazky deklarativní automatizace. Viz databricks.bundles.volumes.
Typ prostředku svazků umožňuje definovat a vytvářet svazky katalogu Unity jako součást balíčku. Při nasazování balíčku s definovaným svazkem mějte na paměti, že:
- Na svazek nelze odkazovat v balíčku
artifact_path, dokud neexistuje v pracovním prostoru. Proto pokud chcete k vytvoření svazku použít sady deklarativní automatizace, musíte nejprve definovat svazek v sadě, nasadit ho k vytvoření svazku a pak na něj vartifact_pathnásledných nasazeních odkazovat. - Svazky v sadě nejsou opatřeny předponou
dev_${workspace.current_user.short_name}, když je cíl nasazení nakonfigurován pomocímode: development. Tuto předponu ale můžete nakonfigurovat ručně. Viz Vlastní předvolby.
Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0
volumes:
<volume-name>:
<volume-field-name>: <volume-field-value>
| Key | Typ | Description |
|---|---|---|
catalog_name |
String | Název katalogu pro schéma a svazek. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
comment |
String | Komentář připojený ke svazku. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
grants |
Sequence | Granty přidružené ke svazku. Viz přidělení. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
lifecycle |
Map | Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení. Viz životní cyklus. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |
name |
String | Název svazku. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
schema_name |
String | Název schématu, ve kterém je svazek. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
storage_location |
String | Umístění úložiště v cloudu. Přidání do Rozhraní příkazového řádku Databricks verze 0.236.0 |
volume_type |
String | Typ svazku, buď EXTERNAL nebo MANAGED. Externí svazek se nachází v zadaném externím umístění. Spravovaný svazek se nachází ve výchozím umístění určeném nadřazeným schématem nebo nadřazeným katalogem nebo metastorem. Viz Spravované a externí svazky. |
Example
Následující příklad vytvoří svazek katalogu Unity s klíčem my_volume_id:
resources:
volumes:
my_volume_id:
catalog_name: main
name: my_volume
schema_name: my_schema
Příklad sady, která spouští úlohu, která zapisuje do souboru ve svazku katalogu Unity, najdete v bundle-examples GitHub repository.
Běžné objekty
udělení
Type: Map
Definuje objekt zabezpečení a oprávnění k udělení danému objektu zabezpečení. Další informace o grantech naleznete v tématu Zobrazit, udělit a odvolat oprávnění.
Přidání do rozhraní příkazového řádku Databricks verze 0.229.0 nebo novější
| Key | Typ | Description |
|---|---|---|
principal |
String | Název subjektu, kterému budou udělena oprávnění. Může to být uživatel, skupina nebo služební subjekt. |
privileges |
Sequence | Oprávnění k udělení zadané entitě. Platné hodnoty závisejí na typu prostředku (například SELECT, MODIFY, CREATE, USAGE, READ_FILES, WRITE_FILES, EXECUTE, ALL_PRIVILEGES). |
Example
Následující příklad definuje schéma katalogu Unity s granty:
resources:
schemas:
my_schema:
name: test-schema
grants:
- principal: users
privileges:
- SELECT
- principal: my_team
privileges:
- CAN_MANAGE
catalog_name: main
životní cyklus
Type: Map
Obsahuje nastavení životního cyklu prostředku. Řídí chování prostředku při jeho nasazení nebo zničení.
Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0
| Key | Typ | Description |
|---|---|---|
prevent_destroy |
logický | Nastavení životního cyklu, které brání zničení prostředku. Přidání do Rozhraní příkazového řádku Databricks verze 0.268.0 |