Odwołanie do właściwości tabel delta Live Tables

Artykuł
04/19/2024

Ten artykuł zawiera informacje dotyczące specyfikacji ustawień ustawień JSON tabel delta Live Tables i właściwości tabeli w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:

Konfiguracje potoków tabel na żywo usługi Delta

Pola
`id` Typ: `string` Unikatowy identyfikator globalny dla tego potoku. Identyfikator jest przypisywany przez system i nie można go zmienić.
`name` Typ: `string` Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika.
`storage` Typ: `string` Lokalizacja w systemie dbFS lub magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. `storage` Jeśli ustawienie nie zostanie określone, system będzie domyślnie ustawiać lokalizację w programie `dbfs:/pipelines/`. Nie `storage` można zmienić ustawienia po utworzeniu potoku.
`configuration` Typ: `object` Opcjonalna lista ustawień do dodania do konfiguracji platformy Spark klastra, który uruchomi potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe delta Live Tables i dostępne dla zapytań potoku za pośrednictwem konfiguracji platformy Spark. Elementy muszą być sformatowane jako `key:value` pary.
`libraries` Typ: `array of objects` Tablica notesów zawierająca kod potoku i wymagane artefakty.
`clusters` Typ: `array of objects` Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku.
`development` Typ: `boolean` Flaga wskazująca, czy należy uruchomić potok w programie `development` lub `production` tryb. Domyślna wartość to `true`
`notifications` Typ: `array of objects` Opcjonalna tablica specyfikacji dla powiadomień e-mail po zakończeniu aktualizacji potoku kończy się niepowodzeniem z błędem z możliwością ponawiania próby, niepowodzeniem z błędem niemożliwym do ponowienia próby lub niepowodzeniem przepływu.
`continuous` Typ: `boolean` Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Domyślna wartość to `false`.
`target` Typ: `string` Nazwa bazy danych do utrwalania danych wyjściowych potoku. Skonfigurowanie `target` ustawienia umożliwia wyświetlanie i wykonywanie zapytań dotyczących danych wyjściowych potoku z interfejsu użytkownika usługi Azure Databricks.
`channel` Typ: `string` Wersja środowiska uruchomieniowego delta Live Tables do użycia. Obsługiwane wartości to: * `preview` aby przetestować potok przy użyciu nadchodzących zmian w wersji środowiska uruchomieniowego. * `current` aby użyć bieżącej wersji środowiska uruchomieniowego. Pole `channel` jest opcjonalne. Wartość domyślna to `current`. Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych.
`edition` Wpisz `string` Wersja produktu Delta Live Tables w celu uruchomienia potoku. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku: * `CORE` do uruchamiania obciążeń pozyskiwania strumieniowego. * `PRO` w celu uruchamiania pozyskiwania i zmieniania obciążeń przechwytywania danych (CDC). * `ADVANCED` do uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC i obciążeń, które wymagają oczekiwań usługi Delta Live Tables w celu wymuszenia ograniczeń jakości danych. Pole `edition` jest opcjonalne. Wartość domyślna to `ADVANCED`.
`photon` Typ: `boolean` Flaga wskazująca, czy używać funkcji Co to jest photon? do uruchomienia potoku. Photon to aparat Spark o wysokiej wydajności usługi Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole `photon` jest opcjonalne. Domyślna wartość to `false`.
`pipelines.maxFlowRetryAttempts` Typ: `int` Maksymalna liczba prób ponawiania próby ponowienia próby przepływu przed niepowodzeniem aktualizacji potoku w przypadku wystąpienia błędu możliwego do ponowienia próby. Wartość domyślna to dwa. Domyślnie po ponowieniu próby wystąpi błąd, środowisko uruchomieniowe delta Live Tables próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę.
`pipelines.numUpdateRetryAttempts` Typ: `int` Maksymalna liczba prób ponawiania próby ponowienia próby aktualizacji przed niepowodzeniem aktualizacji w przypadku wystąpienia błędu możliwego do ponowienia próby. Ponawianie jest uruchamiane jako pełna aktualizacja. Wartość domyślna to pięć. Ten parametr ma zastosowanie tylko do wyzwalanych aktualizacji uruchamianych w trybie produkcyjnym. Nie ma ponawiania próby po uruchomieniu potoku w trybie programowania.

Właściwości tabeli Tabele na żywo usługi Delta

Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lake można ustawić następujące właściwości tabeli.

Właściwości tabeli
`pipelines.autoOptimize.managed` Domyślnie: `true` Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli.
`pipelines.autoOptimize.zOrderCols` Ustawienie domyślne: Brak Opcjonalny ciąg zawierający rozdzielaną przecinkami listę nazw kolumn według kolejności z tej tabeli. Na przykład `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Domyślnie: `true` Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli.

Właściwości tabeli CDC

uwaga: te właściwości do kontrolowania zachowania zarządzania grobowcami są przestarzałe i zastępowane przez ustawienia potoku. Wszystkie istniejące lub nowe potoki powinny używać nowych ustawień potoku. Zobacz Control tombstone management for SCD type 1 queries (Kontrola zarządzania grobowcami dla zapytań typu 1).

Następujące właściwości tabeli są dodawane w celu kontrolowania zachowania zarządzania grobowcami dla DELETE zdarzeń podczas korzystania z usługi CDC:

Właściwości tabeli
`pipelines.cdc.tombstoneGCThresholdInSeconds` Wartość domyślna: 5 minut Ustaw tę wartość tak, aby odpowiadała najwyższemu oczekiwanemu interwałowi między danymi poza kolejnością.
`pipelines.cdc.tombstoneGCFrequencyInSeconds` Ustawienie domyślne: 60 sekund Określa, jak często są sprawdzane pod kątem czyszczenia grobowce.

Zobacz Stosowanie zmian interfejsu API: upraszczanie przechwytywania danych zmian w tabelach delta live.

Interwał wyzwalacza potoków

Można określić interwał wyzwalacza potoku dla całego potoku delta Live Tables lub w ramach deklaracji zestawu danych. Zobacz Interwał wyzwalacza potoków.

`pipelines.trigger.interval`
Wartość domyślna jest oparta na typie przepływu: * Pięć sekund dla zapytań przesyłanych strumieniowo. * Jedna minuta dla pełnych zapytań, gdy wszystkie dane wejściowe pochodzą ze źródeł różnicowych. * Dziesięć minut dla pełnych zapytań, gdy niektóre źródła danych mogą nie być delty. Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu: * `second`, `seconds` * `minute`, `minutes` * `hour`, `hours` * `day`, `days` Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład: * `{"pipelines.trigger.interval" : "1 hour"}` * `{"pipelines.trigger.interval" : "10 seconds"}` * `{"pipelines.trigger.interval" : "30 second"}` * `{"pipelines.trigger.interval" : "1 minute"}` * `{"pipelines.trigger.interval" : "10 minutes"}` * `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

Wartość domyślna jest oparta na typie przepływu:

* Pięć sekund dla zapytań przesyłanych strumieniowo.
* Jedna minuta dla pełnych zapytań, gdy wszystkie dane wejściowe pochodzą ze źródeł różnicowych.
* Dziesięć minut dla pełnych zapytań, gdy niektóre źródła danych mogą nie być delty.

Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atrybuty klastra, które nie są konfigurowalne przez użytkownika

Ponieważ tabele delta Live Tables zarządzają cyklami życia klastra, wiele ustawień klastra jest ustawianych przez tabele na żywo delty i nie można ich ręcznie skonfigurować w konfiguracji potoku lub w zasadach klastra używanych przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.

Pola
`cluster_name` Funkcja Delta Live Tables ustawia nazwy klastrów używanych do uruchamiania aktualizacji potoku. Tych nazw nie można zastąpić.
`data_security_mode` `access_mode` Te wartości są automatycznie ustawiane przez system.
`spark_version` Klastry Delta Live Tables działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić.
`autotermination_minutes` Ponieważ delta Live Tables zarządza automatycznym kończeniem klastra i logiką ponownego użycia, nie można zastąpić czasu automatycznego zakończenia klastra.
`runtime_engine` Chociaż to pole można kontrolować, włączając aplikację Photon dla potoku, nie można ustawić tej wartości bezpośrednio.
`effective_spark_version` Ta wartość jest automatycznie ustawiana przez system.
`cluster_source` To pole jest ustawiane przez system i jest tylko do odczytu.
`docker_image` Ponieważ delta Live Tables zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków.
`workload_type` Ta wartość jest ustawiana przez system i nie można jej zastąpić.