Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этом разделе содержатся сведения о интерфейсе программирования Python для декларативного конвейера Lakeflow.
- Общие сведения об использовании Python для декларативных конвейеров Lakeflow см. в статье "Разработка кода конвейера с помощью Python".
- Справочную информацию по SQL см. в справочнике по языку SQL для декларативных конвейеров Lakeflow.
- Дополнительные сведения о настройке автозагрузчика см. в разделе "Что такое автозагрузчик?".
dlt
Общие сведения о модуле
Функции Python для декларативного конвейера Lakeflow определяются в модуле dlt
. Конвейеры, реализованные с помощью API Python, должны импортировать этот модуль:
import dlt
Функции для определений наборов данных
Декларативные конвейеры Lakeflow используют декоратор Python для определения наборов данных, таких как материализованные представления и таблицы потоковой передачи. См. Функции для определения наборов данных.
Справочник по API
- append_flow
- create_auto_cdc_flow
- create_auto_cdc_from_snapshot_flow
- создать_приемник
- create_streaming_table
- Ожидания
- таблицы
- вид
Рекомендации по декларативным конвейерам Python Lakeflow
При реализации конвейеров с помощью интерфейса Python для декларативных конвейеров Lakeflow следует учитывать следующие аспекты.
- Декларативные конвейеры Lakeflow выполняют программный код, определяющий конвейер, несколько раз как в процессе планирования, так и во время выполнения конвейера. Функции Python, определяющие наборы данных, должны содержать только код, необходимый для определения таблицы или представления. Произвольная логика Python, включенная в определения набора данных, может привести к неожиданному поведению.
- Не пытайтесь реализовать пользовательскую логику мониторинга в определениях набора данных. См. раздел "Определение пользовательского мониторинга декларативных конвейеров Lakeflow с помощью перехватчиков событий".
- Функция, используемая для определения набора данных, должна возвращать кадр данных Spark. Не включайте логику в определения набора данных, которые не связаны с возвращаемым кадром данных.
- Никогда не используйте методы, которые сохраняют или записываются в файлы или таблицы в составе кода набора данных Lakeflow Declarative Pipelines.
Примеры операций Apache Spark, которые никогда не должны использоваться в коде Декларативных конвейеров Lakeflow:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()