Поделиться через


Справочник по использованию языка Python в декларативных конвейерах Lakeflow

В этом разделе содержатся сведения о интерфейсе программирования Python для декларативного конвейера Lakeflow.

dlt Общие сведения о модуле

Функции Python для декларативного конвейера Lakeflow определяются в модуле dlt . Конвейеры, реализованные с помощью API Python, должны импортировать этот модуль:

import dlt

Функции для определений наборов данных

Декларативные конвейеры Lakeflow используют декоратор Python для определения наборов данных, таких как материализованные представления и таблицы потоковой передачи. См. Функции для определения наборов данных.

Справочник по API

Рекомендации по декларативным конвейерам Python Lakeflow

При реализации конвейеров с помощью интерфейса Python для декларативных конвейеров Lakeflow следует учитывать следующие аспекты.

  • Декларативные конвейеры Lakeflow выполняют программный код, определяющий конвейер, несколько раз как в процессе планирования, так и во время выполнения конвейера. Функции Python, определяющие наборы данных, должны содержать только код, необходимый для определения таблицы или представления. Произвольная логика Python, включенная в определения набора данных, может привести к неожиданному поведению.
  • Не пытайтесь реализовать пользовательскую логику мониторинга в определениях набора данных. См. раздел "Определение пользовательского мониторинга декларативных конвейеров Lakeflow с помощью перехватчиков событий".
  • Функция, используемая для определения набора данных, должна возвращать кадр данных Spark. Не включайте логику в определения набора данных, которые не связаны с возвращаемым кадром данных.
  • Никогда не используйте методы, которые сохраняют или записываются в файлы или таблицы в составе кода набора данных Lakeflow Declarative Pipelines.

Примеры операций Apache Spark, которые никогда не должны использоваться в коде Декларативных конвейеров Lakeflow:

  • collect()
  • count()
  • toPandas()
  • save()
  • saveAsTable()
  • start()
  • toTable()