Поделиться через


Инженерия данных с использованием Databricks

Databricks предоставляет Lakeflow, комплексное сквозное решение для инжиниринга данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по обработке данных предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений. Lakeflow — это единое решение для приема, преобразования и оркестрации данных, включая Lakeflow Connect, декларативные конвейеры Lakeflow Spark и задачи Lakeflow.

Lakeflow Connect

Lakeflow Connect упрощает загрузку данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. См. Lakeflow Connect.

Функция Описание
Управляемые соединители Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API конвейера и инфраструктуры.
Стандартные соединители Стандартные соединители обеспечивают возможность доступа к данным из более широкого диапазона источников данных из конвейеров или других запросов.

Декларативные конвейеры Spark Lakeflow (SDP)

Декларативные конвейеры Spark Lakeflow или SDP — это декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. SDP Lakeflow расширяется и совместим с декларативными пайплайнами Apache Spark, работая на платформе Databricks Runtime, оптимизированной для производительности. SDP автоматически управляет выполнением потоков, приемников, потоковых таблиц и материализованных представлений путем инкапсулирования и запуска их в качестве конвейера. См. Lakeflow Spark декларативные конвейеры.

Функция Описание
Потоки Потоки обрабатывают данные в конвейерах. API потоков использует тот же DataFrame API, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики.
Потоковые таблицы Потоковая таблица — это таблица Delta с дополнительной поддержкой потоковой или добавочной обработки данных. Он выступает в качестве целевого объекта для одного или нескольких потоков в конвейерах.
материализованные представления Материализованное представление — это представление с кэшируемыми результатами для быстрого доступа. Материализованное представление выступает в качестве целевой точки для потоков данных.
приемники Конвейеры поддерживают внешние приемники данных в качестве целевых объектов. Эти приемники могут включать службы потоковой передачи событий, такие как Apache Kafka или Центры событий Azure, внешние таблицы, управляемые каталогом Unity, или пользовательские приемники, определенные в Python.

Задания Lakeflow

Задания Lakeflow обеспечивают надежную оркестрацию и мониторинг производственных процессов для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором. Смотрите Задания Lakeflow.

Функция Описание
Работы Задания — это основной ресурс для оркестрации. Они представляют собой процесс, который вы хотите выполнить на запланированной основе.
задачи Определенная единица работы в задании. Существует множество типов задач, которые дают вам диапазон вариантов, которые могут выполняться в задании.
Поток управления в заданиях Задачи потока управления позволяют управлять выполнением других задач или порядком выполнения задач.

Среда выполнения Databricks для Apache Spark

Среда выполнения Databricks — это надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес. См. Databricks Runtime для Apache Spark.

Функция Описание
Apache Spark в Databricks Spark находится в центре платформы аналитики данных Databricks.
Структурированная потоковая передача Система Structured Streaming — это механизм Spark для почти реального времени обработки потоковых данных.

Что случилось с Delta Live Tables (DLT)?

Если вы знакомы с разностными динамическими таблицами (DLT), ознакомьтесь с тем, что произошло с разностными динамическими таблицами (DLT)?.

Дополнительные ресурсы