Инженерия данных с использованием Databricks

Databricks предоставляет Lakeflow, комплексное сквозное решение для инжиниринга данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по обработке данных предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений. Lakeflow — это единое решение для приема, преобразования и оркестрации данных, включая Lakeflow Connect, декларативные конвейеры Lakeflow Spark и задачи Lakeflow.

Lakeflow Connect

Lakeflow Connect упрощает загрузку данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. См. Lakeflow Connect.

Функция	Описание
Управляемые соединители	Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API конвейера и инфраструктуры.
Стандартные соединители	Стандартные соединители обеспечивают возможность доступа к данным из более широкого диапазона источников данных из конвейеров или других запросов.

Функция

Описание

Управляемые соединители

Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API конвейера и инфраструктуры.

Стандартные соединители

Стандартные соединители обеспечивают возможность доступа к данным из более широкого диапазона источников данных из конвейеров или других запросов.

Декларативные конвейеры Spark Lakeflow (SDP)

Декларативные конвейеры Spark Lakeflow или SDP — это декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. SDP Lakeflow расширяется и совместим с декларативными пайплайнами Apache Spark, работая на платформе Databricks Runtime, оптимизированной для производительности. SDP автоматически управляет выполнением потоков, приемников, потоковых таблиц и материализованных представлений путем инкапсулирования и запуска их в качестве конвейера. См. Lakeflow Spark декларативные конвейеры.

Функция	Описание
Потоки	Потоки обрабатывают данные в конвейерах. API потоков использует тот же DataFrame API, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики.
Потоковые таблицы	Потоковая таблица — это таблица Delta с дополнительной поддержкой потоковой или добавочной обработки данных. Он выступает в качестве целевого объекта для одного или нескольких потоков в конвейерах.
материализованные представления	Материализованное представление — это представление с кэшируемыми результатами для быстрого доступа. Материализованное представление выступает в качестве целевой точки для потоков данных.
приемники	Конвейеры поддерживают внешние приемники данных в качестве целевых объектов. Эти приемники могут включать службы потоковой передачи событий, такие как Apache Kafka или Центры событий Azure, внешние таблицы, управляемые каталогом Unity, или пользовательские приемники, определенные в Python.

Задания Lakeflow

Задания Lakeflow обеспечивают надежную оркестрацию и мониторинг производственных процессов для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором. Смотрите Задания Lakeflow.

Функция	Описание
Работы	Задания — это основной ресурс для оркестрации. Они представляют собой процесс, который вы хотите выполнить на запланированной основе.
задачи	Определенная единица работы в задании. Существует множество типов задач, которые дают вам диапазон вариантов, которые могут выполняться в задании.
Поток управления в заданиях	Задачи потока управления позволяют управлять выполнением других задач или порядком выполнения задач.

Среда выполнения Databricks для Apache Spark

Среда выполнения Databricks — это надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес. См. Databricks Runtime для Apache Spark.

Функция	Описание
Apache Spark в Databricks	Spark находится в центре платформы аналитики данных Databricks.
Структурированная потоковая передача	Система Structured Streaming — это механизм Spark для почти реального времени обработки потоковых данных.

Что случилось с Delta Live Tables (DLT)?

Если вы знакомы с разностными динамическими таблицами (DLT), ознакомьтесь с тем, что произошло с разностными динамическими таблицами (DLT)?.

Дополнительные ресурсы

Концепции проектирования данных описывают концепции проектирования данных в Azure Databricks.
Delta Lake — это оптимизированный уровень хранения, который предоставляет основу для таблиц в озерном доме в Azure Databricks.
Лучшие практики по инженерии данных обучают вас лучшим практикам работы с данными в Azure Databricks.
Записные книжки Databricks — это популярное средство для совместной работы и разработки.
Databricks SQL описывает использование запросов SQL и средств бизнес-аналитики в Azure Databricks.
Databricks Mosaic AI описывает архитектуру решений машинного обучения.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-23

Поделиться через

Инженерия данных с использованием Databricks

Lakeflow Connect

Декларативные конвейеры Spark Lakeflow (SDP)

Задания Lakeflow

Среда выполнения Databricks для Apache Spark

Что случилось с Delta Live Tables (DLT)?

Дополнительные ресурсы

Обратная связь

Дополнительные ресурсы