Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Databricks предоставляет Lakeflow, комплексное сквозное решение для инжиниринга данных, которое позволяет инженерам данных, разработчикам программного обеспечения, разработчикам SQL, аналитикам и специалистам по обработке данных предоставлять высококачественные данные для последующей аналитики, искусственного интеллекта и операционных приложений. Lakeflow — это единое решение для приема, преобразования и оркестрации данных, включая Lakeflow Connect, декларативные конвейеры Lakeflow Spark и задачи Lakeflow.
Lakeflow Connect
Lakeflow Connect упрощает загрузку данных с помощью коннекторов для популярных корпоративных приложений, баз данных, облачных хранилищ, систем передачи сообщений и локальных файлов. См. Lakeflow Connect.
| Функция | Описание |
|---|---|
| Управляемые соединители | Управляемые соединители предоставляют простой пользовательский интерфейс и службу приема на основе конфигурации с минимальными эксплуатационными затратами, не требуя использования базовых API конвейера и инфраструктуры. |
| Стандартные соединители | Стандартные соединители обеспечивают возможность доступа к данным из более широкого диапазона источников данных из конвейеров или других запросов. |
Декларативные конвейеры Spark Lakeflow (SDP)
Декларативные конвейеры Spark Lakeflow или SDP — это декларативная платформа, которая снижает сложность создания и управления эффективными конвейерами данных пакетной и потоковой передачи. SDP Lakeflow расширяется и совместим с декларативными пайплайнами Apache Spark, работая на платформе Databricks Runtime, оптимизированной для производительности. SDP автоматически управляет выполнением потоков, приемников, потоковых таблиц и материализованных представлений путем инкапсулирования и запуска их в качестве конвейера. См. Lakeflow Spark декларативные конвейеры.
| Функция | Описание |
|---|---|
| Потоки | Потоки обрабатывают данные в конвейерах. API потоков использует тот же DataFrame API, что и Apache Spark и Structured Streaming. Поток может записывать данные в потоковые таблицы и приемники, такие как топик Kafka, с помощью семантики потоковой передачи или записывать в материализованное представление с помощью пакетной семантики. |
| Потоковые таблицы | Потоковая таблица — это таблица Delta с дополнительной поддержкой потоковой или добавочной обработки данных. Он выступает в качестве целевого объекта для одного или нескольких потоков в конвейерах. |
| материализованные представления | Материализованное представление — это представление с кэшируемыми результатами для быстрого доступа. Материализованное представление выступает в качестве целевой точки для потоков данных. |
| приемники | Конвейеры поддерживают внешние приемники данных в качестве целевых объектов. Эти приемники могут включать службы потоковой передачи событий, такие как Apache Kafka или Центры событий Azure, внешние таблицы, управляемые каталогом Unity, или пользовательские приемники, определенные в Python. |
Задания Lakeflow
Задания Lakeflow обеспечивают надежную оркестрацию и мониторинг производственных процессов для любой нагрузки данных и ИИ. Задание может состоять из одной или нескольких задач, которые выполняют блокноты, конвейеры, управляемые соединители, запросы SQL, обучение, а также развертывание и вывод модели. Задания также поддерживают пользовательскую логику потока управления, например ветвление с операторами if /else, и циклирование с каждым оператором. Смотрите Задания Lakeflow.
| Функция | Описание |
|---|---|
| Работы | Задания — это основной ресурс для оркестрации. Они представляют собой процесс, который вы хотите выполнить на запланированной основе. |
| задачи | Определенная единица работы в задании. Существует множество типов задач, которые дают вам диапазон вариантов, которые могут выполняться в задании. |
| Поток управления в заданиях | Задачи потока управления позволяют управлять выполнением других задач или порядком выполнения задач. |
Среда выполнения Databricks для Apache Spark
Среда выполнения Databricks — это надежная и оптимизированная для производительности среда вычислений для выполнения рабочих нагрузок Spark, включая пакетную и потоковую передачу. Databricks Runtime предоставляет Photon, высокопроизводительный нативный движок векторных запросов для Databricks, и различные оптимизации инфраструктуры, такие как автомасштабирование. Рабочие нагрузки Spark и структурированной потоковой передачи можно запускать в Databricks Runtime среде, создавая программы Spark в виде записных книжек, JAR или Python-колес. См. Databricks Runtime для Apache Spark.
| Функция | Описание |
|---|---|
| Apache Spark в Databricks | Spark находится в центре платформы аналитики данных Databricks. |
| Структурированная потоковая передача | Система Structured Streaming — это механизм Spark для почти реального времени обработки потоковых данных. |
Что случилось с Delta Live Tables (DLT)?
Если вы знакомы с разностными динамическими таблицами (DLT), ознакомьтесь с тем, что произошло с разностными динамическими таблицами (DLT)?.
Дополнительные ресурсы
- Концепции проектирования данных описывают концепции проектирования данных в Azure Databricks.
- Delta Lake — это оптимизированный уровень хранения, который предоставляет основу для таблиц в озерном доме в Azure Databricks.
- Лучшие практики по инженерии данных обучают вас лучшим практикам работы с данными в Azure Databricks.
- Записные книжки Databricks — это популярное средство для совместной работы и разработки.
- Databricks SQL описывает использование запросов SQL и средств бизнес-аналитики в Azure Databricks.
- Databricks Mosaic AI описывает архитектуру решений машинного обучения.