Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье объясняется, как добавить Lakehouse в качестве пункта назначения в поток событий Microsoft Fabric. Для оптимизации производительности потоковой передачи и запросов в режиме реального времени рассмотрите возможность потоковой передачи данных в Eventhouse с добавлением назначения Eventhouse в поток событий, а затем включите доступность Eventhouse OneLake.
Примечание.
Расширенные возможности включены по умолчанию при создании потоков событий. Если у вас есть потоки событий, созданные с помощью стандартных возможностей, эти потоки событий будут продолжать работать. Вы по-прежнему можете изменять и использовать их как обычно. Рекомендуется создать новый поток событий для замены стандартных потоков событий, чтобы воспользоваться дополнительными возможностями и преимуществами расширенных потоков событий.
Внимание
Существует принудительное применение схемы для записи данных в целевую таблицу Lakehouse. Все новые записи в таблицу должны быть совместимы с схемой целевой таблицы во время записи, обеспечивая качество данных.
При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Все записи выходных данных проецируются на схему существующей таблицы.
Если входящие данные содержат столбцы, не имеющиеся в существующей схеме таблицы, дополнительные столбцы не включаются в данные, записанные в таблицу. Аналогичным образом, если входящие данные отсутствуют в существующей схеме таблицы, отсутствующие столбцы записываются в таблицу со значениями null.
Если схема таблицы Delta и входящей записи не имеют пересечения, это приведет к сбою преобразования схемы. Однако это не единственный сценарий, который может вызвать такой сбой.
Если схема входящих данных изменяется (т. е. схема новой записи данных не соответствует первой записи), некоторые столбцы или все записи могут быть потеряны при записи в lakehouse. Таким образом, использование lakehouse для получения потоковых данных, например, данных CDC из базы данных, не рекомендуется.
Предварительные условия
- Доступ к рабочей области в режиме лицензии емкости Fabric или в режиме пробной лицензии с разрешениями уровня "Участник" или выше.
- Доступ к рабочей области, в которой находится озерный дом, с разрешениями участника или более высокого уровня.
Добавьте дом у озера в качестве пункта назначения
Чтобы добавить Lakehouse в поток событий по умолчанию или в производный поток событий, выполните следующие действия.
В режиме редактирования для потока событий выберите "Добавить назначение " на ленте и выберите Lakehouse из раскрывающегося списка.
Подключите узел Lakehouse к узлу потоковой передачи или оператору.
На экране конфигурации Lakehouse выполните следующие сведения:
- Введите имя назначения.
- Выберите рабочее пространство Workspace, содержащее озёрный дом.
- Выберите существующий Lakehouse из указанной рабочей области.
- Выберите существующую таблицу Delta или создайте новую для получения данных.
- Выберите формат входных данных, который отправляется в "lakehouse". Поддерживаемые форматы данных : JSON, Avro и CSV.
Выберите Дополнительно.
Два режима приема доступны для целевого назначения хранилища данных. В зависимости от вашего сценария настройте эти режимы, чтобы оптимизировать, как потоки событий Fabric записываются в лейкхаус.
Минимальные строки данных — это минимальное количество строк, которые озеро данных загружает в одном файле. Минимальное значение — 1 строка, а максимальное — 2 миллиона строк на файл. Чем меньше минимальное число строк, тем больше файлов lakehouse создает во время загрузки.
Максимальная длительность — это максимальное время, которое lakehouse тратит на прием одного файла. Минимальное значение составляет 1 минуту, а максимальное — 2 часа. Чем больше продолжительность, тем больше строк попадают в файл.
Выберите Сохранить.
Чтобы внедрить недавно добавленное назначение для lakehouse, выберите Опубликовать.
После выполнения этих шагов целевое хранилище Lakehouse доступно для визуализации в режиме Live View. На панели сведений можно выбрать ярлык "Оптимизация таблицы" в ноутбуке, чтобы запустить задание Apache Spark в ноутбуке, которое объединяет небольшие потоковые файлы в целевой таблице Lakehouse.
Примечание.
При настройке потока событий источник, логика преобразования и назначение обычно добавляются вместе. По умолчанию при публикации потока событий серверные службы для приема данных и маршрутизации данных начинаются с Теперь соответственно. Однако прием данных может начинаться быстрее, чем маршрутизация данных, что приводит к приему некоторых данных в eventstream до полной инициализации маршрутизации. В результате эти данные могут не направляться в место назначения.
Чтобы устранить эту проблему, выполните следующие действия.
При настройке назначения Eventhouse (обработка событий перед приемом) или назначения Lakehouse снимите флажок Активировать прием после добавления источника данных.
Активируйте прием вручную после публикации Eventstream.
Используйте параметр пользовательского времени, чтобы выбрать более раннюю метку времени, обеспечивая правильную обработку и маршрутизацию исходных данных.
Дополнительные сведения см. в статье Приостановка и возобновление потоков данных
Связанный контент
Сведения о добавлении других пунктов назначения в поток событий см. в следующих статьях:
Предварительные условия
Перед началом работы необходимо выполнить следующие предварительные требования:
- Доступ к рабочей области в режиме лицензии емкости Fabric или в режиме пробной лицензии с разрешениями уровня "Участник" или выше.
- Получите доступ к рабочей области с разрешениями уровня участника или выше, в которой расположен ваш лейкхаус.
Добавьте дом у озера в качестве пункта назначения
Если у вас в рабочей области создан лейкхаус, выполните следующие шаги, чтобы добавить его в поток событий в качестве цели назначения:
Выберите новое назначение на ленте или "+" на холсте основного редактора, а затем выберите Lakehouse. Открывается экран конфигурации назначения Lakehouse.
Введите имя назначения для потока событий и заполните информацию о вашем lakehouse.
Lakehouse: выберите существующий Lakehouse из указанной рабочей области.
Разностная таблица: выберите существующую разностную таблицу или создайте новую для получения данных.
Примечание.
При записи данных в таблицу Lakehouse применяется принудительное применение схемы. Это означает, что все новые записи в таблицу должны быть совместимы со схемой целевой таблицы во время записи, обеспечивая качество данных.
Все записи выходных данных проецируются на схему существующей таблицы. При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Если входящие данные имеют дополнительный столбец по сравнению с существующей схемой таблицы, она записывается в таблицу без включения дополнительного столбца. И наоборот, если входящие данные отсутствуют в столбце по сравнению с существующей схемой таблицы, она записывается в таблицу со значением столбца, равным NULL.
Формат входных данных: выберите формат входных данных, отправляемых в ваш Lakehouse.
Примечание.
Поддерживаемые форматы входных событий : JSON, Avro и CSV (с заголовком).
Обработка событий: Вы можете использовать редактор обработки событий, чтобы указать, как данные должны быть обработаны перед отправкой в хранилище данных. Выберите "Открыть обработчик событий" , чтобы открыть редактор обработки событий. Дополнительные сведения об обработке в режиме реального времени с помощью обработчика событий см. в разделе "Обработка данных о событиях с помощью редактора обработчика событий". Когда вы закончите работу с редактором, нажмите кнопку "Готово ", чтобы вернуться на экран конфигурации назначения Lakehouse .
Два режима приема доступны для целевого назначения хранилища данных. Выберите один из этих режимов, чтобы оптимизировать способ записи потоков событий Fabric в хранилище данных на основе вашего сценария.
Строки на файл — минимальное количество строк, которые озерохранилище получает в одном файле. Чем меньше минимальное количество строк, тем больше файлов создает Lakehouse во время загрузки данных. Минимальное значение — 1 строка. Максимальное значение — 2M строк на файл.
Длительность — максимальное время, которое Lakehouse потребуется для обработки одного файла. Чем больше продолжительность, тем больше строк загружается в файл. Минимальное значение составляет 1 минуту, а максимальное — 2 часа.
Нажмите «Добавить», чтобы добавить место назначения «Lakehouse».
Ярлык оптимизации таблицы доступен в месте назначения Lakehouse. Это решение облегчает вам выполнение задания Spark в блокноте, что объединяет эти небольшие потоковые файлы в целевой таблице Lakehouse.
Место назначения "домик у озера" появляется на холсте с вращающимся индикатором состояния. Система занимает несколько минут, чтобы изменить состояние на "Активный".
Управление назначением
Изменение и удаление: можно изменить или удалить назначение потока событий с помощью области навигации или холста.
При нажатии кнопки "Изменить" откроется область редактирования в правой части основного редактора. Вы можете изменить конфигурацию по желанию, включая логику преобразования событий с помощью редактора обработчика событий.
Связанный контент
Сведения о добавлении других пунктов назначения в поток событий см. в следующих статьях: