Поделиться через


Новые и запланированные возможности Synapse Инжиниринг данных в Microsoft Fabric

Внимание

Планы выпуска описывают функциональные возможности, которые могут или не были выпущены. Временная шкала доставки и проецируемые функциональные возможности могут изменяться или не могут отправляться. Дополнительные сведения см. в политике Майкрософт.

Synapse Инжиниринг данных позволяет инженерам данных преобразовывать данные в масштабе с помощью Spark и создавать архитектуру lakehouse.

Lakehouse для всех ваших организационных данных: Lakehouse объединяет лучшее из озера данных и хранилища данных в одном интерфейсе. Он позволяет пользователям получать, подготавливать и предоставлять общий доступ к данным организации в открытом формате в озере. Позже вы можете получить доступ к нему с помощью нескольких подсистем, таких как Spark, T-SQL и Power BI. Он предоставляет различные варианты интеграции данных, такие как потоки данных и конвейеры, сочетания клавиш для внешних источников данных и возможности совместного использования продуктов данных.

Подсистема Spark и среда выполнения: инженерия данных Synapse предоставляет клиентам оптимизированную среду выполнения Spark с последними версиями Spark, Delta и Python.. В нем используется Delta Lake в качестве общего формата таблицы для всех обработчиков, что позволяет легко обмениваться данными и создавать отчеты без перемещения данных. Среда выполнения поставляется с оптимизацией Spark, повышая производительность запросов без каких-либо конфигураций. Он также предлагает начальные пулы и режим высокой параллелизма для ускорения и повторного использования сеансов Spark, что позволяет сэкономить время и затраты.

Администраторы Spark и конфигурации. Администраторы рабочих областей с соответствующими разрешениями могут создавать и настраивать настраиваемые пулы для оптимизации производительности и стоимости рабочих нагрузок Spark. Создатели могут настроить среды для установки библиотек, выбрать версию среды выполнения и задать свойства Spark для своих записных книжек и заданий Spark.

Опыт разработчиков. Разработчики могут использовать записные книжки, задания Spark или предпочитаемую интегрированную среду разработки для создания и выполнения кода Spark в Fabric. Они могут получать доступ к данным Lakehouse, совместно работать с другими пользователями, устанавливать библиотеки, отслеживать журналы, выполнять встроенный мониторинг и получать рекомендации от помощника Spark. Они также могут использовать Data Wrangler для легкой подготовки данных с помощью пользовательского интерфейса с низким кодом.

Интеграция платформы: все элементы проектирования данных Synapse, включая записные книжки, задания Spark, среды и озера, интегрируются глубоко в платформу Fabric (возможности управления корпоративными данными, происхождения, метки конфиденциальности и подтверждения).

Инвестиционные области

Функция Предполагаемая временная шкала выпуска
Высокая параллелизм в конвейерах Q3 2024
Функции пользовательских данных в Fabric Q3 2024
Расширение VSCode Core для Fabric Q3 2024
Вспомогательное расширение VSCode для функций пользовательских данных в Fabric Q3 2024
VS Code для Интернета — поддержка отладки Q3 2024
Возможность сортировки и фильтрации таблиц и папок в Lakehouse Q3 2024
Безопасность данных Lakehouse Q4 2024
Общедоступные API мониторинга Q4 2024
Поддержка схемы и рабочая область в пространстве имен в Lakehouse Отправлено (Q3 2024)
Соединитель Spark для хранилища данных Fabric Отправлено (Q2 2024)
Подсистема машинного выполнения Spark Отправлено (Q2 2024)
API Microsoft Fabric для GraphQL Отправлено (Q2 2024)
Создание и присоединение сред Отправлено (Q2 2024)
Очередь заданий для заданий записной книжки Отправлено (Q2 2024)
Оптимистическое прием заданий для Fabric Spark Отправлено (Q2 2024)
Автозапуск Spark Отправлено (Q1 2024)

Высокая параллелизм в конвейерах

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общая доступность

Помимо высокой параллелизма в записных книжках, мы также включите высокий параллелизм в конвейерах. Эта возможность позволяет запускать несколько записных книжек в конвейере с одним сеансом.

Функции пользовательских данных в Fabric

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общедоступная предварительная версия

Функции пользовательских данных предоставляют мощный механизм реализации и повторного использования пользовательской специализированной бизнес-логики в рабочих процессах обработки и анализа данных Fabric, повышения эффективности и гибкости.

Расширение VSCode Core для Fabric

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общедоступная предварительная версия

Расширение CORE VSCode для Fabric обеспечивает общую поддержку разработчиков для служб Fabric.

Вспомогательное расширение VSCode для функций пользовательских данных в Fabric

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общедоступная предварительная версия

Расширение VSCode Satellite для функций пользовательских данных обеспечит поддержку разработчика (редактирование, сборка, отладка, публикация) для функций пользовательских данных в Fabric.

VS Code для Интернета — поддержка отладки

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общедоступная предварительная версия

Visual Studio Code для Интернета в настоящее время поддерживается в предварительной версии для сценариев разработки и выполнения. Мы добавим в список возможностей возможность отладки кода с помощью этого расширения для записной книжки.

Возможность сортировки и фильтрации таблиц и папок в Lakehouse

Предполагаемая временная шкала выпуска: Q3 2024

Тип выпуска: общая доступность

Эта функция позволяет клиентам сортировать и фильтровать свои таблицы и папки в Lakehouse по нескольким различным методам, включая алфавитно, дату создания и многое другое.

Безопасность данных Lakehouse

Предполагаемая временная шкала выпуска: Q4 2024

Тип выпуска: общедоступная предварительная версия

Вы сможете применить безопасность файлов, папок и таблиц (или уровня объектов) в lakehouse. Вы также можете контролировать, кто может получить доступ к данным в lakehouse, а также уровень разрешений, которые у них есть. Например, можно предоставить разрешения на чтение файлов, папок и таблиц. После применения разрешений они автоматически синхронизируются во всех ядрах. Это означает, что разрешения согласованы между Spark, SQL, Power BI и внешними ядрами.

Общедоступные API мониторинга

Предполагаемая временная шкала выпуска: Q4 2024

Тип выпуска: общая доступность

Общедоступные API мониторинга позволяют программным способом получить состояние заданий Spark, сводок заданий и соответствующих журналов драйвера и исполнителя.

Отправленные функции

Поддержка схемы и рабочая область в пространстве имен в Lakehouse

Отправлено (Q3 2024)

Тип выпуска: общедоступная предварительная версия

Это позволит упорядочить таблицы с помощью схем и запросов данных в рабочих областях.

Соединитель Spark для хранилища данных Fabric

Отправлено (Q2 2024)

Тип выпуска: общедоступная предварительная версия

Соединитель Spark для DW Fabric (хранилище данных) позволяет разработчику Spark или специалисту по обработке и анализу данных получать доступ к данным из хранилища данных Fabric с упрощенным API Spark, который буквально работает с одной строкой кода. Он предлагает возможность запрашивать данные параллельно из хранилища данных Fabric, чтобы масштабироваться с увеличением объема данных и учитывать модель безопасности (OLS/RLS/CLS), определенную на уровне хранилища данных при доступе к таблице или представлению. Этот первый выпуск будет поддерживать чтение только данных, и поддержка записи данных обратно скоро будет поступать.

Подсистема машинного выполнения Spark

Отправлено (Q2 2024)

Тип выпуска: общедоступная предварительная версия

Собственный механизм выполнения — это улучшение выполнения заданий Apache Spark в Microsoft Fabric. Этот векторизованный механизм оптимизирует производительность и эффективность запросов Spark, выполняя их непосредственно в инфраструктуре Lakehouse. Простая интеграция подсистемы означает, что она не требует изменений кода и избегает блокировки поставщика. Он поддерживает API Apache Spark и совместим с средой выполнения 1.2 (Spark 3.4), а также работает с форматами Parquet и Delta. Независимо от расположения данных в OneLake или при доступе к данным с помощью сочетаний клавиш, собственный механизм выполнения обеспечивает максимальную эффективность и производительность.

API Microsoft Fabric для GraphQL

Отправлено (Q2 2024)

Тип выпуска: общедоступная предварительная версия

API для GraphQL позволит инженерам данных Fabric, ученым, архитекторам решений данных легко предоставлять и интегрировать данные Fabric, чтобы повысить скорость, производительность и широкие аналитические приложения, используя возможности и гибкость GraphQL.

Создание и присоединение сред

Отправлено (Q2 2024)

Тип выпуска: общая доступность

Чтобы настроить возможности Spark на более детальном уровне, можно создавать и присоединять среды к записным книжкам и заданиям Spark. В среде можно установить библиотеки, настроить новый пул, задать свойства Spark и отправить скрипты в файловую систему. Это обеспечивает большую гибкость и контроль над рабочими нагрузками Spark, не затрагивая параметры рабочей области по умолчанию. В рамках общедоступной версии мы делаем различные улучшения сред, включая поддержку API и интеграцию CI/CD.

Очередь заданий для заданий записной книжки

Отправлено (Q2 2024)

Тип выпуска: общая доступность

Эта функция позволяет запланированным записным книжкам Spark помещать в очередь, если использование Spark находится в максимальном количестве заданий, которые могут выполняться параллельно, а затем выполнять после удаления использования ниже максимального числа параллельных заданий, разрешенных.

Оптимистическое прием заданий для Fabric Spark

Отправлено (Q2 2024)

Тип выпуска: общая доступность

При приеме оптимистических заданий Fabric Spark резервирует минимальное количество ядер, которые нужно запустить задание, на основе минимального количества узлов, до которых задание может уменьшиться. Это позволяет принять больше заданий, если достаточно ресурсов для удовлетворения минимальных требований. Если задание должно увеличить масштаб позже, запросы на увеличение масштаба утверждены или отклонены на основе доступных ядер в емкости.

Автозапуск Spark

Отправлено (Q1 2024)

Тип выпуска: общедоступная предварительная версия

Autotune использует машинное обучение для автоматического анализа предыдущих запусков заданий Spark и настройки конфигураций для оптимизации производительности. Он настраивает секционирование, присоединение и чтение данных Spark. Таким образом, это значительно улучшит производительность. Мы видели, как задания клиентов выполняются быстрее с помощью этой возможности.