Question 1

Как я могу использовать роли RBAC для защиты своей рабочей области?

Accepted Answer

Azure Synapse предоставляет ряд ролей и областей для их назначения, что позволяет упростить защиту рабочей области.

Роли RBAC в Synapse:

Администратор Synapse
Администратор Synapse SQL
администратор Synapse Spark;
Участник Synapse
Издатель артефакта Synapse
Пользователь артефакта Synapse
Оператор вычислительной среды Synapse
Пользователь учетных данных Synapse
Диспетчер связанных данных Synapse
Пользователь Synapse

Чтобы защитить свою рабочую область Synapse, назначьте роли RBAC следующим областям RBAC:

Рабочие области
Пулы Spark
Среды выполнения интеграции
Связанные службы
Подтверждение компетенции

Кроме того, при использовании выделенных пулов SQL вы можете применять все известные и привычные функции безопасности.

Question 2

Как я могу управлять выделенными пулами SQL, бессерверными пулами SQL и бессерверными пулами Spark?

Accepted Answer

В качестве отправной точки Azure Synapse взаимодействует со встроенным механизмом анализа затрат и оповещений о затратах, который предоставляется на уровне подписки Azure.

Выделенные пулы SQL предоставляют точные данные о затратах и контроль над расходами, поскольку вы создаете выделенные пулы SQL с заданным размером. Кроме того, вы можете управлять доступом конкретных пользователей к созданию или масштабированию выделенных пулов SQL с помощью ролей RBAC в Azure.
Бессерверные пулы SQL предоставляют средства мониторинга и управления затратами, которые позволяют планировать ежедневные, еженедельные и ежемесячные расходы. Дополнительные сведения см. в статье Управление затратами для бессерверного пула SQL.
Бессерверные пулы Spark позволяют ограничить круг пользователей, которые могут создавать пулы Spark, с помощью ролей RBAC в Synapse.

Question 3

Будет ли рабочая область Synapse в общедоступной версии поддерживать упорядочение объектов по папкам и степень детализации?

Accepted Answer

Рабочие области Synapse поддерживают определяемые пользователем папки.

Question 4

Можно ли связать с одной рабочей областью Azure Synapse несколько рабочих областей Power BI?

Accepted Answer

Да, с 10 июня 2021 г. Synapse Studio позволяет добавить несколько рабочих областей Power BI в одну рабочую область Azure Synapse.

Question 5

Является ли возможность Azure Synapse Link для Azure Cosmos DB общедоступной?

Accepted Answer

Azure Synapse Analytics сейчас поддерживает Azure Synapse Link между Azure Cosmos DB и Synapse Apache Spark и бессерверным пулом SQL. Azure Synapse Link для Apache Spark находится в общедоступной версии. Synapse Link для бессерверного пула SQL находится в предварительной версии. Дополнительные сведения см. в статье Azure Synapse Link для Azure Cosmos DB.

Question 6

Общедоступен ли Azure Synapse Link для SQL?

Accepted Answer

Azure Synapse Link для SQL общедоступен как для SQL Server 2022, так и для База данных SQL Azure. Дополнительные сведения см. в разделе Что такое Azure Synapse Link для SQL?.

Question 7

Поддерживает ли рабочая область Azure Synapse конвейеры CI/CD?

Accepted Answer

Да! Все артефакты конвейера, записные книжки, скрипты SQL и определения заданий Spark будут размещаться в Git. Все определения пулов будут храниться в Git как шаблоны Azure Resource Manager (ARM). Управление объектами выделенных пулов SQL (схемы, таблицы, представления и т. д.) будет осуществляться через проекты баз данных с поддержкой CI/CD. Дополнительные сведения см. в руководстве по CI и CD.

Question 8

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Accepted Answer

Возможности и требования двух типов пулов отличаются. Различия включают объекты базы данных, возможности языка запросов, безопасность, средства, доступ к данным и формат данных. Подробные сведения о сравнении пулов SQL и бессерверных пулов см. в разделе «Сравнение пулов». Рекомендации по использованию любого типа пула см. в статье «Рекомендации по выделенному пулу SQL» и «Рекомендации по бессерверному пулу SQL».

Question 9

Что такое таблицы Delta и зачем их использовать?

Accepted Answer

Гибридное решение «хранилище и озеро данных» (Lakehouse) основано на открытых форматах данных прямого доступа, таких как Apache Parquet. Оно оснащено первоклассной поддержкой машинного обучения и обработки анализа данных. Таблица Delta — это представление данных, содержащихся в Delta Lake, которое поддерживает большинство вариантов, предоставляемых API чтения и записи кадра данных Apache Spark. Хранилища и озера данных Lakehouse могут в серьезных вопросах в отношении хранилищ данных, таких как устаревание данных, надежность, общая стоимость владения и блокировка данных. В таблицах Delta доступны такие оптимизации, как автоматическое сжатие и адаптивные планы запросов. Подробное руководство по Delta Lake см. в Руководстве по Delta Lake.

Question 10

Что такое автоматическое сжатие?

Accepted Answer

Автоматическое сжатие — одна из двух дополнительных функций автоматической автоматизации для таблиц Delta. После успешной записи в таблицу автоматическое сжатие может дополнительно сжать файлы для разделов с наибольшим количеством небольших файлов. Для вариантов использования потоковой передачи рекомендуется использовать функцию автоматического сжатия, при которой добавление минут задержки приемлемо, а также если в таблице нет регулярных вызовов OPTIMIZE. Дополнительные сведения об автоматической оптимизации и автоматическом сжатии см. в этом руководстве по автоматической оптимизации.

Question 11

Как мне узнать, какие учетные данные используются для выполнения конвейера?

Accepted Answer

Каждое действие в конвейере Synapse выполняется с учетными данными, которые указаны в связанной службе.

Question 12

Поддерживаются ли среды выполнения интеграции SSIS в Synapse Integrate?

Accepted Answer

В настоящее время нет.

Question 13

Как конвейеры Фабрики данных Azure отличаются от конвейеров Azure Synapse?

Accepted Answer

Ниже приведены примеры различий: поддержка глобальных параметров, мониторинг заданий Spark для Потока данных и совместное использование среды выполнения интеграции. Дополнительные сведения см. в этом документе по интеграции данных — Synapse и ADF.

Question 14

Как мне перенести существующие конвейеры из Фабрики данных Azure в рабочую область Azure Synapse?

Accepted Answer

В настоящее время вы должны вручную повторно создать конвейеры Фабрики данных Azure и связанные артефакты, экспортировав JSON из исходного конвейера и импортировав его в рабочую область Synapse.

Question 15

Использование разделов справки и определения задания Apache Spark

Accepted Answer

Ознакомьтесь с этим кратким руководством по началу работы.

Question 16

Можно ли вызывать записные книжки из конвейеров ADF?

Accepted Answer

Существует два варианта для этого примера использования. Одним из вариантов является сохранение конвейеров в ADF, тогда вам придется упаковать в веб-действие. Дополнительные сведения об этом параметре см. в этом руководстве по веб-действиям. Другой вариант — перенос конвейеров в Synapse. Дополнительные сведения о втором варианте см. в этом «Примере миграции кода».

Question 17

В чем разница между Apache Spark для Synapse и Apache Spark?

Accepted Answer

Apache Spark для Synapse — Это Apache Spark с добавленной поддержкой интеграции с другими службами (Идентификатор Microsoft Entra, AzureML и т. д.) и дополнительными библиотеками (mssparktuils, Hummingbird) и предварительно настроенными конфигурациями производительности.

Любая рабочая нагрузка, которая сейчас выполняется в Apache Spark, будет без изменений работать и в Apache Spark для Azure Synapse.

Question 18

Какие версии Spark доступны?

Accepted Answer

По состоянию на сентябрь 2023 года Azure Synapse Apache Spark полностью поддерживает Spark 3.3. Полный список основных компонентов и поддерживаемых в настоящее время версий Apache Spark см. в «Поддержка версий Apache Spark».

Question 19

Существует ли в Azure Synapse Spark эквивалент DButils?

Accepted Answer

Да, Azure Synapse Apache Spark предоставляет библиотеку mssparkutils. Полную документацию по ней см. в статье Введение в служебные программы Microsoft Spark.

Question 20

Как правильно задать параметры сеанса в Apache Spark?

Accepted Answer

Чтобы задать параметры сеанса, используйте магическую команду %%configure. Чтобы параметры вступили в силу, необходимо перезапустить сеанс.

Question 21

Как правильно задать параметры на уровне кластера в бессерверном пуле Spark?

Accepted Answer

Чтобы задать параметры на уровне кластера, предоставьте файл spark.conf для пула Spark. С этого момента в пуле будут применяться параметры, заданные в файле конфигурации.

Question 22

Можно ли запустить в Azure Synapse Analytics кластер Spark с несколькими пользователями?

Accepted Answer

Azure Synapse предоставляет специализированные механизмы для конкретных вариантов использования. Apache Spark для Synapse разработана как служба заданий, а не модель кластера. Существует два сценария, в которых пользователи хотят использовать модель кластера с несколькими пользователями.

Сценарий 1. Многие пользователи обращаются к кластеру для обслуживания данных в целях бизнес-аналитики.

Чтобы выполнить эту задачу, можно просто подготовить данные с помощью Spark и применить средства Synapse SQL для предоставления пользователям возможности подключить Power BI к полученным наборам данных.

Сценарий 2. Наличие нескольких разработчиков в одном кластере для экономии денег.

Чтобы реализовать такой сценарий, следует предоставить каждому разработчику отдельный бессерверный пул Spark с малым объемом ресурсов Spark. Бессерверные пулы Spark не нужно оплачивать, пока они не используются активно, что позволяет минимизировать затраты на нескольких разработчиков. Эти пулы могут иметь общие метаданные (таблицы Spark), что позволяет легко организовать взаимодействие между ними.

Question 23

Как правильно включать, устанавливать библиотеки и управлять ими?

Accepted Answer

Внешние пакеты можно установить с помощью файла requirements.txt при создании пула Spark, из рабочей области Synapse или на портале Azure. Подробные сведения см. в статье Управление библиотеками для Apache Spark в Azure Synapse Analytics.

Question 24

Какие инструменты доступны в Synapse Spark?

Accepted Answer

MSSparkUtils в Synapse Spark предлагает различные служебные программы для улучшения взаимодействия и упрощения интеграции с другими инструментами и службами. Работа с файловыми системами, получение переменных среды, объединение записных книжек и работа с секретами при минимальном количестве шагов вручную. Чтобы ознакомиться с полной документацией, посетитеСлужебные программы Microsoft Spark.

Question 25

В чем разница между выделенными пулами SQL (хранилище данных SQL) и выделенными пулами SQL в рабочих областях Azure Synapse?

Accepted Answer

Выделенные пулы SQL (ранее — хранилище данных SQL) — это платформа для хранения корпоративных данных Azure PaaS (платформа как услуга). Вы можете запрашивать существующие выделенные пулы SQL (ранее — хранилище данных SQL), а также создавать новые выделенные пулы SQL в рабочей области Azure Synapse. Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к изолированному выделенному пулу SQL (ранее SQL DW), и наоборот. Дополнительные сведения см. в статье Разница между выделенными пулами SQL Azure Synapse (ранее — хранилище данных SQL) и выделенными пулами SQL в рабочей области Azure Synapse Analytics. Дополнительные сведения см. в статье Включение рабочей области Azure Synapse для выделенного пула SQL (ранее — хранилище данных SQL).

Question 26

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Accepted Answer

Полный список таких различий см. в статье о различиях в функциях T-SQL в Synapse SQL.

Question 27

Теперь, после выхода общедоступной версии Azure Synapse, как я могу переместить в Azure Synapse выделенные пулы SQL, которые ранее были автономными?

Accepted Answer

"Перемещение" или "миграция" не имеют смысла. Вы можете просто включить новые возможности рабочей области для существующих пулов. Это действие не приводит к критическим изменениям, вам просто станут доступны все новые возможности, включая Synapse Studio, Spark и бессерверные пулы SQL. Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к выделенному пулу SQL (ранее — хранилище данных SQL), и наоборот. Сведения о том, как использовать функции рабочей области для существующего выделенного пула SQL (ранее — Хранилище данных SQL), см. здесь.

Question 28

Какое развертывание теперь применяется для выделенных пулов SQL по умолчанию?

Accepted Answer

По умолчанию все новые выделенные пулы SQL будут развертываться в рабочей области, но вы можете создать выделенный пул SQL (ранее Хранилище данных SQL) в режиме автономного развертывания.

Question 29

Как защитить доступ к рабочей области Azure Synapse?

Accepted Answer

С помощью (и без) управляемой виртуальной сети вы можете подключиться к рабочей области из общедоступных сетей. Дополнительные сведения см. на странице Настройки подключения. Доступ к общедоступным сетям можно контролировать, включив функцию доступа к общедоступной сети или брандмауэр рабочей области. Кроме того, вы можете подключиться к рабочей области с помощью управляемой частной конечной точки и Приватного канала. Рабочие области Synapse без управляемой виртуальной сети Azure Synapse Analytics не могут подключаться через управляемые частные конечные точки.

Поделиться через

Часто задаваемые вопросы по Azure Synapse Analytics

Общие

Как я могу использовать роли RBAC для защиты своей рабочей области?

Как я могу управлять выделенными пулами SQL, бессерверными пулами SQL и бессерверными пулами Spark?

Будет ли рабочая область Synapse в общедоступной версии поддерживать упорядочение объектов по папкам и степень детализации?

Можно ли связать с одной рабочей областью Azure Synapse несколько рабочих областей Power BI?

Является ли возможность Azure Synapse Link для Azure Cosmos DB общедоступной?

Общедоступен ли Azure Synapse Link для SQL?

Поддерживает ли рабочая область Azure Synapse конвейеры CI/CD?

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Что такое таблицы Delta и зачем их использовать?

Что такое автоматическое сжатие?

Pipelines

Как мне узнать, какие учетные данные используются для выполнения конвейера?

Поддерживаются ли среды выполнения интеграции SSIS в Synapse Integrate?

Как конвейеры Фабрики данных Azure отличаются от конвейеров Azure Synapse?

Как мне перенести существующие конвейеры из Фабрики данных Azure в рабочую область Azure Synapse?

Использование разделов справки и определения задания Apache Spark

Можно ли вызывать записные книжки из конвейеров ADF?

Apache Spark

В чем разница между Apache Spark для Synapse и Apache Spark?

Какие версии Spark доступны?

Существует ли в Azure Synapse Spark эквивалент DButils?

Как правильно задать параметры сеанса в Apache Spark?

Как правильно задать параметры на уровне кластера в бессерверном пуле Spark?

Можно ли запустить в Azure Synapse Analytics кластер Spark с несколькими пользователями?

Как правильно включать, устанавливать библиотеки и управлять ими?

Какие инструменты доступны в Synapse Spark?

Выделенные пулы SQL

В чем разница между выделенными пулами SQL (хранилище данных SQL) и выделенными пулами SQL в рабочих областях Azure Synapse?

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Теперь, после выхода общедоступной версии Azure Synapse, как я могу переместить в Azure Synapse выделенные пулы SQL, которые ранее были автономными?

Какое развертывание теперь применяется для выделенных пулов SQL по умолчанию?

Безопасность сети

Как защитить доступ к рабочей области Azure Synapse?

Следующие шаги

Обратная связь

Дополнительные ресурсы