Часто задаваемые вопросы по Azure Synapse Analytics

В этом руководстве вы найдете часто задаваемые вопросы по Azure Synapse Analytics.

Общие

Как я могу использовать роли RBAC для защиты своей рабочей области?

Azure Synapse предоставляет ряд ролей и областей для их назначения, что позволяет упростить защиту рабочей области.

Роли RBAC в Synapse:

  • Администратор Synapse
  • Администратор Synapse SQL
  • администратор Synapse Spark;
  • Участник Synapse
  • Издатель артефакта Synapse
  • Пользователь артефакта Synapse
  • Оператор вычислительной среды Synapse
  • Пользователь учетных данных Synapse
  • Диспетчер связанных данных Synapse
  • Пользователь Synapse

Чтобы защитить свою рабочую область Synapse, назначьте роли RBAC следующим областям RBAC:

  • Рабочие области
  • Пулы Spark
  • Среды выполнения интеграции
  • Связанные службы
  • Учетные данные

Кроме того, при использовании выделенных пулов SQL вы можете применять все известные и привычные функции безопасности.

Как я могу управлять выделенными пулами SQL, бессерверными пулами SQL и бессерверными пулами Spark?

В качестве отправной точки Azure Synapse взаимодействует со встроенным механизмом анализа затрат и оповещений о затратах, который предоставляется на уровне подписки Azure.

  • Выделенные пулы SQL предоставляют точные данные о затратах и контроль над расходами, поскольку вы создаете выделенные пулы SQL с заданным размером. Кроме того, вы можете управлять доступом конкретных пользователей к созданию или масштабированию выделенных пулов SQL с помощью ролей RBAC в Azure.

  • Бессерверные пулы SQL предоставляют средства мониторинга и управления затратами, которые позволяют планировать ежедневные, еженедельные и ежемесячные расходы. Дополнительные сведения см. в статье Управление затратами для бессерверного пула SQL.

  • Бессерверные пулы Spark позволяют ограничить круг пользователей, которые могут создавать пулы Spark, с помощью ролей RBAC в Synapse.

Будет ли рабочая область Synapse в общедоступной версии поддерживать упорядочение объектов по папкам и степень детализации?

Рабочие области Synapse поддерживают определяемые пользователем папки.

Можно ли связать с одной рабочей областью Azure Synapse несколько рабочих областей Power BI?

Да, с 10 июня 2021 г. Synapse Studio позволяет добавить несколько рабочих областей Power BI в одну рабочую область Azure Synapse.

Azure Synapse Analytics сейчас поддерживает Azure Synapse Link между Azure Cosmos DB и Synapse Apache Spark и бессерверным пулом SQL. Azure Synapse Link для Apache Spark находится в общедоступной версии. Synapse Link для бессерверного пула SQL находится в предварительной версии. Дополнительные сведения см. в статье Azure Synapse Link для Azure Cosmos DB.

Azure Synapse Link для SQL общедоступен как для SQL Server 2022, так и для База данных SQL Azure. Дополнительные сведения см. в разделе Что такое Azure Synapse Link для SQL?.

Поддерживает ли рабочая область Azure Synapse конвейеры CI/CD?

Да! Все артефакты конвейера, записные книжки, скрипты SQL и определения заданий Spark будут размещаться в Git. Все определения пулов будут храниться в Git как шаблоны Azure Resource Manager (ARM). Управление объектами выделенных пулов SQL (схемы, таблицы, представления и т. д.) будет осуществляться через проекты баз данных с поддержкой CI/CD. Дополнительные сведения см. в руководстве по CI и CD.

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Возможности и требования двух типов пулов отличаются. Различия включают объекты базы данных, возможности языка запросов, безопасность, средства, доступ к данным и формат данных. Подробные сведения о сравнении пулов SQL и бессерверных пулов см. в разделе «Сравнение пулов». Рекомендации по использованию любого типа пула см. в статье «Рекомендации по выделенному пулу SQL» и «Рекомендации по бессерверному пулу SQL».

Что такое таблицы Delta и зачем их использовать?

Гибридное решение «хранилище и озеро данных» (Lakehouse) основано на открытых форматах данных прямого доступа, таких как Apache Parquet. Оно оснащено первоклассной поддержкой машинного обучения и обработки анализа данных. Таблица Delta — это представление данных, содержащихся в Delta Lake, которое поддерживает большинство вариантов, предоставляемых API чтения и записи кадра данных Apache Spark. Хранилища и озера данных Lakehouse могут в серьезных вопросах в отношении хранилищ данных, таких как устаревание данных, надежность, общая стоимость владения и блокировка данных. В таблицах Delta доступны такие оптимизации, как автоматическое сжатие и адаптивные планы запросов. Подробное руководство по Delta Lake см. в Руководстве по Delta Lake.

Что такое автоматическое сжатие?

Автоматическое сжатие — одна из двух дополнительных функций автоматической автоматизации для таблиц Delta. После успешной записи в таблицу автоматическое сжатие может дополнительно сжать файлы для разделов с наибольшим количеством небольших файлов. Для вариантов использования потоковой передачи рекомендуется использовать функцию автоматического сжатия, при которой добавление минут задержки приемлемо, а также если в таблице нет регулярных вызовов OPTIMIZE. Дополнительные сведения об автоматической оптимизации и автоматическом сжатии см. в этом руководстве по автоматической оптимизации.

Конвейеры

Как мне узнать, какие учетные данные используются для выполнения конвейера?

Каждое действие в конвейере Synapse выполняется с учетными данными, которые указаны в связанной службе.

Поддерживаются ли среды выполнения интеграции SSIS в Synapse Integrate?

В настоящее время нет.

Как конвейеры Фабрики данных Azure отличаются от конвейеров Azure Synapse?

Ниже приведены примеры различий: поддержка глобальных параметров, мониторинг заданий Spark для Потока данных и совместное использование среды выполнения интеграции. Дополнительные сведения см. в этом документе по интеграции данных — Synapse и ADF.

Как мне перенести существующие конвейеры из Фабрики данных Azure в рабочую область Azure Synapse?

В настоящее время вы должны вручную повторно создать конвейеры Фабрики данных Azure и связанные артефакты, экспортировав JSON из исходного конвейера и импортировав его в рабочую область Synapse.

Использование разделов справки и определения задания Apache Spark

Можно ли вызывать записные книжки из конвейеров ADF?

Существует два варианта для этого примера использования. Одним из вариантов является сохранение конвейеров в ADF, тогда вам придется упаковать в веб-действие. Дополнительные сведения об этом параметре см. в этом руководстве по веб-действиям. Другой вариант — перенос конвейеров в Synapse. Дополнительные сведения о втором варианте см. в этом «Примере миграции кода».

Apache Spark

В чем разница между Apache Spark для Synapse и Apache Spark?

Apache Spark для Synapse — Это Apache Spark с добавленной поддержкой интеграции с другими службами (Идентификатор Microsoft Entra, AzureML и т. д.) и дополнительными библиотеками (mssparktuils, Hummingbird) и предварительно настроенными конфигурациями производительности.

Любая рабочая нагрузка, которая сейчас выполняется в Apache Spark, будет без изменений работать и в Apache Spark для Azure Synapse.

Какие версии Spark доступны?

По состоянию на сентябрь 2023 года Azure Synapse Apache Spark полностью поддерживает Spark 3.3. Полный список основных компонентов и поддерживаемых в настоящее время версий Apache Spark см. в «Поддержка версий Apache Spark».

Существует ли в Azure Synapse Spark эквивалент DButils?

Да, Azure Synapse Apache Spark предоставляет библиотеку mssparkutils. Полную документацию по ней см. в статье Введение в служебные программы Microsoft Spark.

Как правильно задать параметры сеанса в Apache Spark?

Чтобы задать параметры сеанса, используйте магическую команду %%configure. Чтобы параметры вступили в силу, необходимо перезапустить сеанс.

Как правильно задать параметры на уровне кластера в бессерверном пуле Spark?

Чтобы задать параметры на уровне кластера, предоставьте файл spark.conf для пула Spark. С этого момента в пуле будут применяться параметры, заданные в файле конфигурации.

Можно ли запустить в Azure Synapse Analytics кластер Spark с несколькими пользователями?

Azure Synapse предоставляет специализированные механизмы для конкретных вариантов использования. Apache Spark для Synapse разработана как служба заданий, а не модель кластера. Существует два сценария, в которых пользователи хотят использовать модель кластера с несколькими пользователями.

Сценарий 1. Многие пользователи обращаются к кластеру для обслуживания данных в целях бизнес-аналитики.

Чтобы выполнить эту задачу, можно просто подготовить данные с помощью Spark и применить средства Synapse SQL для предоставления пользователям возможности подключить Power BI к полученным наборам данных.

Сценарий 2. Наличие нескольких разработчиков в одном кластере для экономии денег.

Чтобы реализовать такой сценарий, следует предоставить каждому разработчику отдельный бессерверный пул Spark с малым объемом ресурсов Spark. Бессерверные пулы Spark не нужно оплачивать, пока они не используются активно, что позволяет минимизировать затраты на нескольких разработчиков. Эти пулы могут иметь общие метаданные (таблицы Spark), что позволяет легко организовать взаимодействие между ними.

Как правильно включать, устанавливать библиотеки и управлять ими?

Внешние пакеты можно установить с помощью файла requirements.txt при создании пула Spark, из рабочей области Synapse или на портале Azure. Подробные сведения см. в статье Управление библиотеками для Apache Spark в Azure Synapse Analytics.

Какие инструменты доступны в Synapse Spark?

MSSparkUtils в Synapse Spark предлагает различные служебные программы для улучшения взаимодействия и упрощения интеграции с другими инструментами и службами. Работа с файловыми системами, получение переменных среды, объединение записных книжек и работа с секретами при минимальном количестве шагов вручную. Чтобы ознакомиться с полной документацией, посетитеСлужебные программы Microsoft Spark.

Выделенные пулы SQL

В чем разница между выделенными пулами SQL (хранилище данных SQL) и выделенными пулами SQL в рабочих областях Azure Synapse?

Выделенные пулы SQL (ранее — хранилище данных SQL) — это платформа для хранения корпоративных данных Azure PaaS (платформа как услуга). Вы можете запрашивать существующие выделенные пулы SQL (ранее — хранилище данных SQL), а также создавать новые выделенные пулы SQL в рабочей области Azure Synapse. Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к изолированному выделенному пулу SQL (ранее SQL DW), и наоборот. Дополнительные сведения см. в статье Разница между выделенными пулами SQL Azure Synapse (ранее — хранилище данных SQL) и выделенными пулами SQL в рабочей области Azure Synapse Analytics. Дополнительные сведения см. в статье Включение рабочей области Azure Synapse для выделенного пула SQL (ранее — хранилище данных SQL).

Каковы функциональные различия между выделенными пулами и бессерверными пулами SQL?

Полный список таких различий см. в статье о различиях в функциях T-SQL в Synapse SQL.

Теперь, после выхода общедоступной версии Azure Synapse, как я могу переместить в Azure Synapse выделенные пулы SQL, которые ранее были автономными?

"Перемещение" или "миграция" не имеют смысла. Вы можете просто включить новые возможности рабочей области для существующих пулов. Это действие не приводит к критическим изменениям, вам просто станут доступны все новые возможности, включая Synapse Studio, Spark и бессерверные пулы SQL. Не все функции выделенного пула SQL в рабочих областях Azure Synapse применяются к выделенному пулу SQL (ранее — хранилище данных SQL), и наоборот. Сведения о том, как использовать функции рабочей области для существующего выделенного пула SQL (ранее — Хранилище данных SQL), см. здесь.

Какое развертывание теперь применяется для выделенных пулов SQL по умолчанию?

По умолчанию все новые выделенные пулы SQL будут развертываться в рабочей области, но вы можете создать выделенный пул SQL (ранее Хранилище данных SQL) в режиме автономного развертывания.

Сетевая безопасность

Как защитить доступ к рабочей области Azure Synapse?

С помощью (и без) управляемой виртуальной сети вы можете подключиться к рабочей области из общедоступных сетей. Дополнительные сведения см. на странице Настройки подключения. Доступ к общедоступным сетям можно контролировать, включив функцию доступа к общедоступной сети или брандмауэр рабочей области. Кроме того, вы можете подключиться к рабочей области с помощью управляемой частной конечной точки и Приватного канала. Рабочие области Synapse без управляемой виртуальной сети Azure Synapse Analytics не могут подключаться через управляемые частные конечные точки.