Вы должны оценить проект бессерверного пула SQL , чтобы определить проблемы и проверить, соответствует ли он рекомендациям и требованиям. Оценив проект до начала разработки решений, можно избежать блокирующих факторов и неожиданных изменений проекта. Так вы сможете соблюсти сроки проекта и остаться в рамках бюджета.
Архитектурное разделение хранилища и вычислений для современных данных, аналитических платформ и служб было тенденцией и часто используемым шаблоном. Она обеспечивает экономию затрат и большую гибкость, обеспечивая независимое масштабирование хранилища и вычислений по требованию. Synapse SQL без сервера (serverless) расширяет этот шаблон, добавляя возможность напрямую запрашивать данные из озера данных. При использовании типов рабочих нагрузок самообслуживания не нужно беспокоиться об управлении вычислительными ресурсами.
Анализ несоответствий
При планировании реализации бессерверных пулов SQL в Azure Synapse сначала необходимо убедиться, что бессерверные пулы подходят для рабочих нагрузок. Следует учитывать эффективность работы, эффективность производительности, надежность и безопасность.
Эффективность работы
Для обеспечения эффективности операционных процессов оцените следующие моменты.
Среда разработки решений: В рамках этой методологии существует оценка среды разработки решений. Определите, как среды (разработка, тестирование и рабочая среда) предназначены для поддержки разработки решений. Как правило, вы найдете рабочие и непроизводственные среды (для разработки и тестирования). Следует найти рабочие области Synapse во всех средах. В большинстве случаев вам придется разделить пользователей и рабочие нагрузки на производственные и тестовые.
Проектирование рабочей области Synapse: В рамках этой методологии существует оценка проектирования рабочей области Synapse. Определите, как рабочие области были спроектированы для вашего решения. Узнайте, будет ли решение использовать одну рабочую область или несколько рабочих областей в составе решения. Узнайте, почему выбрана одна или несколько рабочих областей. Проект с несколькими рабочими областями часто выбирается для применения строгих границ безопасности.
Развёртывание: Sql Serverless доступен по запросу для каждой рабочей области Synapse, поэтому не требует каких-либо специальных действий развертывания. Проверьте региональную близость службы и учетной записи Azure Data Lake Storage второго поколения (ADLS Gen2), к которой она подключена.
Контроль: Проверьте, достаточно ли встроенного мониторинга и необходимо ли использовать внешние службы для хранения данных журнала. Данные журнала позволяют анализировать изменения производительности и позволяют определять оповещения или триггерные действия для конкретных обстоятельств.
Эффективность производительности
В отличие от традиционных движков СУБД, SQL Serverless не зависит от собственного оптимизированного уровня хранилища. По этой причине его производительность сильно зависит от того, как данные организованы в ADLS 2-го поколения. Для обеспечения оптимизации производительности оцените следующие моменты.
Прием данных: Ознакомьтесь с тем, как данные хранятся в озере данных. Размеры файлов, количество файлов и структура папок влияют на производительность. Помните, что в то время как некоторые размеры файлов могут работать без сервера SQL, они могут налагать проблемы для эффективной обработки или потребления другими обработчиками или приложениями. Вам потребуется оценить структуру хранилища данных и проверить ее для всех потребителей данных, включая SQL Serverless и любые другие средства обработки данных, которые являются частью решения.
Размещение данных: Оцените, унифицированы ли и определены общие шаблоны для размещения данных. Убедитесь, что структура каталогов может соответствовать требованиям к безопасности. Существует несколько распространенных шаблонов, которые помогут вам упорядочить данные временных рядов. Независимо от вашего выбора, убедитесь, что он также работает с другими подсистемами и рабочими нагрузками. Кроме того, проверьте, может ли она способствовать автоматическому обнаружению разделов для приложений Spark и внешних таблиц.
Форматы данных: В большинстве случаев SQL Serverless будет обеспечивать лучшую производительность и более высокую совместимость благодаря использованию формата Parquet. Проверьте требования к производительности и совместимости, так как в то время как Parquet повышает производительность, благодаря более эффективному сжатием и сокращению операций ввода-вывода (считывая только необходимые столбцы для анализа), требуется больше вычислительных ресурсов. Кроме того, поскольку некоторые исходные системы изначально не поддерживают Parquet в качестве формата экспорта, это может привести к дополнительным шагам преобразования в конвейерах и (или) зависимостях в общей архитектуре.
Исследование: Каждая отрасль отличается. Однако во многих случаях существуют распространенные шаблоны доступа к данным, найденные в наиболее часто выполняемых запросах. Шаблоны обычно включают фильтрацию и агрегирование по датам, категориям или географическим регионам. Определите наиболее распространенные критерии фильтрации и соотносите их с объемом данных, которые считываются или удаляются наиболее частыми запросами. Проверьте, организована ли информация в хранилище данных для удовлетворения ваших требований и ожиданий по изучению. Запросы, определенные в вашем проекте и оценке, проверьте, можно ли устранить ненужные секции в вашем параметре пути OPENROWSET или, если существуют внешние таблицы, создать больше индексов.
Надёжность
Для обеспечения надежности оцените следующие моменты.
Наличие: Проверьте все требования к доступности, которые были определены на этапе оценки. Хотя для SQL serverless нет конкретных соглашений об уровне обслуживания, время ожидания для выполнения запроса занимает 30 минут. Определите самые длительные запросы из оценки и проверьте их на основе бессерверной архитектуры SQL. 30-минутный тайм-аут может не оправдать ожидания в отношении вашей рабочей нагрузки и восприниматься как проблема службы.
Последовательность: SQL Serverless предназначен в основном для нагрузок, связанных с чтением. Таким образом, проверьте, выполнены ли все проверки согласованности во время процесса подготовки и формирования хранилища данных. Следите за новыми возможностями, такими как открытый слой хранения Delta Lake, который обеспечивает поддержку ACID (атомарность, согласованность, изоляция и устойчивость) для транзакций. Эта возможность позволяет реализовать эффективные лямбда-архитектуры или каппа для поддержки потоковой передачи и пакетного использования. Не забудьте оценить ваш дизайн на предмет применения новых возможностей, но не в ущерб срокам или стоимости проекта.
Резервная копия: Просмотрите все требования к аварийному восстановлению, которые были определены во время оценки. Проверьте их в соответствии с бессерверным проектированием SQL для восстановления. Сам SQL Serverless не имеет собственного уровня хранения и требует обработки моментальных снимков и резервных копий данных. Хранилище данных, доступ к которым осуществляется бессерверным SQL, является внешним (ADLS 2-го поколения). Просмотрите проект восстановления в проекте для этих наборов данных.
Безопасность
Организация ваших данных важна для создания гибких фундаментов безопасности. В большинстве случаев для различных процессов и пользователей требуются различные разрешения и доступ к определённым подразделам вашего озера данных или логического хранилища данных.
Для обеспечения безопасности оцените следующие моменты.
Хранилище данных: Используя сведения, собранные на этапе оценки, определите, должны ли стандартные области озера данных Raw, Stage и Curated размещаться в одной учетной записи хранения вместо независимых учетных записей хранения. Последний может привести к большей гибкости с точки зрения ролей и разрешений. Кроме того, он может добавить больше операций ввода-вывода в секунду (IOPS), которые могут потребоваться, если архитектура должна поддерживать тяжелые и одновременные рабочие нагрузки чтения и записи (например, сценарии реального времени или Интернета вещей). Проверьте, нужно ли разделять дополнительно, сохраняя изолированные и основные области данных в отдельных учетных записях хранения. Большинству пользователей не нужно обновлять или удалять данные, поэтому им не нужны разрешения на запись в озеро данных, за исключением изолированных и частных областей.
Из сведений о оценке определите, зависят ли все требования к функциям безопасности, таким как Always Encrypted, динамическое маскирование данных или безопасность на уровне строк. Проверьте доступность этих функций в определенных сценариях, например при использовании с функцией OPENROWSET. Предвидите возможные обходные пути, которые могут потребоваться.
Из сведений об оценке определите, какие методы проверки подлинности будут лучшими. Рассмотрим основные учетные записи службы Microsoft Entra, подписанный общий доступ (SAS), и когда и как можно использовать и интегрировать сквозную проверку подлинности в средство исследования, выбранное клиентом. Оцените дизайн и проверьте, что лучший метод аутентификации используется в рамках дизайна.
Другие вопросы
Просмотрите свой дизайн и проверьте, соблюдаете ли вы рекомендуемые лучшие практики и рекомендации. Обратите особое внимание на оптимизацию фильтра и параметры сортировки, чтобы убедиться, что откат предиката работает правильно.
Дальнейшие действия
В следующей статье в серии проектов Azure Synapse вы узнаете, как оценить проект пула Spark для выявления проблем и проверки соответствия рекомендациям и требованиям.
Администрирование инфраструктуры базы данных SQL Server для облачных, локальных и гибридных реляционных баз данных с помощью предложений реляционной базы данных Microsoft PaaS.