Современное хранилище данных для малых и средних предприятий

Azure Data Lake
База данных SQL Azure
Azure Synapse Analytics
Dynamics 365
Microsoft Power Platform

В этом примере рабочей нагрузки показано несколько МБ способов модернизации устаревших хранилищ данных и изучения возможностей и средств больших данных, без чрезмерного расширения текущих бюджетов и наборов навыков. Эти комплексные решения для хранения данных Azure легко интегрируются с такими инструментами, как Машинное обучение Azure, Microsoft Power Platform, Microsoft Dynamics и другие технологии Майкрософт.

Архитектура

Diagram that shows how SMBs can modernize legacy data stores.

Скачайте файл Visio для этой архитектуры.

Устаревшие хранилища данных SMB могут содержать несколько типов данных:

  • Неструктурированные данные, такие как документы и рисунки
  • Частично структурированные данные, такие как журналы, CSV, JSON и XML-файлы
  • Структурированные реляционные данные, включая базы данных, использующие хранимые процедуры для ETL/ELT (извлечение, преобразование и загрузка/извлечение, загрузка и преобразование).

Поток данных

Следующий поток данных демонстрирует прием выбранного типа данных:

  1. Конвейеры Azure Synapse Analytics принимают устаревшие хранилища данных в Azure.

    • Эти конвейеры организуют поток перенесенных или частично преобразованных устаревших баз данных и пакетов SSIS в Базе данных Azure SQL. Этот подход Lift-and-Shift является самым быстрым в реализации и обеспечивает плавный переход от локального решения SQL к возможной платформе PaaS. Вы можете модернизировать базы данных постепенно после выполнения подхода Lift-and-Shift.

    • Конвейеры также могут передавать неструктурированные, частично структурированные и структурированные данные в Azure Data Lake Storage для централизованного хранения и анализа вместе с другими источниками. Используйте этот подход, когда объединение данных дает больше преимуществ для бизнеса, чем простой перенос данных на другую платформу.

  2. Источники данных Microsoft Dynamics можно использовать для создания централизованных панелей мониторинга бизнес-аналитики в дополненных наборах с помощью средств бессерверного анализа Synapse. Слитые и обработанные данные можно вернуть в Dynamics и Power BI для дальнейшего анализа.

  3. Данные в режиме реального времени из источников потоковой передачи также могут входить в систему через Центры событий Azure. Для клиентов с требованиями к панели мониторинга в режиме реального времени Azure Stream Analytics может немедленно проанализировать эти данные.

  4. Данные также могут поступать в централизованное озеро данных для дальнейшего анализа, хранения и отчетности.

  5. В рабочей области Azure Synapse Analytics доступны бессерверные средства анализа. Эти средства используют бессерверный пул SQL или вычислительные возможности Apache Spark для обработки данных в Data Lake Storage 2-го поколения. Бессерверные пулы доступны по запросу и не требуют подготовленных ресурсов.

    Бессерверные пулы идеально подходят для:

    • автоматизированного исследования данных в формате T-SQL;
    • раннего создания прототипов для сущностей хранилища данных;
    • определения представлений, которые могут использоваться объектами-получателями, например в Power BI, для сценариев, допускающих временное падение производительности;

Azure Synapse тесно интегрирован с потенциальными потребителями ваших слитых наборов данных, например Машинное обучение Azure. Другие потребители могут включать Power Apps, Azure Logic Apps, приложения службы Функции Azure и веб-приложения Службы приложений Azure.

Компоненты

  • Azure Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративное хранилище данных и аналитику больших данных. В этом решении:

    • Рабочая область Azure Synapse обеспечивает совместную работу инженеров данных, специалистов по обработке и анализу данных, аналитиков данных и специалистов по бизнес-аналитике (BI).
    • Конвейеры Azure Synapse оркестрации и приема данных в База данных SQL и Data Lake Storage 2-го поколения.
    • Бессерверные пулы SQL Azure Synapse анализируют неструктурированные и полуструктурированные данные в Data Lake Storage 2-го поколения по запросу.
    • Бессерверные пулы Apache Spark Azure Synapse выполняют поиск кода в Data Lake Storage 2-го поколения с такими языками Spark, как Spark SQL, pySpark и Scala.
  • База данных SQL Azure — это интеллектуальная, масштабируемая служба реляционной базы данных, созданная для облака. В этом решении база данных SQL содержит хранилище данных компании и выполняет действия ETL/ELT с помощью хранимых процедур.

  • Центры событий Azure — это платформа потоковой передачи данных в режиме реального времени и служба приема событий. Центры событий могут получать данные из любого места и легко интегрируются со службами данных Azure.

  • Azure Stream Analytics — это бессерверная служба аналитики в режиме реального времени для потоковой передачи данных. Stream Analytics обеспечивает быструю, эластичную масштабируемость, надежность и восстановление корпоративного уровня, а также встроенные возможности машинного обучения.

  • Машинное обучение Azure — это набор средств для разработки модели обработки и анализ данных и управления жизненным циклом. Машинное обучение является одним из примеров Azure и службы Майкрософт, которые могут использовать скученные обработанные данные из Data Lake Storage 2-го поколения.

Альтернативные варианты

  • Центр Интернета вещей Azure может заменить или дополнить Центры событий. Выбор решения зависит от источника потоковых данных и от того, требуется ли клонирование и двунаправленное взаимодействие с устройствами составления отчетов.

  • Фабрику данных Azure можно использовать для интеграции данных вместо конвейеров Azure Synapse. Выбор зависит от нескольких факторов:

    • Конвейеры Azure Synapse упрощают разработку решений и обеспечивают совместную работу в одной рабочей области Azure Synapse.
    • Конвейеры Azure Synapse не поддерживают повторное размещение пакетов SSIS, которое доступно в Фабрике данных Azure.
    • Центр мониторинга Synapse отслеживает конвейеры Azure Synapse, а Azure Monitor может отслеживать Фабрику данных Azure.

    Дополнительные сведения и сравнение функций между конвейерами Azure Synapse и Data Factory см. в разделе Интеграция данных между Azure Synapse Analytics и Azure Data Factory.

  • Вы можете использовать выделенные SQL-пулы Synapse Analytics вместо базы данных SQL для хранения данных предприятия. Ознакомьтесь с вариантами использования и рекомендациями, приведенными в этой статье, а также со связанными ресурсами, чтобы принять решение.

Подробности сценария

Малые и средние предприятия (SMB) встают перед выбором при модернизации своих локальных хранилищ данных для работы в облаке. Они могут внедрять средства обработки больших данных для будущего расширения или использовать традиционные решения на основе SQL, чтобы обеспечить экономическую эффективность, простоту обслуживания и плавный переход.

Однако гибридный подход сочетает в себе простоту переноса существующего набора данных с возможностью добавления средств и процессов обработки больших данных для некоторых вариантов использования. Источники данных на основе SQL могут продолжать работать в облаке и модернизироваться по мере необходимости.

Этот пример рабочей нагрузки показывает несколько способов, с помощью которых малые и средние предприятия могут модернизировать старые хранилища данных и изучить средства и возможности обработки больших данных, не перегружая текущие бюджеты и навыки. Эти комплексные решения для хранения данных Azure легко интегрируются со службами Azure и Майкрософт и такими средствами, как Машинное обучение Microsoft Azure, Microsoft Power Platform и Microsoft Dynamics.

Потенциальные варианты использования

Эта рабочая нагрузка может быть полезна в нескольких указанных ниже сценариях.

  • Миграция традиционных локальных реляционных хранилищ данных, размер которых не превышает 1 ТБ и который активно использует пакеты SQL Server Integration Services (SSIS) для оркестрации хранимых процедур.

  • Сопряжение существующих данных Dataverse Dynamics или Power Platform с пакетными источниками Azure Data Lake в режиме реального времени.

  • Использование инновационных методов для взаимодействия с централизованными Data Lake Storage 2-го поколения данными. Методы включают в себя бессерверный анализ, интеллектуальный анализ, слияние данных между доменами и просмотр данных конечным пользователем.

  • Настройка компаний электронной коммерции для внедрения хранилища данных для оптимизации своих операций.

Не рекомендуется использовать это решение для:

  • Развертывание хранилищ данных, предполагаемый размер которых в течение года превысит > 1 ТБ на новом месте.

  • Миграция локальных хранилищ данных, > размер которых составляет 1 ТБ или предполагается, что увеличится до этого размера в течение года.

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Ниже представлены рекомендации относительно этого сценария.

Доступность

База данных SQL — это служба PaaS, которая может соответствовать требованиям высокого уровня доступности и аварийного восстановления (DR). Обязательно выберите номер SKU, соответствующий вашим требованиям. Рекомендации см. в разделе Высокий уровень доступности для Базы данных SQL Azure.

Operations

База данных SQL использует SQL Server Management Studio (SSMS) для разработки и обслуживания устаревших артефактов, таких как хранимые процедуры.

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

См. в образец цен для сценария хранилища данных SMB в калькуляторе цен Azure. Изменяйте значения до тех пор, пока не увидите, как ваши требования влияют на затраты.

  • Цены на Базу данных SQL — зависят от выбранных уровней вычислений и служб, а также от количества виртуальных ядер и единиц транзакций базы данных (DTU). В примере показана отдельная база данных с предоставленными вычислениями и восемью виртуальными ядрами, исходя из предположения, что вам нужно выполнять хранимые процедуры в Базе данных SQL.

  • Data Lake Storage 2-го поколения цены зависят от объема хранилища данных и частоты использования данных. Пример цены включает в себя 1 ТБ хранимых данных и предполагаемые дальнейшие транзакции. 1 ТБ относится к размеру озера данных, а не к размеру исходной устаревшей базы данных.

  • СтоимостьКонвейеров Azure Synapseвремени выполнения интеграции, размера кластера потоков данных, а также платы за выполнение и эксплуатацию. Затраты на конвейер возрастают с увеличением количества источников данных и объемов обрабатываемых данных. В примере предполагается, что источник данных обрабатывается в пакетном режиме в течение 15 минут каждый час в среде выполнения интеграции, размещенной в Azure.

  • Цена пула Spark в Azure Synapse основана на стоимости размера узла, количестве экземпляров и времени доступности. В примере предполагается, что один небольшой вычислительный узел используется с рабочей нагрузкой от пяти часов в неделю до 40 часов в месяц.

  • Цена на бессерверный пул SQL в Azure Synapse основана на стоимости терабайтов обработанных данных. В примере предполагается, что в месяц обрабатывалось 50 ТБ. На этом рисунке показа размер озера данных, а не исходной устаревшей базы данных.

  • Счет за Центры событий Azure зависит от уровня, подготовленных единиц пропускной способности и полученного входящего трафика. В примере предполагается, что пропускная способность на уровне "Стандартный" составляет более одного миллиона событий за один месяц.

  • Stream Analytics устанавливает стоимость на основе количества подготовленных единиц потоковой передачи. В примере предполагается, что в течение месяца используется одна единица потоковой передачи.

Соавторы

Эта статья обновляется и поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

  • Галина Полякова | Старший архитектор облачных решений

Следующие шаги