Что такое сетка данных?

Сетка данных — это архитектурный шаблон для реализации корпоративных платформ данных в крупных и сложных организациях. Сетка данных помогает масштабировать внедрение аналитики за рамки одной платформы и отдельной группы реализации.

Общие сведения

Потребность в аналитике не является новой. Организации всегда нуждаются в анализе производительности бизнеса и сделали это с помощью компьютеров с момента их внедрения. Около 1980-х годов организации начали создавать решения для хранения данных с помощью баз данных специально для поддержки принятия решений. Эти решения для хранения данных хорошо обслуживали организации в течение длительного времени.

Однако, как бизнес-изменения и создание более разнообразных данных, решения для хранения данных, которые используют реляционные базы данных, могут не всегда быть лучшим решением. В 2000-х годах большие данные стали общим термином. Предприятия приняли новые решения, которые позволяют анализировать большие объемы разнообразных данных, которые могут быть созданы с большой скоростью. К ним относятся технологии, такие как озера данных, и решения для горизонтального масштабирования, которые анализируют большие объемы данных.

В последние годы многие организации успешно используют современные архитектурные и аналитические шаблоны, которые объединяют технологии хранения данных и новые технологии больших данных.

Diagram of architecture.

Однако некоторые организации сталкиваются с проблемами при развертывании аналитических решений, использующих аналитические шаблоны. Эти решения обычно реализуются как монолитные решения, где одна команда является поставщиком платформы и команда выполняет интеграцию данных. Небольшие организации и организации с высокой степенью централизации с точки зрения настройки команды могут использовать одну команду. Однако большая организация, использующий только одну команду, часто создает узкие места. Это узкое место приводит к огромной невыполненной работы, что приводит к тому, что часть организации ожидает служб интеграции данных и аналитических решений.

Этот шаблон становится более распространенным, так как организации принимают современные решения для обработки и анализа данных. Многие современные решения для обработки и анализа данных требуют больше данных, чем традиционные решения бизнес-аналитики в прошлом.

Недавний переход на использование микрослужб в качестве шаблона разработки приложений является другим драйвером длительных невыполненных операций по интеграции данных, так как это увеличивает число источников данных.

Одна команда, обрабатывающая все прием данных на одной платформе в большой организации, также может быть проблематичной. Одна команда редко имеет экспертов по каждому источнику данных. Большинство организаций децентрализованы и распределены с точки зрения бизнеса. Различные бизнес-подразделения и отделы обрабатывают различные части бизнес-операции, поэтому эксперты по данным обычно распределяются по различным секторам.

Новый архитектурный шаблон, называемый сеткой данных, недавно был представлен для решения этих проблем. Цель сетки данных заключается в том, чтобы распределенные команды работали и совместно использовать информацию в децентрализованном и гибком режиме.

Сетка данных — это технический шаблон, который также требует изменения организации. Преимущества подхода сетки данных достигаются путем реализации многодисциплинарных групп, которые публикуют и используют продукты данных.

Следующие понятия являются основой для понимания архитектуры сетки данных:

  • Предметные области
  • Продукты для данных
  • Платформы самообслуживания
  • Федеративное управление

Предметные области

Домены данных являются основой сетки данных. Концепция доменов данных исходит от разработки на основе домена (DDD), парадигмы, часто используемой в разработке программного обеспечения для моделирования сложных решений программного обеспечения. В сетке данных домен данных — это способ определения границ вокруг корпоративных данных. Домены могут отличаться в зависимости от организации, а в некоторых случаях можно определить домены по всей организации. В других случаях можно моделировать домены данных на основе бизнес-процессов или исходных систем.

Существует три аспекта для доменов данных:

  • Выбранные границы отображаются в долгосрочной собственности. Они существуют в течение длительного периода времени и определили владельцев.

  • Ваши домены должны соответствовать реальности, а не только теоретическим понятиям.

  • Домены должны иметь атомарную целостность. Если области не имеют связи друг с другом, не сочетайте их в домене вместе.

Дополнительные сведения о доменах данных и их определении см. в разделе "Домены данных".

Продукты для данных

Продукты данных являются еще одним важным компонентом сетки данных. Продукты данных нацелены на то, чтобы думать о продукте в мире данных. Чтобы продукт данных был успешным, он должен обеспечить долгосрочное бизнес-значение для предполагаемых пользователей. В сетке данных продукт данных включает данные, ресурсы кода, метаданные и связанные политики. Продукты данных можно доставлять как API, отчет, таблицу или набор данных в озере данных.

Продукт данных должен быть успешным:

  • Доступные для использования: ваш продукт должен иметь пользователей за пределами непосредственного домена данных.
  • Ценно: продукт должен поддерживать значение с течением времени. Если он не имеет долгосрочного значения, он не может завершиться успешно.
  • Возможно. Ваш продукт должен быть возможным. Если вы на самом деле не можете построить его, продукт не может быть успешным. Продукт должен быть возможным как с точки зрения доступности данных, так и с технической точки зрения.

Ресурсы кода продукта данных включают код, который создает его и код, который доставляет его. Ресурсы кода также включают конвейеры, используемые для создания продукта и окончательного отчета продукта.

Дополнительные сведения о продуктах данных см. в разделе "Продукты данных в масштабе облака" в Azure.

Инструкции по использованию сетки данных см. в статье "Что такое продукт данных?".

Платформы самообслуживания

Ядро сетки данных имеет платформу, которая позволяет доменам данных создавать свои продукты данных самостоятельно. Домены данных должны определять продукты данных с помощью инструментов и процессов, относящихся к пользователям без сильной зависимости от центральной платформы или центральной группы платформы. В сетке данных у вас есть автономные команды, которые разрабатывают автономные продукты и управляют ими.

При использовании принципов и выравнивания с бизнес-пользователями, которые понимают ваши данные, помните, что генералы, которые также работают на вашей платформе. Так как у вас есть обобщенные специалисты, вы не можете иметь специализированные инструменты, требующие знаний специалистов для работы в качестве основной основы платформы на основе сетки.

Вы можете успешно реализовать свою платформу самообслуживания, приняв методики, описанные в рекомендациях по проектированию для платформ данных самообслуживания.

Федеративное управление

При внедрении платформы распределенных данных самообслуживания необходимо уделять особое внимание управлению. Отсутствие управления приводит к дублированию данных в доменах данных. Федеративное управление, так как люди, которые понимают необходимость управления, существуют в группах, выровненных в домене, и среди владельцев данных.

Чтобы создать федеративное управление, реализуйте автоматические политики как для платформы, так и для данных. Используйте высокую степень автоматизации для тестирования и мониторинга. Примите стратегию реализации кода для обработки стандартов, политик, продуктов данных и развертывания платформы в качестве кода.

Дополнительные сведения о реализации федеративных аспектов управления см. в обзоре управления данными.

Итоги

Сетка данных может быть эффективным способом реализации корпоративных платформ данных, но это не лучшее решение для всех организаций. Сетка данных требует автономных команд, которые могут работать независимо. Сетка данных лучше всего работает в крупных и сложных организациях с независимыми бизнес-подразделениями и должна масштабировать внедрение аналитики за рамки одной платформы и группы реализации.

При использовании сетки данных обратите особое внимание на реализацию системы управления, чтобы не создавать силосы. Всегда думайте о продукте для данных в основе реализации, чтобы обеспечить успех.

Next Steps

Домены данных