Общие сведения о хранении данных в современном хранилище данных
Несмотря на то что у вас есть возможность приема данных из источника непосредственно в хранилище данных, исходные данные лучше хранить в промежуточной области, которая также называется целевой зоной. Обычно это независимая область хранения, расположенная между исходными системами и хранилищем данных. Основная причина добавления области промежуточного хранения в архитектуру современного хранилища данных может быть следующая.
Снижение состязания за ресурсы в исходных системах
Исходные системы обычно играют важную роль в выполнении бизнес-операций, которые либо служат источником дохода в организации, либо предоставляют функцию, являющуюся очень важной для бизнеса. В результате прием данных из этих систем должен минимизировать использование ресурсов в исходной системе, чтобы это не нарушило ее работу. В результате некоторые стратегии проектирования хранилища данных будут включать захват данных в источнике и их "выгрузку" в промежуточную область.
Такой подход не требует преобразования или очистки. В этом случае данные просто извлекаются, что снижает состязание за ресурсы в исходной системе. Это также может включать вывод данных исходной системой в текстовые файлы, которые затем собираются процессом извлечения, преобразования и загрузки (ETL).
Разные расписания приема данных в исходных системах
Промежуточные среды — это отличное место для хранения данных из разных исходных систем независимо от расписания, в котором эти данные принимаются. Например, вы можете взять данные из ряда исходных систем рано вечером, поскольку в это время они используются меньше всего, а затем рано утром взять данные из другой системы, поскольку до этого времени они могут подлежать резервному копированию, прежде чем вы сможете принять их. Использование промежуточной области позволяет работать с разными расписаниями.
Объединение данных из разных источников
Промежуточная среда предоставляет возможность объединить в одном представлении данные из разных исходных систем. Поскольку промежуточная область не зависит от исходных систем и хранилища данных, вы можете выполнять любые необходимые действия, которые не оказывают влияния на эти системы.
Можно даже создать дополнительные таблицы, которые могут помочь в процессе объединения данных из различных исходных систем, называемых таблицами сопоставления. В этом сценарии представьте, что у вас есть таблица клиента в одной исходной системе, в которой есть столбец с именем FirstName. Во второй исходной системе, возможно, под управлением системы AS400, имеется таблица клиента со столбцом с именем FIRNAM, в котором также представлено имя клиента.
Можно создать отдельную таблицу, содержащую метаданные, которые сопоставляют данные в столбце из одной исходной системы с данными в другом столбце из другой исходной системы, представляющей ту же бизнес-сущность. В нашем примере это FirstName.
Повторное выполнение неудачных загрузок хранилища данных из промежуточной области
Не все загрузки хранилища данных завершаются успешно, поэтому хранилище данных должно иметь возможность обрабатывать сценарии, в которых может произойти повторный запуск процесса ETL в рабочее время, и это должно происходить без нарушения работы исходных систем. Имея промежуточные данные, можно перезапустить процесс ETL из промежуточной области, а не из исходной системы.
В архитектуре современного хранилища данных исходные данные могут быть очень разнообразными. Разнообразие и объем данных, создаваемых и анализируемых сегодня, возрастает. Организации оперируют несколькими источниками данных — от веб-сайтов до POS-систем, а в последнее время — от социальных сетей до устройств Интернета вещей. Каждый источник предоставляет важные аспекты данных, которые требуется собрать, проанализировать и, возможно, учитывать в дальнейшей деятельности.
На основе этого Azure Data Lake 2-го поколения — это идеальное решение для хранения промежуточных данных, поскольку оно предлагает набор возможностей, предназначенных для анализа больших данных, известных как озеро данных. Data Lake — это репозиторий данных, хранящихся в естественном формате, обычно в виде BLOB-объектов или файлов. Azure Data Lake Storage — это комплексное масштабируемое и экономичное решение Data Lake для аналитики больших объемов данных, встроенное в Azure.
Azure Data Lake Storage сочетает в себе файловую систему с платформой хранилища, позволяя быстро выявлять ценные сведения внутри данных. Решение Data Lake Storage 2-го поколения основано на возможностях хранилища BLOB-объектов Azure, что позволяет оптимизировать его специально под аналитические рабочие нагрузки. Такая интеграция обеспечивает производительность аналитики, возможности распределения по уровням и управления жизненным циклом данных хранилища BLOB-объектов, а также высокую доступность, безопасность и устойчивость службы хранилища Azure.