Введение
Многие современные компании используют большие данные в своей работе. Огромный объем и разнообразие данных и скорость создания данных требует наличия систем, которые помогают управлять и контролировать их. В прошлом организации использовали реляционные системы управления базами данных для управления данными. Однако теперь компании хотят совместить функции ПО с открытым кодом с преимуществами платформ для внешнего размещения ресурсов. Azure HDInsight — идеальный пример такого сочетания. HDInsight позволяет обрабатывать большие данные во многих сценариях с использованием исторических или реальных данных.
На следующем рисунке показан обзор вариантов применения HDInsight. На нем изображено несколько источников данных, включая датчики Интернета вещей (IoT), базы данных и несколько хранилищ Azure. HDInsight обрабатывает данные из этих расположений. Затем решение обеспечивает долгосрочное хранение этих данных для работающих в реальном времени приложений или для дополнительного анализа.
Пример сценария
Представьте, что вы сотрудник организации, которая создает рабочие нагрузки для приема данных, создания отчетов по прошлым данным и для расширенной аналитики. Возможно, у вас также есть потоковые данные, требующие анализа. В этом случае стоит рассмотреть использование HDInsight. Это решение позволяет принимать все данные в общем расположении Data Lake, а затем его можно использовать для управления следующими рабочими нагрузками:
- Пакетная обработка
- Хранение данных
- Операции обработки и анализа данных
- Потоковая передача
Что мы будем делать?
По завершении этого модуля вы сможете оценить возможную пользу от HDInsight для обработки данных в вашей организации. Вы также будете знать, как HDInsight использует популярные платформы с открытым кодом, поддерживающие многие сценарии работы с данными.
Какова основная цель?
Главная цель — определить, подходит ли HDInsight для ваших нужд по обработке больших данных.