Что такое HDInsight?
Большие объемы, разнообразие и скорость создания данных на сегодняшний день сводят к минимуму необходимость использования систем, которые могут эффективно работать с частично структурированными и неструктурированными данными. В традиционных системах управления реляционными базами данных (РСУБД) были предприняты попытки обработки, хранения и анализа "больших данных". Однако именно в мире программного обеспечения с открытым исходным кодом (OSS) произошел революционный прорыв. OSS использует коммерческое оборудование распределенно, в сочетании с программным обеспечением, чтобы масштабировать аналитические данные без учета ограничений, предусмотренных для отдельных серверов.
OSS доступна как для организаций, так и для отдельных пользователей. Недостаточное управление и поддержка OSS в прошлом усложняет внедрение этой технологии в некоторых предприятиях. С появлением облачных технологий многие поставщики облачных служб теперь размещают эти службы и обеспечивают управляемую поддержку для организаций, использующих технологии OSS. Такое предложение позволяет организациям использовать преимущества OSS, не затрачивая средства на управление и поддержку этой технологии. OSS часто используется в пространстве больших данных. В этом пространстве многие технологии используются не только для обработки и хранения данных, но также для анализа. Аналитика OSS позволяет использовать многооблачную стратегию открытия приложений, которая не привязана к одному поставщику облака. Она обеспечивает переносимость, независимо от того, требуется ли перенести решения из локальной среды в облако или между разными поставщиками облачных решений.
Одной из основных технологий аналитики OSS, используемых в решениях для работы с большими данными, является Hadoop. Обычно данные хранятся в распределенной файловой системе (HDFS) Hadoop, при этом используются кластеры компьютеров коммерческого класса с моделью программирования MapReduce. Эта модель программирования обеспечивает распределенную обработку больших наборов данных в линейном потоке. Для повышения производительности Apache Spark реализуется на основе архитектурных функций Hadoop, но при этом заменяет парадигму MapReduce на отказоустойчивый распределенный набор данных (RDD). RDD предоставляет механизм обработки данных в памяти, который обеспечивает значительно более высокую скорость.
Следует отметить, что аналитика OSS выходит за рамки традиционного применения решений для работы с большими данными, использующих Hadoop и Spark. Аналитика OSS теперь содержит широкий спектр программного обеспечения, включая следующие:
- Kafka и Flink для сценариев потоковой передачи
- Presto и Kylin как уровни абстракции SQL
- Слои ИИ, добавленные с помощью H20.ai и Dataiku
Azure HDInsight — это управляемая комплексная облачная служба аналитики с открытым кодом, предназначенная для предприятий. Корпорация Майкрософт реализовала средства аналитики OSS в Azure HDInsight. Платформы с открытым кодом, такие как Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka. Вы также получаете преимущества безопасности корпоративного уровня, возможностей мониторинга и параметров высокой доступности, которые будут ожидаться от службы, размещенной в Azure. Azure HDInsight также поддерживает расширение и может быть настроен для работы с разнообразными клиентскими сценариями.