Интерактивные запросы в HDInsight

Фабрика данных
Data Lake Storage
HDInsight
Power BI

Идеи, связанные с решением

Эта статья является идеей решения. Если вы хотите расширить содержимое с дополнительными сведениями, такими как потенциальные варианты использования, альтернативные службы, рекомендации по реализации или рекомендации по ценообразованию, сообщите нам, предоставив отзыв на GitHub.

Выполняйте быстрый интерактивный SQL, например запросы в большом масштабе над структурированными или неструктурированными данными с помощью Apache Hive LLAP в Azure HDInsight.

Потенциальные варианты использования

Azure HDInsight обеспечивает критически важные приложения в различных отраслях. Некоторые из этих отраслей, включая производство, розничную торговлю, образование, некоммерческие организации, правительство, здравоохранение, средства массовой информации, банковские услуги, телекоммуникации, страхование, финансы и многое другое. Они варьируются в вариантах использования от ETL до хранения данных, от машинного обучения до Интернета вещей и т. д.

Архитектура

Схемаархитектуры скачайте SVG этой архитектуры.

Поток данных

  1. Перемещение данных между облаком Azure или любым другим облаком, не использующим Azure, с помощью Фабрика данных Azure
  2. Создание целевой зоны данных с помощью службы Azure Data Lake 2-го поколения, которая также является основной учетной записью хранения для кластера Hadoop Azure HDInsight.
  3. Выполнение процедур ELT с помощью Фабрика данных Azure или Hive для преобразования входящих данных в HDFS
  4. Создание внешних таблиц в Hive с помощью этих данных в HDFS
  5. Использование Power BI для интерпретации этих данных и создания новых визуализаций

Компоненты

  • Фабрика данных Azure — это гибридная служба интеграции данных, которая позволяет создавать, планировать и управлять рабочими процессами ETL/ELT.
  • Azure Data Lake Storage — это набор возможностей, таких как семантика файловой системы и безопасность на уровне файлов, предназначенная для аналитики больших данных, созданной на основе хранилища BLOB-объектов Azure.
  • Azure HDInsight позволяет легко, быстро и экономично обрабатывать большие объемы данных. Вы можете использовать такие популярные платформы с открытым кодом, как Hadoop, Spark, Hive, LLAP, Kafka, Storm, R и другие.
  • Power BI — это набор инструментов бизнес-аналитики, которые обеспечивают целостное представление обо всей вашей организации. Подключитесь к сотням источников данных, упростите подготовку данных и анализ приложений.

Дальнейшие действия