Interakcyjne wykonywanie zapytań za pomocą usługi HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Pomysły dotyczące rozwiązań

Ten artykuł jest pomysłem na rozwiązanie. Jeśli chcesz, abyśmy rozszerzyli zawartość o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, przekazując opinię w usłudze GitHub.

Wykonywanie szybkich, interaktywnych zapytań SQL, takich jak zapytania na dużą skalę na podstawie danych ze strukturą lub bez struktury, za pomocą funkcji LLAP apache Hive w usłudze Azure HDInsight.

Potencjalne przypadki użycia

Usługa Azure HDInsight obsługuje aplikacje o znaczeniu krytycznym w wielu różnych branżach. Niektóre z tych branż, w tym produkcja, handel detaliczny, edukacja, organizacje non-profit, instytucje rządowe, opieka zdrowotna, media, bankowość, telekomunikacja, ubezpieczenia, finanse i wiele innych. Obejmują one przypadki użycia od ETL do magazynowania danych, od uczenia maszynowego po IoT i nie tylko.

Architektura

Diagram architekturyPobierz plik SVG tej architektury.

Przepływ danych

  1. Przenoszenie danych między chmurą platformy Azure a inną chmurą spoza platformy Azure przy użyciu Azure Data Factory
  2. Tworzenie strefy docelowej danych przy użyciu usługi Azure Data Lake Gen2, która jest również podstawowym kontem magazynu dla klastra hadoop usługi Azure HDInsight
  3. Uruchamianie procedur ELT przy użyciu Azure Data Factory lub Programu Hive w celu przekształcania danych przychodzących w systemie plików HDFS
  4. Tworzenie tabel zewnętrznych w programie Hive przy użyciu tych danych w systemie plików HDFS
  5. Używanie usługi Power BI do interpretowania tych danych i tworzenia nowych wizualizacji

Składniki

  • Azure Data Factory to hybrydowa usługa integracji danych, która umożliwia tworzenie, planowanie i organizowanie przepływów pracy ETL/ELT.
  • Azure Data Lake Storage to zestaw funkcji, takich jak semantyka systemu plików i zabezpieczenia na poziomie plików przeznaczone dla analizy danych big data opartych na usłudze Azure Blob Storage.
  • Usługa Azure HDInsight ułatwia, szybkie i ekonomiczne przetwarzanie ogromnych ilości danych. Można używać z nią najpopularniejszych platform typu „open source” takich jak Hadoop, Spark, Hive, LLAP, Kafka, Storm, R i nie tylko.
  • Usługa Power BI to zestaw narzędzi do analizy biznesowej, które dostarczają szczegółowe informacje w całej organizacji. Nawiąż połączenie z setkami źródeł danych, upraszczaj przygotowywanie danych i napędzaj analizę adhoc.

Następne kroki