Wybieranie technologii analizy danych i raportowania na platformie Azure

Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.

Jakie są opcje podczas wybierania technologii analizy danych?

Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:

Power BI

Usługa Power BI to zestaw narzędzi do analizy biznesowej. Może ona łączyć się z setkami źródeł danych i może być używana do analizy ad hoc. Zobacz tę listę aktualnie dostępnych źródeł danych. Użyj Power BI Embedded, aby zintegrować usługę Power BI z własnymi aplikacjami bez konieczności dodatkowego licencjonowania.

Organizacje mogą używać usługi Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanymi zabezpieczeniami i ładem. Usługa Power BI używa usługi Azure Active Directory (Azure AD) do uwierzytelniania użytkowników logujących się do usługa Power BI i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów wymagających uwierzytelniania.

Notesy programu Jupyter

Notesy Jupyter Notebook udostępniają powłokę opartą na przeglądarce, która umożliwia analitykom danych tworzenie plików notesów zawierających kod Python, Scala lub R oraz tekst markdown, dzięki czemu jest to skuteczny sposób współpracy poprzez udostępnianie i dokumentowanie kodu oraz wyniki w jednym dokumencie.

Większość odmian klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana z notesami Jupyter na potrzeby interakcji z danymi i przesyłania zadań do przetwarzania. W zależności od typu używanego klastra usługi HDInsight do interpretowania i uruchamiania kodu zostanie dostarczone co najmniej jedno jądro. Na przykład klastry Spark w usłudze HDInsight udostępniają jądra związane z platformą Spark, które można wybrać, aby wykonać kod w języku Python lub Scala przy użyciu aparatu Spark.

Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed utworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia analizy biznesowej/raportowania, takiego jak usługa Power BI.

Notesy Zeppelin

Notesy Zeppelin to kolejna opcja powłoki opartej na przeglądarce, podobnie jak w przypadku programu Jupyter w funkcji. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane przy użyciu notesów Zeppelin. Jeśli jednak używasz klastra usługi HDInsight Interactive Query (Hive LLAP), zeppelin jest obecnie jedynym wyborem notesu, którego można użyć do uruchamiania interakcyjnych zapytań Hive. Ponadto, jeśli używasz przyłączonego do domeny klastra usługi HDInsight, notesy Zeppelin są jedynym typem, który umożliwia przypisywanie różnych identyfikatorów logowania użytkownika w celu kontrolowania dostępu do notesów i bazowych tabel hive.

Microsoft Azure Notebooks

Azure Notebooks to oparta na online usłudze Jupyter Notebooks, która umożliwia analitykom danych tworzenie, uruchamianie i udostępnianie notesów Jupyter Notebook w bibliotekach opartych na chmurze. Usługa Azure Notebooks udostępnia środowiska wykonywania dla języków Python 2, Python 3, F# i R oraz udostępnia kilka bibliotek wykresów do wizualizacji danych, takich jak ggplot, matplotlib, bokeh i seaborn.

W przeciwieństwie do notesów Jupyter działających w klastrze usługi HDInsight, które są połączone z domyślnym kontem magazynu klastra, usługa Azure Notebooks nie udostępnia żadnych danych. Dane muszą być ładowane na różne sposoby, takie jak pobieranie danych ze źródła online, interakcja z usługą Azure Blobs lub Table Storage, nawiązywanie połączenia z bazą danych SQL lub ładowanie danych za pomocą Kreatora kopiowania dla Azure Data Factory.

Najważniejsze korzyści:

  • Bezpłatna usługa — żadna subskrypcja platformy Azure nie jest wymagana.
  • Nie trzeba instalować programu Jupyter i pomocniczych dystrybucji języka R lub Python lokalnie — wystarczy użyć przeglądarki.
  • Zarządzanie własnymi bibliotekami online i uzyskiwanie do nich dostępu z dowolnego urządzenia.
  • Udostępnianie notesów współpracownikom.

Zagadnienia do rozważenia:

  • Nie będzie można uzyskać dostępu do notesów w trybie offline.
  • Ograniczone możliwości przetwarzania bezpłatnej usługi notesu mogą nie wystarczyć do trenowania dużych lub złożonych modeli.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozmieszczonych w całej domenie? Jeśli tak, wybierz opcję, która umożliwia nawiązanie połączenia z 100 źródłami danych.

  • Czy chcesz osadzić wizualizacje dynamiczne w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia funkcje osadzania.

  • Czy chcesz zaprojektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z możliwościami trybu offline.

  • Czy potrzebujesz dużej mocy obliczeniowej do trenowania dużych lub złożonych modeli sztucznej inteligencji lub pracy z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może łączyć się z klastrem danych big data.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość Power BI Notesy programu Jupyter Notesy Zeppelin Microsoft Azure Notebooks
Nawiązywanie połączenia z klastrem danych big data na potrzeby zaawansowanego przetwarzania Tak Tak Tak Nie
Usługa zarządzana Tak Tak 1 Tak 1 Tak
Nawiązywanie połączenia z 100 źródłami danych Tak Nie Nie Nie
Możliwości w trybie offline Tak 2 Nie Nie Nie
Funkcje osadzania Tak Nie Nie Nie
Automatyczne odświeżanie danych Tak Nie Nie Nie
Dostęp do wielu pakietów open source Nie Tak 3 Tak 3 Tak 4
Opcje przekształcania/czyszczenia danych Power Query, R 40 języków, w tym Python, R, Julia i Scala 20+ interpreterów, w tym Python, JDBC i R Python, F#, R
Cennik Bezpłatnie dla Power BI Desktop (tworzenie) zobacz cennik opcji hostingu Bezpłatna Bezpłatna Bezpłatna
Współpraca z wieloma użytkownikami Tak Tak (za pośrednictwem udostępniania lub z serwerem z wieloma użytkownikami, takimi jak JupyterHub) Tak Tak (za pośrednictwem udostępniania)

[1] W przypadku użycia jako część zarządzanego klastra usługi HDInsight.

[2] Korzystanie z Power BI Desktop.

[2] Możesz wyszukać repozytorium Maven pod kątem pakietów współautorów społeczności.

[3] Pakiety języka Python można zainstalować przy użyciu narzędzia pip lub conda. Pakiety języka R można zainstalować z poziomu usługi CRAN lub GitHub. Pakiety w języku F# można instalować za pośrednictwem nuget.org za pomocą menedżera zależności Paket.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor: