Wybieranie technologii analizy danych i raportowania na platformie Azure

Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.

Jakie są twoje opcje podczas wybierania technologii analizy danych?

Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:

Power BI

Usługa Power BI to zestaw narzędzi do analizy biznesowej. Może łączyć się z setkami źródeł danych i może służyć do analizy ad hoc. Zobacz tę listę obecnie dostępnych źródeł danych. Użyj Power BI Embedded, aby zintegrować usługę Power BI we własnych aplikacjach bez konieczności posiadania dodatkowych licencji.

Organizacje mogą używać usługi Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanymi zabezpieczeniami i ładem. Usługa Power BI używa usługi Azure Active Directory (Azure AD) do uwierzytelniania użytkowników logujących się do usługa Power BI i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów, które wymagają uwierzytelniania.

Notesy programu Jupyter

Notesy Jupyter Notebook udostępniają powłokę opartą na przeglądarce, która umożliwia analitykom danych tworzenie plików notesów zawierających kod Python, Scala lub R i tekst markdown, dzięki czemu jest to skuteczny sposób współpracy dzięki udostępnianiu i dokumentowaniu kodu oraz uzyskiwaniu wyników w jednym dokumencie.

Większość odmian klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana przy użyciu notesów Jupyter do interakcji z danymi i przesyłania zadań do przetwarzania. W zależności od typu używanego klastra usługi HDInsight zostanie udostępniony co najmniej jeden jądro do interpretowania i uruchamiania kodu. Na przykład klastry Spark w usłudze HDInsight udostępniają jądra związane z platformą Spark, z których można wybrać opcję , aby wykonać kod w języku Python lub Scala przy użyciu aparatu Spark.

Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed utworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia do analizy biznesowej/raportowania, takiego jak usługa Power BI.

Notesy Zeppelin

Notesy Zeppelin są inną opcją dla powłoki opartej na przeglądarce, podobnie jak aplikacja Jupyter w funkcji. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane za pomocą notesów Zeppelin. Jeśli jednak używasz klastra usługi HDInsight Interactive Query (Hive LLAP), firma Zeppelin jest obecnie jedynym wyborem notesu, którego można użyć do uruchamiania interakcyjnych zapytań Hive. Ponadto w przypadku korzystania z przyłączonego do domeny klastra usługi HDInsight notesy Zeppelin są jedynym typem, który umożliwia przypisywanie różnych identyfikatorów logowania użytkownika w celu kontrolowania dostępu do notesów i bazowych tabel programu Hive.

Notesy Jupyter w programie VS Code

VS Code to bezpłatna platforma edytora kodu i programowania, której można używać lokalnie lub połączonych ze zdalnymi obliczeniami. W połączeniu z rozszerzeniem Jupyter oferuje pełne środowisko programowania jupyter, które można ulepszyć za pomocą dodatkowych rozszerzeń językowych. Jeśli potrzebujesz najlepszego w swojej klasie, bezpłatnego środowiska Jupyter z możliwością wykorzystania wybranej mocy obliczeniowej, jest to świetna opcja. Za pomocą programu VS Code można opracowywać i uruchamiać notesy dla zdalnego i kontenerów. Aby ułatwić przejście z usługi Azure Notebooks, udostępniliśmy obraz kontenera, aby mógł on być również używany z programem VS Code.

Jupyter (dawniej IPython Notebook) to projekt typu open source, który umożliwia łatwe łączenie tekstu markdown i wykonywalnego kodu źródłowego języka Python na jednej kanwie nazywanej notesem. Visual Studio Code obsługuje natywną pracę z notesami Jupyter Notebook oraz za pomocą plików kodu języka Python.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozmieszczonych w całej domenie? Jeśli tak, wybierz opcję, która umożliwia nawiązanie połączenia z 100 źródłami danych.

  • Czy chcesz osadzić dynamiczne wizualizacje w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia możliwości osadzania.

  • Czy chcesz zaprojektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z funkcjami trybu offline.

  • Czy potrzebujesz dużej mocy obliczeniowej, aby wytrenować duże lub złożone modele sztucznej inteligencji albo pracować z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może łączyć się z klastrem danych big data.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość Power BI Notesy programu Jupyter Notesy Zeppelin Notesy Jupyter w programie VS Code
Nawiązywanie połączenia z klastrem danych big data w celu zaawansowanego przetwarzania Tak Tak Tak Nie
Usługa zarządzana Tak Tak 1 Tak 1 Tak
Nawiązywanie połączenia z 100 źródłami danych Tak Nie Nie Nie
Możliwości w trybie offline Tak 2 Nie Nie Nie
Możliwości osadzania Tak Nie Nie Nie
Automatyczne odświeżanie danych Tak Nie Nie Nie
Dostęp do wielu pakietów open source Nie Tak 3 Tak 3 Tak 4
Opcje przekształcania/czyszczenia danych Power Query, R 40 języków, w tym Python, R, Julia i Scala 20+ interpreterów, w tym Python, JDBC i R Python, F#, R
Cennik Bezpłatna dla Power BI Desktop (tworzenie), zobacz cennik opcji hostingu Bezpłatna Bezpłatna Bezpłatna
Współpraca z wieloma użytkownikami Tak Tak (za pośrednictwem udostępniania lub korzystania z serwera z wieloma użytkownikami, takiego jak JupyterHub) Tak Tak (za pośrednictwem udostępniania)

[1] W przypadku użycia w ramach zarządzanego klastra usługi HDInsight.

[2] Korzystanie z Power BI Desktop.

[2] Repozytorium Maven można przeszukiwać pod kątem pakietów współtwonych przez społeczność.

[3] Pakiety języka Python można instalować przy użyciu narzędzia pip lub conda. Pakiety języka R można zainstalować z usługi CRAN lub GitHub. Pakiety w języku F# można instalować za pośrednictwem nuget.org przy użyciu menedżera zależności Paket.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Został pierwotnie napisany przez następujących współautorów.

Główny autor:

Następne kroki