Udostępnij za pośrednictwem


Wybieranie technologii analizy danych i raportowania na platformie Azure

Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.

Jakie są opcje wyboru technologii analizy danych?

Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:

Power BI

Usługa Power BI to zestaw narzędzi do analizy biznesowej. Może ona łączyć się z setkami źródeł danych i może służyć do analizy ad hoc. Zobacz tę listę aktualnie dostępnych źródeł danych. Użyj usługi Power BI Embedded , aby zintegrować usługę Power BI we własnych aplikacjach bez konieczności posiadania dodatkowych licencji.

Organizacje mogą używać usługi Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanymi zabezpieczeniami i ładem. Usługa Power BI używa identyfikatora Entra firmy Microsoft do uwierzytelniania użytkowników logujących się do usługa Power BI i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów wymagających uwierzytelniania.

Notesy programu Jupyter

Notesy Jupyter Notebook udostępniają powłokę opartą na przeglądarce, która umożliwia analitykom danych tworzenie plików notesów zawierających kod Python, Scala lub R oraz tekst markdown, dzięki czemu jest to skuteczny sposób współpracy poprzez udostępnianie i dokumentowanie kodu oraz wyniki w jednym dokumencie.

Większość odmian klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana z notesami Jupyter do interakcji z danymi i przesyłania zadań do przetwarzania. W zależności od typu używanego klastra usługi HDInsight zostanie udostępniony co najmniej jeden jądro do interpretowania i uruchamiania kodu. Na przykład klastry Spark w usłudze HDInsight udostępniają jądra związane z platformą Spark, które można wybrać, aby wykonać kod języka Python lub Scala przy użyciu aparatu Spark.

Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed utworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia do analizy biznesowej/raportowania, takiego jak usługa Power BI.

Notesy Zeppelin

Notesy Zeppelin to kolejna opcja powłoki opartej na przeglądarce, podobnie jak w przypadku programu Jupyter w funkcji. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane za pomocą notesów Zeppelin. Jeśli jednak używasz klastra zapytań interakcyjnych usługi HDInsight (Hive LLAP), zeppelin jest obecnie jedynym wyborem notesu, którego można użyć do uruchamiania interakcyjnych zapytań Hive. Ponadto, jeśli używasz klastra usługi HDInsight przyłączonego do domeny, notesy Zeppelin są jedynym typem, który umożliwia przypisanie różnych identyfikatorów logowania użytkownika w celu kontrolowania dostępu do notesów i bazowych tabel programu Hive.

Notesy Jupyter w programie VS Code

VS Code to bezpłatna platforma edytora kodu i programowania, której można używać lokalnie lub połączonych ze zdalnymi obliczeniami. W połączeniu z rozszerzeniem Jupyter oferuje pełne środowisko do tworzenia aplikacji Jupyter, które można ulepszyć przy użyciu dodatkowych rozszerzeń języka. Jeśli potrzebujesz najlepszego w swojej klasie, bezpłatnego środowiska Jupyter z możliwością wykorzystania wybranej mocy obliczeniowej, jest to świetna opcja. Za pomocą programu VS Code można opracowywać i uruchamiać notesy dla zdalnych i kontenerów. Aby ułatwić przejście z usługi Azure Notebooks, udostępniliśmy obraz kontenera, aby mógł być również używany z programem VS Code.

Jupyter (dawniej IPython Notebook) to projekt typu open source, który umożliwia łatwe łączenie tekstu markdown i wykonywalnego kodu źródłowego języka Python na jednej kanwie nazywanej notesem. Program Visual Studio Code obsługuje natywną pracę z notesami Jupyter Notebook oraz za pośrednictwem plików kodu języka Python.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozmieszczonych w całej domenie? Jeśli tak, wybierz opcję, która umożliwia nawiązanie połączenia z 100 źródłami danych.

  • Czy chcesz osadzić dynamiczne wizualizacje w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia możliwości osadzania.

  • Czy chcesz zaprojektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z funkcjami offline.

  • Czy potrzebujesz dużej mocy obliczeniowej, aby wytrenować duże lub złożone modele sztucznej inteligencji lub pracować z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może łączyć się z klastrem danych big data.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość Power BI Notesy programu Jupyter Notesy Zeppelin Notesy Jupyter w programie VS Code
Połączenie do klastra danych big data na potrzeby przetwarzania zaawansowanego Tak Tak Tak Nie.
Usługa zarządzana Tak Tak 1 Tak 1 Tak
Połączenie do 100 źródeł danych Tak Nie. Nie. Nie.
Możliwości w trybie offline Tak 2 Nie Nie. Nie.
Funkcje osadzania Tak Nie. Nie. Nie.
Automatyczne odświeżanie danych Tak Nie. Nie. Nie.
Dostęp do wielu pakietów open source Nie. Tak 3 Tak 3 Tak 4
Opcje przekształcania/czyszczenia danych Power Query, R 40 języków, w tym Python, R, Julia i Scala 20+ interpretery, w tym Python, JDBC i R Python, F#, R
Cennik Bezpłatna wersja programu Power BI Desktop (tworzenie), zobacz cennik opcji hostingu Bezpłatna Bezpłatna Bezpłatna
Współpraca z wieloma użytkownikami Tak Tak (za pośrednictwem udostępniania lub korzystania z serwera wieloużytkownika, takiego jak JupyterHub) Tak Tak (za pośrednictwem udostępniania)

[1] W przypadku użycia w ramach zarządzanego klastra usługi HDInsight.

[2] Korzystanie z programu Power BI Desktop.

[2] Repozytorium Maven można przeszukiwać pod kątem pakietów współtwonych przez społeczność.

[3] Pakiety języka Python można instalować przy użyciu narzędzia pip lub conda. Pakiety języka R można zainstalować z poziomu usługi CRAN lub GitHub. Pakiety w języku F# można instalować za pośrednictwem nuget.org przy użyciu menedżera zależności Pakietu Paket.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki