Wybieranie technologii analizy danych i raportowania na platformie Azure
Celem większości rozwiązań typu big data jest udostępnienie szczegółowych informacji na temat danych przy użyciu analizy i raportowania. Może to obejmować wstępnie skonfigurowane raporty i wizualizacje lub interaktywną eksplorację danych.
Jakie są twoje opcje podczas wybierania technologii analizy danych?
Istnieje kilka opcji analizy, wizualizacji i raportowania na platformie Azure, w zależności od potrzeb:
Power BI
Usługa Power BI to zestaw narzędzi do analizy biznesowej. Może łączyć się z setkami źródeł danych i może służyć do analizy ad hoc. Zobacz tę listę obecnie dostępnych źródeł danych. Użyj Power BI Embedded, aby zintegrować usługę Power BI we własnych aplikacjach bez konieczności posiadania dodatkowych licencji.
Organizacje mogą używać usługi Power BI do tworzenia raportów i publikowania ich w organizacji. Każdy może tworzyć spersonalizowane pulpity nawigacyjne z wbudowanymi zabezpieczeniami i ładem. Usługa Power BI używa usługi Azure Active Directory (Azure AD) do uwierzytelniania użytkowników logujących się do usługa Power BI i używa poświadczeń logowania usługi Power BI za każdym razem, gdy użytkownik próbuje uzyskać dostęp do zasobów, które wymagają uwierzytelniania.
Notesy programu Jupyter
Notesy Jupyter Notebook udostępniają powłokę opartą na przeglądarce, która umożliwia analitykom danych tworzenie plików notesów zawierających kod Python, Scala lub R i tekst markdown, dzięki czemu jest to skuteczny sposób współpracy dzięki udostępnianiu i dokumentowaniu kodu oraz uzyskiwaniu wyników w jednym dokumencie.
Większość odmian klastrów usługi HDInsight, takich jak Spark lub Hadoop, jest wstępnie skonfigurowana przy użyciu notesów Jupyter do interakcji z danymi i przesyłania zadań do przetwarzania. W zależności od typu używanego klastra usługi HDInsight zostanie udostępniony co najmniej jeden jądro do interpretowania i uruchamiania kodu. Na przykład klastry Spark w usłudze HDInsight udostępniają jądra związane z platformą Spark, z których można wybrać opcję , aby wykonać kod w języku Python lub Scala przy użyciu aparatu Spark.
Notesy Jupyter zapewniają doskonałe środowisko do analizowania, wizualizowania i przetwarzania danych przed utworzeniem bardziej zaawansowanych wizualizacji za pomocą narzędzia do analizy biznesowej/raportowania, takiego jak usługa Power BI.
Notesy Zeppelin
Notesy Zeppelin są inną opcją dla powłoki opartej na przeglądarce, podobnie jak aplikacja Jupyter w funkcji. Niektóre klastry usługi HDInsight są wstępnie skonfigurowane za pomocą notesów Zeppelin. Jeśli jednak używasz klastra usługi HDInsight Interactive Query (Hive LLAP), firma Zeppelin jest obecnie jedynym wyborem notesu, którego można użyć do uruchamiania interakcyjnych zapytań Hive. Ponadto w przypadku korzystania z przyłączonego do domeny klastra usługi HDInsight notesy Zeppelin są jedynym typem, który umożliwia przypisywanie różnych identyfikatorów logowania użytkownika w celu kontrolowania dostępu do notesów i bazowych tabel programu Hive.
Notesy Jupyter w programie VS Code
VS Code to bezpłatna platforma edytora kodu i programowania, której można używać lokalnie lub połączonych ze zdalnymi obliczeniami. W połączeniu z rozszerzeniem Jupyter oferuje pełne środowisko programowania jupyter, które można ulepszyć za pomocą dodatkowych rozszerzeń językowych. Jeśli potrzebujesz najlepszego w swojej klasie, bezpłatnego środowiska Jupyter z możliwością wykorzystania wybranej mocy obliczeniowej, jest to świetna opcja. Za pomocą programu VS Code można opracowywać i uruchamiać notesy dla zdalnego i kontenerów. Aby ułatwić przejście z usługi Azure Notebooks, udostępniliśmy obraz kontenera, aby mógł on być również używany z programem VS Code.
Jupyter (dawniej IPython Notebook) to projekt typu open source, który umożliwia łatwe łączenie tekstu markdown i wykonywalnego kodu źródłowego języka Python na jednej kanwie nazywanej notesem. Visual Studio Code obsługuje natywną pracę z notesami Jupyter Notebook oraz za pomocą plików kodu języka Python.
Kluczowe kryteria wyboru
Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:
Czy musisz nawiązać połączenie z wieloma źródłami danych, zapewniając scentralizowane miejsce do tworzenia raportów dla danych rozmieszczonych w całej domenie? Jeśli tak, wybierz opcję, która umożliwia nawiązanie połączenia z 100 źródłami danych.
Czy chcesz osadzić dynamiczne wizualizacje w zewnętrznej witrynie internetowej lub aplikacji? Jeśli tak, wybierz opcję, która zapewnia możliwości osadzania.
Czy chcesz zaprojektować wizualizacje i raporty w trybie offline? Jeśli tak, wybierz opcję z funkcjami trybu offline.
Czy potrzebujesz dużej mocy obliczeniowej, aby wytrenować duże lub złożone modele sztucznej inteligencji albo pracować z bardzo dużymi zestawami danych? Jeśli tak, wybierz opcję, która może łączyć się z klastrem danych big data.
Macierz możliwości
W poniższych tabelach podsumowano kluczowe różnice w możliwościach.
Ogólne możliwości
Możliwość | Power BI | Notesy programu Jupyter | Notesy Zeppelin | Notesy Jupyter w programie VS Code |
---|---|---|---|---|
Nawiązywanie połączenia z klastrem danych big data w celu zaawansowanego przetwarzania | Tak | Tak | Tak | Nie |
Usługa zarządzana | Tak | Tak 1 | Tak 1 | Tak |
Nawiązywanie połączenia z 100 źródłami danych | Tak | Nie | Nie | Nie |
Możliwości w trybie offline | Tak 2 | Nie | Nie | Nie |
Możliwości osadzania | Tak | Nie | Nie | Nie |
Automatyczne odświeżanie danych | Tak | Nie | Nie | Nie |
Dostęp do wielu pakietów open source | Nie | Tak 3 | Tak 3 | Tak 4 |
Opcje przekształcania/czyszczenia danych | Power Query, R | 40 języków, w tym Python, R, Julia i Scala | 20+ interpreterów, w tym Python, JDBC i R | Python, F#, R |
Cennik | Bezpłatna dla Power BI Desktop (tworzenie), zobacz cennik opcji hostingu | Bezpłatna | Bezpłatna | Bezpłatna |
Współpraca z wieloma użytkownikami | Tak | Tak (za pośrednictwem udostępniania lub korzystania z serwera z wieloma użytkownikami, takiego jak JupyterHub) | Tak | Tak (za pośrednictwem udostępniania) |
[1] W przypadku użycia w ramach zarządzanego klastra usługi HDInsight.
[2] Korzystanie z Power BI Desktop.
[2] Repozytorium Maven można przeszukiwać pod kątem pakietów współtwonych przez społeczność.
[3] Pakiety języka Python można instalować przy użyciu narzędzia pip lub conda. Pakiety języka R można zainstalować z usługi CRAN lub GitHub. Pakiety w języku F# można instalować za pośrednictwem nuget.org przy użyciu menedżera zależności Paket.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Został pierwotnie napisany przez następujących współautorów.
Główny autor:
- Zoiner Tejada | Dyrektor generalny i architekt
Następne kroki
- Wprowadzenie do notesów Jupyter dla języka Python
- Notesy
- Uruchamianie notesów usługi Azure Databricks przy użyciu usługi Azure Data Factory
- Uruchamianie notesów Jupyter w obszarze roboczym
- Co to jest usługa Power BI?