Azure에서 데이터 분석 및 보고 기술 선택

대부분의 빅 데이터 솔루션의 목표는 분석 및 보고를 통해 데이터에 대한 정보를 제공하는 것입니다. 여기에는 미리 구성된 보고서 및 시각화나 대화형 데이터 탐색이 포함될 수 있습니다.

데이터 분석 기술을 선택할 때 사용할 수 있는 옵션은 무엇인가요?

Azure에서는 사용자의 요구에 따라 분석, 시각화 및 보고에 대한 여러 옵션을 사용할 수 있습니다.

Power BI

Power BI는 비즈니스 분석 도구 제품군입니다. 이 제품군은 수백 개의 데이터 원본에 연결될 수 있으며 임시 분석에 사용될 수 있습니다. 현재 사용 가능한 데이터 원본에 대해서는 이 목록을 참조하세요. Power BI Embedded를 사용하여 추가 라이선스 없이도 애플리케이션 내에 Power BI를 통합할 수 있습니다.

조직에서는 Power BI를 사용하여 보고서를 생성하고 조직에 게시할 수 있습니다. 모든 사용자는 거버넌스 및 기본 제공된 보안을 사용하여 개인별 대시보드를 만들 수 있습니다. Power BI는 Microsoft Entra ID를 사용하여 Power BI 서비스 로그인하는 사용자를 인증하고 사용자가 인증이 필요한 리소스에 액세스하려고 할 때마다 Power BI 로그인 자격 증명을 사용합니다.

Jupyter Notebook

Jupyter 노트는 데이터 과학자가 Python, Scala 또는 R 코드와 Markdown 텍스트를 포함하는 노트 파일을 만들어 코드 및 결과를 공유하고 단일 문서로 문서화함으로써 효과적으로 공동 작업하는 방법을 제공할 수 있도록 하는 브라우저 기반 셸을 제공합니다.

Spark 및 Hadoop과 같은 HDInsight 클러스터의 변형 대부분은 데이터로 상호 작용하고 처리를 위해 작업을 제출하기 위한 Jupyter 노트로 미리 구성되어 있습니다. 사용 하는 HDInsight 클러스터의 유형에 따라, 코드 해석 및 실행을 위해 하나 이상의 커널이 제공됩니다. 예를 들어, HDInsight의 Spark 클러스터는 Spark 엔진을 사용하여 Python 또는 Scala 코드를 실행하기 위해 선택할 수 있는 Spark 관련 커널을 제공합니다.

Jupyter 노트는 Power BI와 같은 BI/보고 도구로 보다 수준 높은 시각화를 구축하기 전에 데이터를 분석, 시각화 및 처리하기 위한 훌륭한 환경을 제공합니다.

Zeppelin 노트

Zeppelin 노트는 기능면에서 Jupyter와 유사한 브라우저 기반 셸을 위한 또 다른 옵션입니다. 일부 HDInsight 클러스터는 Zeppelin 노트로 미리 구성되어 있습니다. 그러나 현재, HDInsight 대화형 쿼리(Hive LLAP) 클러스터를 사용하는 경우 대화형 Hive 쿼리를 실행하는 데 사용할 수 있는 유일한 노트는 Zeppelin 뿐입니다. 또한 도메인에 가입된 HDInsight 클러스터를 사용하는 경우 노트 및 기본 Hive 테이블에 대한 액세스를 제어하기 위해 다른 사용자 로그인을 할당할 수 있는 유일한 유형이 Zeppelin 노트입니다.

VS Code의 Jupyter Notebook

VS Code는 로컬로 사용하거나 원격 컴퓨팅에 연결할 수 있는 무료 코드 편집기 및 개발 플랫폼입니다. Jupyter 확장과 결합되어 추가 언어 확장으로 향상될 수 있는 Jupyter 개발을 위한 전체 환경을 제공합니다. 선택한 컴퓨팅을 활용하는 기능을 갖춘 동급 최고의 무료 Jupyter 환경을 원하는 경우 이 옵션을 사용하는 것이 좋습니다. VS Code를 사용하여 원격 및 컨테이너에 대해 Notebook을 개발하고 실행할 수 있습니다. Azure Notebooks에서 더 쉽게 전환할 수 있도록 VS Code와 함께 사용할 수 있도록 컨테이너 이미지를 사용할 수 있도록 했습니다.

Jupyter(이전의 IPython Notebook)는 Notebook이라는 하나의 캔버스에서 Markdown 텍스트와 실행 가능한 Python 소스 코드를 쉽게 결합할 수 있는 오픈 소스 프로젝트입니다. Visual Studio Code는 기본적으로 Jupyter Notebook과 Python 코드 파일을 통한 작업을 지원합니다.

주요 선택 조건

선택 옵션의 범위를 좁히려면 먼저 다음 질문에 답변합니다.

  • 다양한 데이터 원본에 연결하여 도메인 전체에 분산되어 있는 데이터에 대한 보고서를 만들 수 있는 중앙 위치를 제공해야 하나요? 그렇다면 수백 개의 데이터 원본에 연결할 수 있는 옵션을 선택합니다.

  • 외부 웹 사이트 또는 애플리케이션에 동적 시각화를 포함하려고 하나요? 그렇다면 포함 기능을 제공하는 옵션을 선택합니다.

  • 오프라인 상태에서 시각화 및 보고서를 디자인하려고 하나요? 그렇다면 오프라인 기능이 있는 옵션을 선택합니다.

  • 크거나 복잡한 AI 모델을 학습하거나 매우 큰 데이터 집합으로 작업하기 위해 높은 처리 능력이 필요한가요? 그렇다면 빅 데이터 클러스터에 연결할 수 있는 옵션을 선택합니다.

기능 매트릭스

다음 표에서는 주요 기능 차이점을 요약해서 보여 줍니다.

일반 기능

기능 Power BI Jupyter Notebook Zeppelin 노트 VS Code의 Jupyter Notebook
고급 처리를 위해 빅 데이터 클러스터에 연결
관리되는 서비스 1 1
수백 개의 데이터 원본에 연결 없음 없음
오프라인 기능 2 아니요 없음
포함 기능 없음 없음
자동 데이터 새로 고침 없음 없음
다양한 오픈 소스 패키지에 액세스 아니요 3 3 4
데이터 변환/정리 옵션 파워 쿼리, R 40개 언어(Python, R, Julia 및 Scala 포함) 20개 이상의 인터프리터(Python, JDBC 및 R 포함) Python, F#, R
가격 책정 무료 Power BI Desktop(제작)에 대해서는 호스팅 옵션에 대한 가격 책정을 참조하세요. 무료 무료 무료
다중 사용자 협업 예(공유를 통해 또는 JupyterHub와 같은 다중 사용자 서버를 사용하여) 예(공유를 통해)

[1] 관리되는 HDInsight 클러스터의 일부로 사용되는 경우

[2] Power BI Desktop을 사용하여

[2] Maven 리포지토리에서 커뮤니티 제공 패키지를 검색할 수 있습니다.

[3] Python 패키지를 pip 또는 conda를 사용하여 설치할 수 있습니다. R 패키지는 CRAN 또는 GitHub에서 설치할 수 있습니다. F#의 패키지는 Paket 종속성 관리자를 사용하여 nuget.org를 통해 설치할 수 있습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계