Notebook에서 Spark 사용

완료됨

Python 또는 Scala 스크립트의 코드, JAR(Java 보관 파일)로 컴파일된 Java 코드 등 다양한 종류의 애플리케이션을 Spark에서 실행할 수 있습니다. Spark는 일반적으로 다음과 같은 두 가지 종류의 워크로드에서 사용됩니다.

  • 데이터를 수집, 정리, 변환하기 위한 일괄 처리 또는 스트림 처리 작업으로, 자동화된 파이프라인의 일부로 실행되는 경우가 많습니다.
  • 데이터를 검색, 분석, 시각화하는 대화형 분석 세션입니다.

Notebook에서 Spark 코드 실행

Azure Databricks에는 Spark 작업을 위한 통합 Notebook 인터페이스가 포함되어 있습니다. Notebook은 데이터 과학자 및 데이터 분석가가 일반적으로 사용하는 Markdown 노트와 코드를 결합하는 직관적인 방법을 제공합니다. Azure Databricks 내에 통합된 Notebook 환경의 디자인과 분위기는 널리 사용되는 오픈 소스 Notbook 플랫폼인 Jupyter Notebook과 비슷합니다.

Azure Databricks의 Notebook 스크린샷.

Notebook은 각각 코드 또는 Markdown을 포함하는 하나 이상의 셀로 구성됩니다. Notebook의 코드 셀에는 다음을 포함하여 생산성을 높이는 데 도움이 되는 몇 가지 기능이 있습니다.

  • 구문 강조 표시 및 오류 지원
  • 코드 자동 완성
  • 대화형 데이터 시각화
  • 결과 내보내기 기능

Azure Databricks에서 Notebook을 사용하는 방법에 대한 자세한 내용은 Azure Databricks 설명서의 Notebooks 문서를 참조하세요.