주요 개념 이해

완료됨

Azure Databricks는 대규모로 데이터를 사용할 수 있는 여러 기술의 통합입니다. Azure Databricks를 사용하기 전에 이해해야 할 몇 가지 주요 개념이 있습니다.

Databricks 솔루션의 주요 요소를 보여 주는 다이어그램

  1. Apache Spark 클러스터 - Spark는 클러스터를 사용하여 여러 컴퓨팅 노드 에서 처리를 스케일링하는 분산 데이터 처리 솔루션입니다. 각 Spark 클러스터에는 처리 작업을 조정하는 드라이버 노드와 처리가 수행되는 하나 이상의 작업자 노드가 있습니다. 이 분산 모델을 사용하면 각 노드가 작업의 하위 집합에서 병렬로 작동할 수 있으므로 작업을 완료하는 데 걸리는 전체 시간을 줄입니다. Azure Databricks의 클러스터에 대한 자세한 내용은 Azure Databricks 설명서의 클러스터를 참조하세요.
  2. 데이터 레이크 스토리지 - 각 클러스터 노드에는 고유한 로컬 파일 시스템(운영 체제 및 기타 노드 관련 파일이 저장됨)이 있지만 클러스터의 노드는 공유 분산 파일 시스템에 액세스하여 데이터 파일에 액세스하고 작업할 수도 있습니다. Data Lake라고 알려진 이 공유 데이터 스토리지를 사용하면 Azure Data Lake Storage 또는 Microsoft OneLake 데이터 저장소와 같은 클라우드 스토리지를 탑재하고 이를 사용하여 모든 형식의 파일 기반 데이터를 작업하고 유지할 수 있습니다.
  3. 메타스토어 - Azure Databricks는 메타스토어를 사용하여 파일 기반 데이터에 대한 테이블의 관계형 스키마를 정의합니다. 테이블은 Delta Lake 형식을 기반으로 하며 SQL 구문을 사용하여 쿼리하여 기본 파일의 데이터에 액세스할 수 있습니다. 테이블 정의와 기반이 되는 파일 시스템 위치의 세부 정보는 메타스토어에 저장되어 데이터 파일이 저장된 실제 스토리지에서 분석 및 데이터 처리에 사용할 수 있는 데이터 개체를 추상화합니다. Azure Databricks 메타스토어는 중앙 집중식 데이터 스토리지, 액세스 관리 및 거버넌스를 제공하는 Unity 카탈로그에서 관리됩니다(하지만 Azure Databricks 작업 영역이 구성된 방식에 따라 DBFS(Databricks 파일 시스템) 데이터 레이크에 저장된 데이터 파일과 함께 레거시 Hive 메타스토어를 사용할 수도 있음).
  4. Notebooks - 데이터 분석가, 데이터 과학자, 데이터 엔지니어, 개발자가 Spark를 사용하는 가장 일반적인 방법 중 하나는 Notebook으로 코드를 작성하는 것입니다. Notebook은 Markdown 형식의 텍스트와 그래픽을 Notebook 세션에서 대화형으로 실행하는 코드가 포함된 셀과 결합할 수 있는 대화형 환경을 제공합니다. Notebook에 대한 자세한 내용은 Azure Databricks 설명서의 Notebooks를 참조하세요.
  5. SQL Warehouses - SQL Warehouses는 클라이언트 애플리케이션이 Azure Databricks 작업 영역에 연결하고 SQL을 사용하여 테이블의 데이터로 작업할 수 있도록 하는 엔드포인트가 있는 관계형 컴퓨팅 리소스입니다. SQL 쿼리의 결과를 사용하여 비즈니스 분석 및 의사 결정을 지원하는 데이터 시각화 및 대시보드를 만들 수 있습니다. SQL Warehouses는 프리미엄 계층 Azure Databricks 작업 영역에서만 사용할 수 있습니다. SQL Warehouse에 대한 자세한 내용은 Azure Databricks 설명서의 SQL Warehouses를 참조하세요.