Azure Databricks란?

Azure Databricks는 엔터프라이즈급 데이터, 분석 및 AI 솔루션을 대규모로 빌드, 배포, 공유 및 유지 관리하기 위한 통합된 개방형 분석 플랫폼입니다. Databricks Data Intelligence 플랫폼은 클라우드 계정의 클라우드 스토리지 및 보안과 통합되며, 클라우드 인프라를 관리하고 배포합니다.

Databricks 데이터 인텔리전스 플랫폼

Azure Databricks는 데이터 레이크하우스와 함께 생성 AI를 사용하여 데이터의 고유한 의미 체계를 이해합니다. 그런 다음, 성능을 자동으로 최적화하고 비즈니스 요구 사항에 맞게 인프라를 관리합니다.

자연어 처리는 비즈니스의 언어를 학습하므로 사용자 고유의 단어로 질문을 하여 데이터를 검색하고 검색할 수 있습니다. 자연어 지원을 사용하면 코드를 작성하고, 오류를 해결하고, 설명서에서 답변을 찾을 수 있습니다.

관리되는 오픈 소스 통합

Databricks는 오픈 소스 커뮤니티에 커밋되며 Databricks 런타임 릴리스와의 오픈 소스 통합 업데이트를 관리합니다. 다음 기술은 원래 Databricks 직원이 만든 오픈 소스 프로젝트입니다.

일반적인 사용 사례

다음 사용 사례는 고객이 Azure Databricks를 사용하여 중요한 비즈니스 기능 및 의사 결정을 이끄는 데이터를 처리, 저장 및 분석하는 데 필수적인 작업을 수행하는 몇 가지 방법을 강조 표시합니다.

엔터프라이즈 데이터 레이크하우스 빌드

데이터 레이크하우스는 엔터프라이즈 데이터 웨어하우스와 데이터 레이크를 결합하여 엔터프라이즈 데이터 솔루션을 가속화, 단순화 및 통합합니다. 데이터 엔지니어, 데이터 과학자, 분석가 및 프로덕션 시스템은 모두 데이터 레이크하우스를 단일 정보 원본으로 사용하여 일관된 데이터에 대한 액세스를 제공하고 많은 분산 데이터 시스템을 빌드, 유지 관리 및 동기화하는 복잡성을 줄일 수 있습니다. 데이터 레이크하우스란?을 참조하세요.

ETL 및 데이터 엔지니어링

대시보드를 생성하든, 인공 지능 애플리케이션을 구동하든, 데이터 엔지니어링은 효율적인 검색 및 사용을 위해 데이터를 사용할 수 있고, 정리하고, 데이터 모델에 저장함으로써 데이터 중심 기업의 백본을 제공합니다. Azure Databricks는 Apache Spark 의 기능을 델타 및 사용자 지정 도구와 결합하여 탁월한 ETL 환경을 제공합니다. SQL, Python 및 Scala를 사용하여 ETL 논리를 작성하고 몇 번의 클릭으로 예약된 작업 배포를 오케스트레이션합니다.

Lakeflow Spark 선언적 파이프라인은 데이터 세트 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 크기 조정하여 ETL을 더욱 간소화하여 사양에 시기적절하고 정확한 데이터 배달을 보장합니다.

Azure Databricks는 클라우드 객체 스토리지 및 데이터 레이크에서 데이터 레이크하우스로 데이터를 증분 및 멱등적으로 로드하기 위한 효율적이고 확장 가능한 도구인 자동 로더를 포함하여 데이터 수집을 위한 도구를 제공합니다.

기계 학습, AI 및 데이터 과학

Azure Databricks 기계 학습은 MLflow 및 Machine Learning용 Databricks 런타임을 포함하여 데이터 과학자 및 ML 엔지니어의 요구에 맞는 도구 모음을 사용하여 플랫폼의 핵심 기능을 확장합니다.

대규모 언어 모델 및 생성 AI

Machine Learning용 Databricks Runtime에는 미리 학습된 기존 모델 또는 기타 오픈 소스 라이브러리를 워크플로에 통합할 수 있는 Hugging Face Transformers 와 같은 라이브러리가 포함되어 있습니다. Databricks MLflow 통합을 사용하면 변환기 파이프라인, 모델 및 처리 구성 요소와 함께 MLflow 추적 서비스를 쉽게 사용할 수 있습니다. Databricks 워크플로에서 John Snow Labs와 같은 파트너의 OpenAI 모델 또는 솔루션을 통합합니다.

Azure Databricks를 사용하여 특정 작업에 대한 데이터에 대한 LLM을 사용자 지정합니다. Hugging Face 및 DeepSpeed와 같은 오픈 소스 도구를 지원하여 도메인 및 워크로드에 대한 정확도를 높일 수 있도록 기초 LLM을 효율적으로 사용하고 사용자 고유의 데이터로 학습을 시작할 수 있습니다.

또한 Azure Databricks는 SQL 데이터 분석가가 데이터 파이프라인 및 워크플로 내에서 직접 OpenAI를 비롯한 LLM에 액세스하는 데 사용할 수 있는 AI 함수를 제공합니다. AI Functions를 사용하여 데이터 보강을 참조하세요.

데이터 웨어하우징, 분석 및 BI

Azure Databricks는 사용자 친화적인 UI를 비용 효율적인 컴퓨팅 리소스 및 무한히 확장 가능하고 저렴한 스토리지와 결합하여 분석 쿼리를 실행할 수 있는 강력한 플랫폼을 제공합니다. 관리자가 확장 가능한 컴퓨팅 클러스터를 SQL 웨어하우스로 구성하면 최종 사용자가 클라우드에서 작업의 복잡성을 걱정하지 않고 쿼리를 실행할 수 있습니다. SQL 사용자는 SQL 쿼리 편집기 또는 노트북을 사용하여 레이크하우스의 데이터를 쿼리할 수 있습니다. Notebook은 SQL 외에도 Python, R 및 Scala를 지원하며, 사용자가 markdown으로 작성된 링크, 이미지 및 설명과 함께 대시보드에서 사용할 수 있는 동일한 시각화를 포함할 수 있습니다.

Unity 카탈로그는 데이터 레이크하우스를 위한 통합 데이터 거버넌스 모델을 제공합니다. 클라우드 관리자는 Unity 카탈로그에 대한 대략적인 액세스 제어 권한을 구성하고 통합합니다. 그 후 Azure Databricks 관리자는 팀과 개인의 권한을 관리할 수 있습니다. 권한은 사용자에게 친숙한 UI 또는 SQL 구문을 통해 ACL(액세스 제어 목록)로 관리되므로, 데이터베이스 관리자가 클라우드 네이티브 IAM(ID 및 액세스 관리) 및 네트워킹을 스케일링할 필요 없이 데이터 액세스를 보다 쉽게 보호할 수 있습니다.

Unity 카탈로그를 사용하면 클라우드에서 보안 분석을 간단하게 실행할 수 있으며, 책임을 분담하여 플랫폼 관리자와 최종 사용자 모두에게 필요한 재숙련 또는 업스킬링을 제한할 수 있습니다. Unity 카탈로그란?을 참조하세요.

레이크하우스를 사용하면 테이블 또는 보기에 대한 쿼리 액세스 권한을 부여하는 간단한 방법으로 조직 내에서 데이터를 공유할 수 있습니다. 보안 환경 외부에서 공유할 수 있도록 Unity 카탈로그는 관리형 버전의 Delta Sharing을 제공합니다.

DevOps, CI/CD 및 작업 오케스트레이션

ETL 파이프라인, ML 모델 및 분석 대시보드는 각각 개발 수명 주기에 따라 고유한 과제가 있습니다. Azure Databricks를 사용하면 모든 사용자가 단일 데이터 원본을 활용할 수 있으므로 중복 작업 및 비동기 보고가 줄어듭니다. 또한 코드 및 프로덕션 리소스의 버전 관리, 자동화, 예약, 배포를 위한 일반적인 도구 모음을 제공하므로 모니터링, 오케스트레이션 및 작업 오버헤드를 간소화할 수 있습니다.

작업은 Azure Databricks Notebook, SQL 쿼리 및 다양한 코드를 예약할 수 있습니다. 선언적 자동화 번들을 사용하면 프로그래밍 방식으로 작업 및 파이프라인과 같은 Databricks 리소스를 정의, 배포 및 실행할 수 있습니다. Git 폴더를 사용하면 Azure Databricks 프로젝트를 인기 있는 여러 Git 공급자와 동기화할 수 있습니다.

CI/CD 모범 사례 및 권장 사항은 Databricks의 모범 사례 및 권장 CI/CD 워크플로를 참조하세요. 개발자를 위한 도구에 대한 전체 개요는 Databricks에서 개발을 참조하세요.

실시간 및 스트리밍 분석

Azure Databricks는 Apache Spark 구조적 스트리밍을 활용하여 스트리밍 데이터 및 증분 데이터 변경을 수행합니다. 구조적 스트리밍은 Delta Lake와 긴밀하게 통합되며, 이러한 기술은 Lakeflow Spark 선언적 파이프라인과 자동 로더의 토대를 제공합니다. 구조적 스트리밍 개념을 참조 하세요.

온라인 트랜잭션 처리

Lakebase는 Databricks Data Intelligence Platform과 완전히 통합된 OLTP(온라인 트랜잭션 처리) 데이터베이스입니다. 이 완전 관리형 Postgres 데이터베이스를 사용하면 Azure Databricks 관리형 스토리지에 저장된 OLTP 데이터베이스를 만들고 관리할 수 있습니다. Lakebase 프로비전이란 무엇인가? 참조하세요.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-03-16