Azure Databricks란?

Azure Databricks는 엔터프라이즈급 데이터, 분석 및 AI 솔루션을 대규모로 빌드, 배포, 공유 및 기본 위한 통합된 개방형 분석 플랫폼입니다. Databricks Data Intelligence 플랫폼은 클라우드 계정의 클라우드 스토리지 및 보안과 통합되고 사용자를 대신하여 클라우드 인프라를 관리하고 배포합니다.

데이터 인텔리전스 플랫폼은 어떻게 작동하나요?

Azure Databricks는 데이터 레이크하우스와 함께 생성 AI를 사용하여 데이터의 고유한 의미 체계를 이해합니다. 그런 다음, 성능을 자동으로 최적화하고 비즈니스 요구 사항에 맞게 인프라를 관리합니다.

자연어 처리는 비즈니스의 언어를 학습하므로 사용자 고유의 단어로 질문을 하여 데이터를 검색하고 검색할 수 있습니다. 자연어 지원을 사용하면 코드를 작성하고, 오류를 해결하고, 설명서에서 답변을 찾을 수 있습니다.

마지막으로, 데이터 및 AI 애플리케이션은 강력한 거버넌스 및 보안에 의존할 수 있습니다. 데이터 개인 정보 보호 및 IP 제어를 손상시키지 않고 OpenAI와 같은 API를 통합할 수 있습니다.

Azure Databricks는 어디에 사용되나요?

Azure Databricks는 데이터 원본을 하나의 플랫폼에 연결하여 BI에서 생성된 AI에 이르는 솔루션으로 데이터 세트를 처리, 저장, 공유, 분석, 모델링 및 수익을 창출하는 데 도움이 되는 도구를 제공합니다.

Azure Databricks 작업 영역은 다음을 비롯한 대부분의 데이터 작업에 대한 통합 인터페이스 및 도구를 제공합니다.

  • 데이터 처리 예약 및 관리, 특히 ETL
  • 대시보드 및 시각화 생성
  • 보안, 거버넌스, 고가용성 및 재해 복구 관리
  • 데이터 검색, 주석 및 탐색
  • ML(기계 학습) 모델링, 추적 및 모델 서비스
  • 생성 AI 솔루션

오픈 소스와 관리형 통합

Databricks는 오픈 소스 커뮤니티에 많은 노력을 기울이고 있습니다. Databricks는 Databricks Runtime 릴리스의 오픈 소스 통합 업데이트를 관리합니다. 다음 기술은 원래 Databricks 직원이 만든 오픈 소스 프로젝트입니다.

도구 및 프로그래밍 방식 액세스

Azure Databricks는 다음과 같이 최적화된 성능과 사용 편의성을 추가하기 위해 이러한 기술을 통합하고 확장하는 여러 독점적 도구를 유지 관리합니다.

작업 영역 UI 외에도 다음 도구를 사용하여 프로그래밍 방식으로 Azure Databricks와 상호 작용할 수 있습니다.

  • REST API
  • CLI
  • Terraform

Azure Databricks는 Azure에서 어떻게 작동하나요?

Azure Databricks 플랫폼 아키텍처는 다음 두 가지 주요 부분으로 구성됩니다.

  • Azure Databricks에서 플랫폼 및 서비스를 배포, 구성 및 관리하는 데 사용하는 인프라입니다.
  • Azure Databricks 및 회사에서 공동으로 관리하는 고객 소유 인프라입니다.

많은 엔터프라이즈 데이터 회사와 달리 Azure Databricks는 플랫폼을 사용하기 위해 데이터를 독점 스토리지 시스템으로 마이그레이션하도록 강제하지 않습니다. 대신 Azure Databricks 플랫폼과 클라우드 계정 간에 보안 통합을 구성하여 Azure Databricks 작업 영역을 구성한 다음, Azure Databricks는 계정의 클라우드 리소스를 사용하여 컴퓨팅 클러스터를 배포하여 사용자가 제어하는 개체 스토리지 및 기타 통합 서비스에 데이터를 처리하고 저장합니다.

Unity 카탈로그는 이 관계를 더욱 확장하므로, Azure Databricks 내에서 친숙한 SQL 구문을 사용하여 데이터에 액세스할 수 있는 권한을 관리할 수 있습니다.

Azure Databricks 작업 영역은 세계에서 가장 크고 보안이 가장 많은 일부 회사의 보안 및 네트워킹 요구 사항을 충족합니다. Azure Databricks를 사용하면 새 사용자가 플랫폼에서 쉽게 시작할 수 있습니다. 사용자 지정을 제한하고 경험 있는 데이터, 운영 및 보안 팀에 필요한 제어를 제한하지 않고 클라우드 인프라 작업의 많은 부담과 문제를 제거합니다.

Azure Databricks의 일반적인 사용 사례는 무엇인가요?

Azure Databricks의 사용 사례는 플랫폼에서 처리되는 데이터 및 작업의 핵심 부분으로 데이터를 사용하는 직원의 많은 가상 사용자만큼 다양합니다. 다음 사용 사례는 조직 전체의 사용자가 Azure Databricks를 활용하여 중요한 비즈니스 기능 및 의사 결정을 이끄는 데이터를 처리, 저장 및 분석하는 데 필수적인 작업을 수행하는 방법을 집중적으로 조명합니다.

엔터프라이즈 데이터 레이크하우스 빌드

데이터 레이크하우스는 엔터프라이즈 데이터 웨어하우스와 데이터 레이크의 장점을 결합하여 엔터프라이즈 데이터 솔루션을 가속화, 단순화 및 통합합니다. 데이터 엔지니어, 데이터 과학자, 분석가 및 프로덕션 시스템은 모두 데이터 레이크하우스를 단일 정보 원본으로 사용하여 일관된 데이터에 적시에 액세스할 수 있도록 하고 많은 분산 데이터 시스템을 빌드, 기본, 동기화하는 복잡성을 줄일 수 있습니다. 데이터 레이크하우스란?을 참조하세요.

ETL 및 데이터 엔지니어링

대시보드를 생성하든 AI 애플리케이션을 구동하든, 데이터 엔지니어링은 데이터를 사용 가능하고 깔끔하게 만들며 효율적으로 검색하고 사용할 수 있는 데이터 모델에 저장함으로써 데이터 중심 회사를 위한 백본을 제공합니다. Azure Databricks는 Apache Spark의 강력한 기능을 Delta Lake 및 사용자 지정 도구와 결합하여 타의 추종을 불허하는 ETL(추출, 변환, 로드) 환경을 제공합니다. SQL, Python 및 Scala를 사용하여 ETL 논리를 작성한 후 클릭 몇 번으로 예약된 작업 배포를 오케스트레이션할 수 있습니다.

Delta Live Tables는 데이터 세트 간의 종속성을 지능적으로 관리하고 프로덕션 인프라를 자동으로 배포 및 스케일링하여 사양에 따라 데이터를 적시에 정확하게 전달함으로써 ETL을 더욱 간소화합니다.

Azure Databricks는 클라우드 개체 스토리지 및 데이터 레이크의 데이터를 데이터 레이크로 점진적으로, 멱등적으로 로드하는 효율적이고 확장 가능한 도구인 자동 로더를 포함하여 데이터 수집을 위한 다양한 사용자 지정 도구를 제공합니다.

기계 학습, AI 및 데이터 과학

Azure Databricks 기계 학습은 MLflow 및 Machine Learning용 Databricks 런타임을 포함하여 데이터 과학자 및 ML 엔지니어의 요구에 맞는 도구 모음을 사용하여 플랫폼의 핵심 기능을 확장합니다.

대규모 언어 모델 및 생성 AI

Machine Learning용 Databricks Runtime에는 미리 학습된 기존 모델 또는 기타 오픈 소스 라이브러리를 워크플로에 통합할 수 있는 Hugging Face Transformers와 같은 라이브러리가 포함되어 있습니다. Databricks MLflow 통합을 사용하면 변환기 파이프라인, 모델 및 처리 구성 요소와 함께 MLflow 추적 서비스를 쉽게 사용할 수 있습니다. 또한 Databricks 워크플로에서 John Snow Labs와 같은 파트너의 OpenAI 모델 또는 솔루션을 통합할 수 있습니다.

Azure Databricks를 사용하면 특정 작업에 대한 데이터에 대한 LLM을 사용자 지정할 수 있습니다. Hugging Face 및 DeepSpeed와 같은 오픈 소스 도구를 지원하여 효율적으로 기초 LLM을 사용하고 사용자 고유의 데이터로 학습을 시작하여 사용자의 작업기본 및 워크로드에 대한 정확도를 높일 수 있습니다.

또한 Azure Databricks는 SQL 데이터 분석가가 데이터 파이프라인 및 워크플로 내에서 직접 OpenAI를 비롯한 LLM 모델에 액세스하는 데 사용할 수 있는 AI 함수를 제공합니다. Azure Databricks의 AI 함수를 참조 하세요.

데이터 웨어하우징, 분석 및 BI

Azure Databricks는 사용자 친화적인 UI를 비용 효율적인 컴퓨팅 리소스 및 무한히 확장 가능하고 저렴한 스토리지와 결합하여 분석 쿼리를 실행할 수 있는 강력한 플랫폼을 제공합니다. 관리자가 확장 가능한 컴퓨팅 클러스터를 SQL 웨어하우스로 구성하면 최종 사용자가 클라우드에서 작업의 복잡성을 걱정하지 않고 쿼리를 실행할 수 있습니다. SQL 사용자는 SQL 쿼리 편집기 또는 Notebook을 사용하여 레이크하우스의 데이터를 쿼리할 수 있습니다. Notebook은 SQL 외에도 Python, R 및 Scala를 지원하며, 사용자가 markdown으로 작성된 링크, 이미지 및 설명과 함께 레거시 대시보드에서 사용할 수 있는 동일한 시각화를 포함할 수 있습니다.

데이터 거버넌스 및 보안 데이터 공유

Unity 카탈로그는 데이터 레이크하우스를 위한 통합 데이터 거버넌스 모델을 제공합니다. 클라우드 관리자는 Unity 카탈로그에 대한 대략적인 액세스 제어 권한을 구성하고 통합합니다. 그 후 Azure Databricks 관리자는 팀과 개인의 권한을 관리할 수 있습니다. 권한은 사용자에게 친숙한 UI 또는 SQL 구문을 통해 ACL(액세스 제어 목록)로 관리되므로, 데이터베이스 관리자가 클라우드 네이티브 IAM(ID 및 액세스 관리) 및 네트워킹을 스케일링할 필요 없이 데이터 액세스를 보다 쉽게 보호할 수 있습니다.

Unity 카탈로그를 사용하면 클라우드에서 보안 분석을 간단하게 실행할 수 있으며, 책임을 분담하여 플랫폼 관리자와 최종 사용자 모두에게 필요한 재숙련 또는 업스킬링을 제한할 수 있습니다. Unity 카탈로그란?을 참조하세요.

레이크하우스를 사용하면 테이블 또는 보기에 대한 쿼리 액세스 권한을 부여하는 간단한 방법으로 조직 내에서 데이터를 공유할 수 있습니다. 보안 환경 외부에서 공유할 수 있도록 Unity 카탈로그는 관리형 버전의 Delta Sharing을 제공합니다.

DevOps, CI/CD 및 작업 오케스트레이션

ETL 파이프라인, ML 모델 및 분석 대시보드는 각각 개발 수명 주기에 따라 고유한 과제가 있습니다. Azure Databricks를 사용하면 모든 사용자가 단일 데이터 원본을 활용할 수 있으므로 중복 작업 및 비동기 보고가 줄어듭니다. 또한 코드 및 프로덕션 리소스의 버전 관리, 자동화, 예약, 배포를 위한 일반적인 도구 모음을 제공하므로 모니터링, 오케스트레이션 및 작업 오버헤드를 간소화할 수 있습니다. 워크플로는 Azure Databricks Notebook, SQL 쿼리 및 기타 임의 코드를 예약합니다. Git 폴더를 사용하면 Azure Databricks 프로젝트를 인기 있는 여러 Git 공급자와 동기화할 수 있습니다. 도구에 대한 전체 개요는 개발자 도구 및 지침을 참조하세요.

실시간 및 스트리밍 분석

Azure Databricks는 Apache Spark 구조적 스트리밍을 활용하여 스트리밍 데이터 및 증분 데이터 변경을 수행합니다. 구조적 스트리밍은 Delta Lake와 긴밀하게 통합되며, 이러한 기술은 Delta Live Tables와 자동 로더의 기반을 제공합니다. Azure Databricks에서 스트리밍을 참조 하세요.