데이터 서비스 식별하기

완료됨

Microsoft Azure는 세계 최대 규모를 자랑하는 여러 조직의 애플리케이션과 IT 인프라를 구동하는 클라우드 플랫폼입니다. Microsoft Azure에는 트랜잭션 데이터 워크로드와 분석 데이터 워크로드를 포함하여 클라우드 솔루션을 지원하는 여러 서비스가 포함되어 있습니다.

아래에서는 데이터용으로 가장 널리 사용되는 클라우드 서비스에 대해 설명합니다.

참고

이 토픽에서는 최신 트랜잭션 솔루션 및 분석 솔루션용으로 가장 널리 사용되는 몇 가지 데이터 서비스만 살펴봅니다. 이 밖에도 여러 서비스가 있습니다.

Azure SQL

Azure SQL logo.Azure SQL은 Microsoft SQL Server 데이터베이스 엔진으로 구동되는 관계형 데이터베이스 솔루션 제품군을 통칭하는 이름입니다. 구체적인 Azure SQL 서비스의 예는 다음과 같습니다.

  • Azure SQL Database – Azure에서 호스트되는 완전 관리형 PaaS(Platform-as-a-Service) 데이터베이스.
  • Azure SQL Managed Instance – 자동 유지 관리 기능을 갖춘 호스트된 SQL Server 인스턴스, Azure SQL DB보다 유연성 있는 구성이 지원되지만 소유자가 더 높은 관리 책임을 갖습니다.
  • Azure SQL VM – SQL Server가 설치된 가상 머신. 가장 유연한 구성이 지원되며, 소유자가 전적인 관리 책임을 갖습니다.

데이터베이스 관리자는 일반적으로 Azure SQL 데이터베이스 시스템을 프로비저닝하고 관리하여 트랜잭션 데이터를 저장해야 하는 사업 부문 애플리케이션을 지원합니다.

데이터 엔지니어는 ETL(추출, 변환, 로드) 작업을 수행하여 트랜잭션 데이터를 분석 시스템으로 수집하는 데이터 파이프라인의 원본으로 Azure SQL 데이터베이스 시스템을 사용할 수 있습니다.

데이터 분석가는 Azure SQL 데이터베이스를 직접 쿼리하여 보고서를 생성할 수 있으나, 대규모 조직에서는 데이터가 보통 분석 데이터 저장소에 있는 다른 원본의 데이터와 결합되어 엔터프라이즈 분석을 지원합니다.

오픈 소스 관계형 데이터베이스를 위한 Azure Database

Azure Database for MariaDB, MySQL, and PostreSQL logos. Azure에는 다음과 같은 널리 사용되는 오픈 소스 관계형 데이터베이스 시스템을 위한 관리형 서비스가 포함되어 있습니다.

  • Azure Database for MySQL - LAMP(Linux, Apache, MySQL, PHP) 스택 앱에서 널리 사용되는 사용이 간편한 오픈 소스 데이터베이스 관리 시스템입니다.

  • Azure Database for MariaDB - MySQL의 개발자들이 만든 새로운 버전의 데이터베이스 관리 시스템입니다. 그 후로 데이터베이스 엔진이 성능 향상을 위해 다시 작성되고 최적화되었습니다. MariaDB는 Oracle Database(다른 인기 있는 상용 데이터베이스 관리 시스템)와의 호환성을 제공합니다.

  • Azure Database for PostgreSQL - 하이브리드 관계형 개체 데이터베이스입니다. 관계형 테이블에 데이터를 저장할 수 있지만, PostgreSQL 데이터베이스를 사용하면 사용자 지정 데이터 형식을 고유한 비관계형 속성과 함께 저장할 수도 있습니다.

오픈 소스 관계형 데이터베이스는 Azure SQL 데이터베이스 시스템과 마찬가지로 데이터베이스 관리자가 트랜잭션 애플리케이션을 지원하기 위한 용도로 관리하며, 데이터 엔지니어가 분석 솔루션의 파이프라인을 빌드하고 데이터 분석가가 보고서를 생성하기 위한 데이터 원본으로 기능합니다.

Azure Cosmos DB

Azure Cosmos DB logo. Azure Cosmos DB는 복수의 API(애플리케이션 프로그래밍 인터페이스)를 지원하는 글로벌 규모의 비관계형(NoSQL) 데이터베이스 시스템으로, JSON 문서, 키-값 쌍, 열 패밀리 및 그래프와 같은 데이터를 저장하고 관리할 수 있습니다.

Cosmos DB 인스턴스는 일부 조직에서 데이터베이스 관리자가 프로비저닝 및 관리할 수 있긴 하나, 많은 경우 소프트웨어 개발자가 전체 애플리케이션 아키텍처의 일환으로 NoSQL 데이터 스토리지를 관리합니다. 데이터 엔지니어는 데이터 분석가에 의한 모델링 및 보고를 지원하는 엔터프라이즈 분석 솔루션에 Cosmos DB 데이터 원본을 통합해야 하는 경우가 많습니다.

Azure Storage

Azure Storage logo. Azure Storage는 다음과 같은 대상에 데이터를 저장할 수 있도록 지원하는 핵심 Azure 서비스입니다.

  • Blob 컨테이너 - 이진 파일을 위한 스케일링 가능하고 비용 효율적인 스토리지.
  • 파일 공유 - 주로 회사 네트워크에서 볼 수 있는 네트워크 파일 공유.
  • 테이블 - 데이터 값을 빠르게 읽고 써야 하는 애플리케이션을 위한 키-값 스토리지.

데이터 과학자는 Azure Storage를 사용하여 데이터 레이크(파일을 분산 파일 시스템의 폴더에 정리할 수 있도록 지원하는, 계층 구조 네임스페이스를 갖는 Blob 스토리지)를 호스트합니다.

Azure Data Factory

Azure Data Factory logo. Azure Data Factory는 데이터 파이프라인을 정의 및 예약하여 데이터를 전송하고 변환할 수 있도록 지원하는 Azure 서비스입니다. 파이프라인을 다른 Azure 서비스와 통합하여 클라우드 데이터 저장소에서 데이터를 수집하고, 클라우드 기반 컴퓨팅을 사용하여 데이터를 처리하고, 결과를 다른 데이터 저장소에 보관할 수 있습니다.

Azure Data Factory는 데이터 엔지니어가 조직의 트랜잭션 시스템에 있는 데이터로 분석 데이터 저장소를 채워 주는 ETL(추출, 변환, 로드) 솔루션을 빌드하는 용도로 사용합니다.

Azure Synapse Analytics

Azure Synapse Analytics logo. Azure Synapse Analytics는 다음을 포함한 여러 분석 기능을 위한 단일 서비스 인터페이스를 제공하는 데이터 분석을 위한 포괄적인 통합 PaaS(Platform-as-a-Service) 솔루션입니다.

  • Pipelines - Azure Data Factory와 동일한 기술을 기반으로 합니다.
  • SQL - 데이터 웨어하우스 워크로드에 최적화되고 스케일링 성능이 뛰어난 SQL 데이터베이스 엔진입니다.
  • Apache Spark - Java, Scala, Python, SQL과 같은 여러 프로그래밍 언어와 API를 지원하는 오픈 소스 분산 데이터 처리 시스템입니다.
  • Azure Synapse 데이터 탐색기 - KQL(Kusto 쿼리 언어)를 사용하여 로그 및 원격 분석 데이터를 실시간으로 쿼리하는 데 최적화된 고성능 데이터 분석 솔루션입니다.

데이터 엔지니어는 Azure Synapse Analytics를 사용하여 단일 서비스를 통해 데이터 수집 파이프라인, 데이터 웨어하우스 스토리지 및 데이터 레이크 스토리지를 결합하는 통합된 데이터 분석 솔루션을 만들 수 있습니다.

데이터 분석가는 대화형 전자 필기장을 통해 SQL 및 Spark 풀을 사용하여 데이터를 검색 및 분석하는 한편, Azure Machine Learning, Microsoft Power BI와 같은 서비스와 통합하여 데이터 모델을 만들고 데이터에서 인사이트를 추출할 수 있습니다.

Azure Databricks

Azure Databricks logo. Azure Databricks는 널리 사용되는 Databricks 플랫폼의 Azure 통합 버전으로, Apache Spark 데이터 처리 플랫폼에 SQL 데이터베이스 의미 체계와 대규모 데이터 분석을 지원하는 통합 관리 인터페이스가 결합되어 있습니다.

데이터 엔지니어는 기존의 Databricks 및 Spark 역량을 사용하여 Azure Databricks 내에 분석 데이터 저장소를 만들 수 있습니다.

데이터 분석가는 Azure Databricks의 네이티브 전자 필기장 지원을 사용하여 쉽게 사용할 수 있는 웹 기반 인터페이스에서 데이터를 쿼리하고 시각화할 수 있습니다.

Azure HDInsight

Azure HDInsight logo. Azure HDInsight는 다음과 같은 널리 사용되는 Apache 오픈 소스 빅 데이터 처리 기술을 위해 Azure에 호스트된 클러스터를 제공하는 Azure 서비스입니다.

  • Apache Spark - Java, Scala, Python, SQL과 같은 여러 프로그래밍 언어와 API를 지원하는 분산 데이터 처리 시스템입니다.
  • Apache Hadoop - MapReduce 작업을 사용하여 여러 클러스터 노드에서 다량의 데이터를 효율적으로 처리하는 분산 시스템입니다. MapReduce 작업은 Java로 작성하거나 Apache Hive(Hadoop에서 실행되는 SQL 기반 API)와 같은 인터페이스에 의해 추상화할 수 있습니다.
  • Apache HBase - 대규모 NoSQL 데이터의 저장 및 쿼리를 위한 오픈 소스 시스템입니다.
  • Apache Kafka - 데이터 스트림 처리를 위한 메시지 브로커입니다.

데이터 엔지니어는 Azure HDInsight를 사용하여 여러 오픈 소스 기술을 사용하는 빅 데이터 분석 워크로드를 지원할 수 있습니다.

Azure Stream Analytics

Azure Stream Analytics logo. Azure Stream Analytics는 입력에서 데이터 스트림을 캡처하고 쿼리를 적용하여 입력 스트림의 데이터를 추출 및 조작한 다음 분석이나 추가 처리를 위해 결과를 출력에 쓰는 실시간 스트림 처리 엔진입니다.

데이터 엔지니어는 Azure Stream Analytics를 분석 데이터 저장소에 수집하거나 실시간으로 시각화하기 위해 스트리밍 데이터를 캡처하는 데이터 분석 아키텍처에 통합할 수 있습니다.

Azure Data Explorer

Azure Data Explorer logo. Azure 데이터 탐색기는 Azure Synapse Analytics의 Azure Synapse 데이터 탐색기 런타임과 동일한 고성능의 로그 및 원격 분석 데이터 쿼리 기능을 제공하는 독립 실행형 서비스입니다.

데이터 분석가는 Azure 데이터 탐색기를 사용하여 주로 로그 파일과 IoT(사물 인터넷) 원격 분석 데이터에서 볼 수 있는 타임스탬프 특성을 포함하는 데이터를 쿼리하고 분석할 수 있습니다.

Microsoft Purview

Azure Purview logo. Microsoft Purview는 엔터프라이즈 전체 데이터 거버넌스 및 검색 가능성을 위한 솔루션을 제공합니다. Microsoft Purview는 여러 데이터 원본 및 시스템에서 데이터 맵을 만들고 데이터 계보를 추적하는 데 사용하여 분석 및 보고에 사용할 신뢰할 수 있는 데이터를 찾을 수 있습니다.

데이터 엔지니어는 Microsoft Purview를 사용하여 엔터프라이즈 전체에서 데이터 거버넌스를 적용하고 분석 워크로드를 지원하는 데 사용되는 데이터의 무결성을 보장할 수 있습니다.

Microsoft Fabric

Microsoft Fabric logo. Microsoft Fabric은 다음을 지원하는 기능을 포함하는 개방형 및 관리형 레이크하우스를 기반으로 하는 통합 SaaS(Software-as-a-Service) 분석 플랫폼입니다.

  • 데이터 수집 및 ETL
  • 데이터 레이크하우스 분석
  • 데이터 웨어하우스 분석
  • 데이터 과학 및 기계 학습
  • 실시간 분석
  • 데이터 시각화
  • 데이터 거버넌스 및 관리