Azure의 클라우드 규모 분석을 사용한 수집 프로세스

아티클
07/11/2023

Azure는 데이터를 수집하고 네이티브 및 타사 플랫폼에 릴리스하는 여러 서비스를 제공합니다. 볼륨, 속도, 다양성 및 방향에 따라 다른 서비스를 사용할 수 있습니다. 이러한 서비스 중 일부는 다음과 같습니다.

Azure Data Factory는 모든 데이터 애플리케이션(원본 정렬) 요구 사항과 기술 수준에 맞게 빌드된 서비스입니다. 코드 없이 직관적인 시각적 환경 내에서 고유한 코드를 작성하거나 프로세스를 구성, 추출, 로드 및 변환합니다. 네이티브적으로 빌드되고 유지 관리가 필요 없는 90개 이상의 커넥터를 통해 추가 비용 없이 데이터 원본을 시각적으로 통합할 수 있습니다. 엔지니어는 프라이빗 엔드포인트와 링크 서비스를 사용하여 PaaS 리소스의 공용 엔드포인트를 사용하지 않고도 Azure PaaS(Platform as a Service) 리소스에 안전하게 연결할 수 있습니다. 엔지니어는 통합 런타임을 사용하여 파이프라인을 온-프레미스 데이터 원본 및 기타 클라우드와 같은 타사 환경으로 확장할 수 있습니다.

이러한 커넥터 중 일부는 원본(읽기) 또는 싱크(쓰기)로 사용되는 것을 지원합니다. Azure 네이티브 서비스, Oracle, SAP 및 기타를 원본 또는 싱크로 사용할 수 있지만 모든 커넥터가 이를 지원하는 것은 아닙니다. 이러한 경우 ODBC(Open Database Connectivity), 파일 시스템 또는 SSH SFTP(파일 전송 프로토콜) 커넥터와 같은 일반 커넥터를 사용할 수 있습니다.

Azure Databricks는 빠르고 쉬우며 협업이 가능한 Apache Spark 기반 분석 서비스입니다. 빅 데이터 파이프라인의 경우 Data Factory를 통해 Azure로 데이터(원시 또는 구조화)를 일괄 수집하거나 Apache Kafka, Azure Event Hubs 또는 IoT Hub를 사용하여 거의 실시간으로 스트리밍할 수 있습니다. 이 데이터는 Azure Data Lake Storage의 장기 지속 스토리지를 위해 데이터 레이크에 저장됩니다. Azure Databricks는 워크플로의 일부로 여러 데이터 원본에서 데이터를 읽을 수 있습니다.
Microsoft Power Platform은 이벤트, 일정 또는 푸시 기반일 수 있는 수백 개의 서비스에 대한 커넥터를 제공합니다. Microsoft Power Automate는 이벤트에 대해 조치를 취하고 단일 레코드 또는 작은 데이터 볼륨에 최적화된 워크플로를 트리거할 수 있습니다.

고유한 네이티브 및 타사 도구는 특수 시스템 및 거의 실시간 복제와 통합할 수 있는 틈새 기능을 제공합니다.

Azure Data Share는 조직이 여러 외부 고객 및 파트너와 데이터를 안전하게 공유할 수 있도록 지원합니다. 데이터 공유 계정을 만들고 데이터 제품을 추가하면 고객과 파트너를 데이터 공유에 초대할 수 있습니다. 데이터 공급자는 항상 자신이 공유한 데이터를 제어합니다. Azure Data Share를 사용하면 어떤 데이터가 공유되는지, 언제 공유되었는지, 누가 공유했는지 쉽게 관리하고 모니터링할 수 있습니다.

중요

모든 데이터 랜딩 존에는 데이터 독립적 수집 엔진을 사용하는 비즈니스를 위해 존재하는 메타데이터 수집 리소스 그룹이 있습니다. 이 프레임워크 엔진이 없는 경우 권장되는 유일한 리소스는 Azure Databricks 분석 작업 영역을 배포하는 것입니다. 이 작업 영역은 데이터 통합에서 복잡한 수집을 실행하는 데 사용됩니다. 잠재적인 자동화 패턴은 데이터 독립적 수집 엔진을 참조하세요.

Azure Data Factory에 대한 수집 고려 사항

데이터 독립적 수집 엔진이 있는 경우 수집 및 처리 리소스 그룹의 각 데이터 랜딩 존에 대해 단일 Data Factory를 배포해야 합니다. Data Factory 작업 영역은 사용자에 대해 잠겨 있어야 하며 관리되는 ID 및 서비스 주체만 배포에 액세스할 수 있습니다. 파이프라인 디버깅을 허용하려면 데이터 랜딩 존 작업에 읽기 권한이 있어야 합니다.

데이터 애플리케이션에는 데이터 이동을 위한 자체 Data Factory가 있을 수 있습니다. 각 데이터 애플리케이션 리소스 그룹에 Data Factory가 있으면 Azure DevOps 또는 GitHub에서만 파이프라인을 배포할 수 있도록 허용하여 완전한 CI(연속 통합) 및 CD(지속적인 배포) 환경을 지원합니다.

모든 Data Factory 작업 영역은 대부분 Data Factory의 관리되는 VNet(가상 네트워크) 기능 또는 데이터 관리 랜딩 존 내의 데이터 랜딩 존에 대해 자체 호스팅 통합 런타임을 사용합니다. 엔지니어는 관리되는 VNet 기능을 사용하여 Azure PaaS 리소스에 안전하게 연결하는 것이 좋습니다.

그러나 온-프레미스, 타사 클라우드 및 타사 SaaS(Software-as-a-Service) 데이터 원본에서 수집하기 위해 더 많은 통합 런타임을 만들 수 있습니다.

Azure Databricks에 대한 수집 고려 사항

이 지침은 다음 정보에 대해 자세히 설명합니다.

Azure Databricks에서 Azure Data Lake Storage Gen2에 대한 액세스 보호
Azure Databricks 모범 사례
Azure의 클라우드 규모 분석 내에서 Azure Databricks 사용
개발의 경우 테스트 및 프로덕션 중에 단일 Azure Databricks 작업 영역에 배포할 코드를 체크 인하기 전에 통합 작업에 자체 Azure Databricks 환경이 있어야 합니다.
데이터 애플리케이션(원본 정렬) 리소스 그룹의 Data Factory는 Azure Databricks 작업을 호출하기 위한 프레임워크를 제공해야 합니다.
서비스 주체는 데이터 레이크를 이 작업 영역에 탑재하는 데 도움이 될 수 있습니다. 자세한 내용은 패턴 1 - 서비스 주체를 통한 액세스를 참조하세요.
데이터 애플리케이션 팀은 Azure Databricks에 짧은 자동화 작업을 배포하고 해당 클러스터가 빠르게 시작되고, 작업을 실행하고, 종료될 것으로 예상할 수 있습니다. 클러스터가 작업을 위해 회전하는 데 걸리는 시간을 줄이기 위해 Azure Databricks 풀을 설정하는 것이 좋습니다.
조직에서는 Azure DevOps를 사용하여 새 파이프라인에 대한 배포 프레임워크를 구현하는 것이 좋습니다. 프레임워크는 데이터 세트 폴더를 만들고, 액세스 제어 목록을 할당하고, Databricks 테이블 액세스 제어를 적용하거나 적용하지 않고 테이블을 만드는 데 사용됩니다.

스트림 수집

조직은 게시자가 고속 이벤트 스트림을 생성하는 시나리오를 지원해야 할 수 있습니다. 이 패턴의 경우 이러한 스트림을 수집하기 위해 Event Hubs 또는 IoT Hub와 같은 메시지 큐가 권장됩니다.

Event Hubs 및 IoT Hub는 짧은 대기 시간과 높은 안정성으로 대규모 이벤트 볼륨과 데이터를 수집하고 처리할 수 있는 확장 가능한 이벤트 처리 서비스입니다. Event Hubs는 빅 데이터 스트리밍 및 이벤트 수집 서비스로 설계되었습니다. IoT Hub는 IoT 애플리케이션과 IoT 애플리케이션이 관리하는 디바이스 간의 양방향 통신을 위한 중앙 메시지 허브 역할을 하는 관리되는 서비스입니다. 여기에서 데이터를 정기적인 간격(일괄 처리)으로 데이터 레이크로 내보내고 Apache Spark Streaming, Azure Data Explorer, Stream Analytics 또는 Time Series Insights를 통해 거의 실시간으로 Azure Databricks로 처리할 수 있습니다.

사용 사례의 특정 랜딩 존 내 마지막 Event Hubs 또는 Apache Kafka 랜딩 존은 집계된 데이터를 데이터 랜딩 존 중 하나에 있는 데이터 레이크의 원시 계층과 데이터 랜딩 존에 있는 데이터 애플리케이션(원본 정렬) 리소스 그룹과 관련된 Event Hubs로 보내야 합니다.

수집 모니터링

즉시 사용 가능한 Azure Data Factory 파이프라인 모니터링을 사용하여 Data Factory 파이프라인의 예외를 모니터링하고 문제를 해결할 수 있습니다. 사용자 지정 모니터링 및 보고 솔루션을 개발하는 노력을 줄여줍니다.

기본 제공 모니터링은 Azure Data Factory를 기본 오케스트레이션 도구로 사용하는 주요 이유 중 하나이며 Azure Policy는 이 설정을 자동화하는 데 도움이 될 수 있습니다.

서비스에 데이터 원본 매핑

이 섹션의 지침은 수집 및 처리 서비스를 일반적으로 Azure에서 수집하거나 해제해야 하는 원본에 매핑합니다.

수집 서비스:

ID	메커니즘	참고
A	Data Factory	기본 제공 및 일반(ODBC, SFTP 및 REST) 커넥터
b	Azure Databricks	사용자 지정 코드(JDBC, JAR 등)
C	타사	WANdisco, Qlik 및 Oracle GoldenGate
D	기타	예: 네이티브 기능
E	Microsoft Power Platform 및 Azure Logic Apps	Microsoft Power Automate 커넥터

서비스에 매핑되는 데이터 원본:

공급자	Type	호스트형	범주	참고	전체 부하 수집	증분 로드 수집	실시간 수집	전체 로드 송신	증분 로드 송신	실시간 송신
Oracle	테이블 형식	IaaS	데이터베이스	GoldenGate에서 Azure Data Lake Storage로	A, B	A, B	C	A, B	A, B	C
Microsoft SQL Server	테이블 형식	IaaS	데이터베이스	SAP Landscape Transformation 및 Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
MySQL	테이블 형식	IaaS	데이터베이스	SAP Landscape Transformation 및 Qlik	A, B	A, B	C, D2	A, B	A, B	C, D2
SAP BW/4HANA	테이블 형식	IaaS	데이터베이스	SAP Landscape Transformation 및 Qlik	A, B, C, D	A, B, C, D	C	-	-	-
SAP HANA	테이블 형식	IaaS	데이터베이스	SAP Landscape Transformation 및 Qlik	A, B, C, D	A, B, C, D	C	A, B	A, B	-
Apache Impala	테이블 형식	IaaS	데이터베이스	-	A, B	A, B	-	b	b	-
Microsoft SharePoint	목록	SaaS	레코드 저장소	-	A, E	A, E	E	A, E	A, E	E
REST (영문)	REST (영문)	다양	REST (영문)	XML, JSON, CSV	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E	A, B, E
Microsoft Outlook	Email	SaaS	REST (영문)	XML, JSON, CSV	E	E	E	E	E	E

대상에 따라 Azure Database Migration Service는 Microsoft SQL Server, PostgreSQL, MySQL 또는 Oracle과 같은 온-프레미스 및 타사 데이터베이스에서 Azure 기반 데이터 저장소로 복제할 수 있습니다.

다음 단계

Azure의 클라우드 규모 분석을 사용한 SAP 수집