온-프레미스 Apache Hadoop 클러스터를 Azure HDInsight로 마이그레이션 - 동기 부여 및 혜택

이 문서는 온-프레미스 Apache Hadoop 에코 시스템 배포를 Azure HDInsight로 마이그레이션하는 모범 사례에 대한 시리즈의 첫 번째 문서입니다. 이 문서 시리즈는 Azure HDInsight에서 Apache Hadoop 솔루션을 설계, 배포 및 마이그레이션하는 책임을 맡고 있는 사람들을 위해 작성되었습니다. 이 문서가 도움이 될만한 역할로는 클라우드 설계자, Hadoop 관리자 및 DevOps 엔지니어가 포함됩니다. 소프트웨어 개발자, 데이터 엔지니어 및 데이터 과학자 또한 여러 종류의 클러스터가 클라우드에서 작동하는 방식에 대한 설명을 읽어보면 도움이 될 것입니다.

Azure HDInsight로 마이그레이션하는 이유

Azure HDInsight는 Hadoop 구성 요소의 클라우드 배포입니다. Azure HDInsight는 대량 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있도록 합니다. HDInsight는 다음과 같은 가장 인기 있는 오픈 소스 프레임워크를 포함하고 있습니다.

  • Apache Hadoop
  • Apache Spark
  • Apache Hive with LLAP
  • Apache Kafka
  • Apache HBase

온-프레미스 Hadoop에 비해 Azure HDInsight의 이점

  • 저렴한 비용 - 주문형 클러스터를 만들고 사용한 만큼만 지불하여 비용을 줄일 수 있습니다. 컴퓨팅과 스토리지가 분리되어 클러스터 크기에 관계없이 데이터 볼륨이 유지되므로 유연성이 우수합니다.

  • 클러스터 만들기 자동화 - 클러스터 만들기를 자동화하려면 최소한의 설치 및 구성이 필요합니다. 주문형 클러스터에 자동화를 사용할 수 있습니다.

  • 관리 하드웨어 및 구성 - HDInsight 클러스터를 사용하면 물리적 하드웨어 또는 인프라에 대해 걱정할 필요가 없습니다. 클러스터 구성만 지정하면 Azure가 알아서 설정합니다.

  • 쉬운 확장 가능 - HDInsight를 사용하면 워크로드를 확장 또는 축소할 수 있습니다. Azure는 데이터 처리 작업을 중단하지 않고 데이터 재배포 및 워크로드 리밸런싱을 처리합니다.

  • 글로벌 가용성 - HDInsight는 그 어떤 빅 데이터 분석 제품보다 많은 지역에서 사용할 수 있습니다. Azure HDInsight는 주요 통치 지역에서 엔터프라이즈 요구 사항을 충족할 수 있도록 Azure Government, 중국 및 독일에서도 사용할 수 있습니다.

  • 보안 및 규정 준수 - HDInsight를 사용하면 Azure 가상 네트워크, 암호화Microsoft Entra와의 통합을 통해 엔터프라이즈 데이터 자산을 보호할 수 있습니다. HDInsight는 가장 널리 사용되는 업계 및 정부 규격 표준을 충족합니다.

  • 버전 관리 간소화 - Azure HDInsight는 Hadoop 에코 시스템 구성 요소의 버전을 관리하고 최신 상태로 유지합니다. 소프트웨어 업데이트는 일반적으로 온-프레미스 배포를 위한 복잡한 프로세스입니다.

  • 구성 요소 간 종속성이 적고 특정 워크로드에 최적화된 더 작아진 클러스터 - 일반적인 온-프레미스 Hadoop 설치 시 다목적 단일 클러스터를 사용합니다. Azure HDInsight를 사용하면 워크로드 관련 클러스터를 만들 수 있습니다. 특정 워크로드에 대한 클러스터를 만들면 복잡성이 점점 증가하는 단일 클러스터를 유지할 필요가 없습니다.

  • 생산성 - 원하는 개발 환경에서 다양한 Hadoop 및 Spark용 도구를 사용할 수 있습니다.

  • 사용자 지정 도구 또는 타사 애플리케이션을 통한 확장성 - HDInsight 클러스터는 설치된 구성 요소를 통해 확장 가능하며, Azure 마켓플레이스에서 원클릭배포를 사용하여 다른 빅 데이터 솔루션과 통합할 수도 있습니다.

  • 쉬운 관리 및 모니터링 - Azure HDInsight는 Azure Monitor 로그 와 통합하여 모든 클러스터를 모니터링할 수 있는 단일 인터페이스를 제공합니다.

  • 다른 Azure 서비스와 통합 - HDInsight는 다음과 같은 인기 Azure 서비스와 쉽게 통합할 수 있습니다.

    • ADF(Azure Data Factory)
    • Azure Blob Storage
    • Azure Data Lake Storage Gen2
    • Azure Cosmos DB
    • Azure SQL Database
    • Azure Analysis Services
  • 자동 복구 프로세스 및 구성 요소 - HDInsight는 자체 모니터링 인프라를 사용하여 지속적으로 인프라 및 오픈 소스 구성 요소를 확인합니다. 또한 오픈 소스 구성 요소 및 노드를 사용할 수 없는 경우처럼 중요한 오류를 자동으로 복구합니다. OSS 구성 요소에 장애가 발생하면 Ambari에서 경고가 트리거됩니다.

자세한 내용은 Azure HDInsight 및 Apache Hadoop 기술 스택이란? 문서를 참조하세요.

마이그레이션 계획 프로세스

온-프레미스 Hadoop 클러스터를 Azure HDInsight로 마이그레이션하는 계획을 세울 때에는 다음 단계를 따르는 것이 좋습니다.

  1. 현재 온-프레미스 배포 및 토폴로지를 이해합니다.
  2. 현재 프로젝트 범위, 타임라인 및 팀 전문 분야를 이해합니다.
  3. Azure 요구 사항을 이해합니다.
  4. 모범 사례를 기반으로 세부 계획을 작성합니다.

마이그레이션을 준비하기 위한 세부 정보 수집

이 섹션에서는 다음에 대한 중요한 정보를 수집하는 데 도움이 되는 템플릿 설문지를 제공합니다.

  • 온-프레미스 배포
  • 프로젝트 세부 정보
  • Azure 요구 사항

온-프레미스 배포 설문지

질문 예제 대답
토픽: 환경
클러스터 배포 버전 HDP 2.6.5, CDH 5.7
빅 데이터 에코시스템 구성 요소 HDFS, Yarn, Hive, LLAP, Impala, Kudu, HBase, Spark, MapReduce, Kafka, Zookeeper, Solr, Sqoop, Oozie, Ranger, Atlas, Falcon, Zeppelin, R
클러스터 유형 Hadoop, Spark, Confluent Kafka, Solr
클러스터 수 4
마스터 노드 수 2
작업자 노드의 수 100
에지 노드 수 5
총 디스크 공간 100TB
마스터 노드 구성 m/y, cpu, 디스크 등
데이터 노드 구성 m/y, cpu, 디스크 등
에지 노드 구성 m/y, cpu, 디스크 등
HDFS 암호화를 사용합니까?
고가용성 HDFS HA, Metastore HA
재해 복구/백업 백업 클러스터 지원 여부
클러스터에 종속된 시스템 SQL Server, Teradata, Power BI, MongoDB
타사 통합 Tableau, GridGain, Qubole, Informatica, Splunk
토픽: 보안
경계 보안 방화벽
클러스터 인증 및 권한 부여 Active Directory, Ambari, Cloudera Manager, 인증 없음
HDFS 액세스 제어 수동, ssh 사용자
Hive 인증 및 권한 부여 Sentry, LDAP, AD with Kerberos, Ranger
감사 Ambari, Cloudera Navigator, Ranger
모니터링 Graphite, collectd, statsd, Telegraf, InfluxDB
경고 Kapacitor, Prometheus, Datadog
데이터 보존 기간 3년, 5년
클러스터 관리자 단일 관리자, 다중 관리자

프로젝트 세부 정보 설문지

질문 예제 대답
토픽: 워크로드 및 빈도
MapReduce 작업 10개 작업--하루 2회
Hive 작업 100개 작업--1시간마다
Spark 일괄 작업 50개 작업--15분마다
Spark Streaming 작업 5개 작업--3분마다
Structured Streaming 작업 5개 작업--1분마다
프로그래밍 언어 Python, Scala, Java
스크립팅 셸, Python
토픽: 데이터
데이터 원본 플랫 파일, Json, Kafka, RDBMS
데이터 오케스트레이션 Oozie 워크플로, Airflow
메모리 내 조회 Apache Ignite, Redis
데이터 대상 HDFS, RDBMS, Kafka, MPP
토픽: 메타데이터
Hive DB 형식 Mysql, Postgres
Hive 메타스토어 수 2
Hive 테이블 수 100
Ranger 정책 수 20
Oozie 워크플로 수 100
토픽: 규모
복제를 비롯한 데이터 볼륨 100TB
일일 수집 볼륨 50GB
데이터 증가 속도 연 10%
클러스터 노드 증가 속도 연 5%
토픽: 클러스터 사용률
평균 CPU 사용률(%) 60%
평균 메모리 사용률(%) 75%
디스크 공간 사용률 75%
평균 네트워크 사용률(%) 25%
토픽: 직원
관리자 수 2
개발자 수 10
최종 사용자 수 100
기술 Hadoop, Spark
마이그레이션 작업에 사용 가능한 리소스 수 2
토픽: 제한 사항
현재 제한 사항 대기 시간이 높음
현재 과제 동시성 문제

Azure 요구 사항 설문지

질문 예제 대답
토픽: 인프라
기본 지역 미국 동부
VNet이 기본 설정입니까?
HA/DR이 필요합니까?
다른 클라우드 서비스와의 통합 여부 ADF, Azure Cosmos DB
토픽: 데이터 이동
초기 로드 기본 설정 DistCp, Data box, ADF, WANDisco
데이터 전송 델타 DistCp, AzCopy
지속적인 증분 데이터 전송 DistCp, Sqoop
토픽: 모니터링 및 경고
Azure 모니터링 및 경고 사용과 타사 모니터링 통합 비교 Azure 모니터링 및 경고 사용
토픽: 보안 기본 설정
보호되는 프라이빗 데이터 파이프라인인가요?
도메인 가입 클러스터(ESP)입니까?
온-프레미스 AD가 클라우드와 동기화됩니까?
동기화할 AD 사용자 수가 몇입니까? 100
암호를 클라우드와 동기화해도 괜찮습니까?
클라우드 전용 사용자입니까?
MFA가 필요합니까? 아니요
데이터 권한 부여 요구 사항이 있습니까?
역할 기반 액세스 제어입니까?
감사가 필요합니까?
저장 데이터 암호화를 사용합니까?
전송 중 데이터 암호화를 사용합니까?
토픽: 재설계 기본 설정
단일 클러스터 vs 특정 클러스터 형식 특정 클러스터 형식
공동 배치된 스토리지 Vs 원격 스토리지 원격 스토리지
데이터로 더 작은 클러스터 크기는 원격으로 저장되나요? 더 작은 클러스터 크기
하나의 큰 클러스터 대신 작은 클러스터 여러 개를 사용합니까? 작은 클러스터 여러 개 사용
원격 metastore를 사용합니까?
서로 다른 클러스터 간에 metastore를 공유합니까?
워크로드를 분해합니까? Hive 작업을 Spark 작업으로 대체
데이터 오케스트레이션에 ADF를 사용합니까? 아니요

다음 단계

이 시리즈의 다음 문서를 읽어보세요.