이 문서는 온-프레미스 Apache Hadoop 에코 시스템 배포를 Azure HDInsight로 마이그레이션하는 모범 사례에 대한 시리즈의 첫 번째 문서입니다. 이 문서 시리즈는 Azure HDInsight에서 Apache Hadoop 솔루션을 설계, 배포 및 마이그레이션하는 책임을 맡고 있는 사람들을 위해 작성되었습니다. 이 문서가 도움이 될만한 역할로는 클라우드 설계자, Hadoop 관리자 및 DevOps 엔지니어가 포함됩니다. 소프트웨어 개발자, 데이터 엔지니어 및 데이터 과학자 또한 여러 종류의 클러스터가 클라우드에서 작동하는 방식에 대한 설명을 읽어보면 도움이 될 것입니다.
Azure HDInsight로 마이그레이션하는 이유
Azure HDInsight는 Hadoop 구성 요소의 클라우드 배포입니다. Azure HDInsight는 대량 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있도록 합니다. HDInsight는 다음과 같은 가장 인기 있는 오픈 소스 프레임워크를 포함하고 있습니다.
Apache Hadoop
Apache Spark
Apache Hive with LLAP
Apache Kafka
Apache HBase
온-프레미스 Hadoop에 비해 Azure HDInsight의 이점
저렴한 비용 - 주문형 클러스터를 만들고 사용한 만큼만 지불하여 비용을 줄일 수 있습니다. 컴퓨팅과 스토리지가 분리되어 클러스터 크기에 관계없이 데이터 볼륨이 유지되므로 유연성이 우수합니다.
클러스터 만들기 자동화 - 클러스터 만들기를 자동화하려면 최소한의 설치 및 구성이 필요합니다. 주문형 클러스터에 자동화를 사용할 수 있습니다.
관리 하드웨어 및 구성 - HDInsight 클러스터를 사용하면 물리적 하드웨어 또는 인프라에 대해 걱정할 필요가 없습니다. 클러스터 구성만 지정하면 Azure가 알아서 설정합니다.
쉬운 확장 가능 - HDInsight를 사용하면 워크로드를 확장 또는 축소할 수 있습니다. Azure는 데이터 처리 작업을 중단하지 않고 데이터 재배포 및 워크로드 리밸런싱을 처리합니다.
글로벌 가용성 - HDInsight는 그 어떤 빅 데이터 분석 제품보다 많은 지역에서 사용할 수 있습니다. Azure HDInsight는 주요 통치 지역에서 엔터프라이즈 요구 사항을 충족할 수 있도록 Azure Government, 중국 및 독일에서도 사용할 수 있습니다.
보안 및 규정 준수 - HDInsight를 사용하면 Azure 가상 네트워크, 암호화 및 Microsoft Entra와의 통합을 통해 엔터프라이즈 데이터 자산을 보호할 수 있습니다. HDInsight는 가장 널리 사용되는 업계 및 정부 규격 표준을 충족합니다.
버전 관리 간소화 - Azure HDInsight는 Hadoop 에코 시스템 구성 요소의 버전을 관리하고 최신 상태로 유지합니다. 소프트웨어 업데이트는 일반적으로 온-프레미스 배포를 위한 복잡한 프로세스입니다.
구성 요소 간 종속성이 적고 특정 워크로드에 최적화된 더 작아진 클러스터 - 일반적인 온-프레미스 Hadoop 설치 시 다목적 단일 클러스터를 사용합니다. Azure HDInsight를 사용하면 워크로드 관련 클러스터를 만들 수 있습니다. 특정 워크로드에 대한 클러스터를 만들면 복잡성이 점점 증가하는 단일 클러스터를 유지할 필요가 없습니다.
생산성 - 원하는 개발 환경에서 다양한 Hadoop 및 Spark용 도구를 사용할 수 있습니다.
사용자 지정 도구 또는 타사 애플리케이션을 통한 확장성 - HDInsight 클러스터는 설치된 구성 요소를 통해 확장 가능하며, Azure 마켓플레이스에서 원클릭배포를 사용하여 다른 빅 데이터 솔루션과 통합할 수도 있습니다.
쉬운 관리 및 모니터링 - Azure HDInsight는 Azure Monitor 로그 와 통합하여 모든 클러스터를 모니터링할 수 있는 단일 인터페이스를 제공합니다.
다른 Azure 서비스와 통합 - HDInsight는 다음과 같은 인기 Azure 서비스와 쉽게 통합할 수 있습니다.
ADF(Azure Data Factory)
Azure Blob Storage
Azure Data Lake Storage Gen2
Azure Cosmos DB
Azure SQL Database
Azure Analysis Services
자동 복구 프로세스 및 구성 요소 - HDInsight는 자체 모니터링 인프라를 사용하여 지속적으로 인프라 및 오픈 소스 구성 요소를 확인합니다. 또한 오픈 소스 구성 요소 및 노드를 사용할 수 없는 경우처럼 중요한 오류를 자동으로 복구합니다. OSS 구성 요소에 장애가 발생하면 Ambari에서 경고가 트리거됩니다.
Azure HPC는 최고의 애플리케이션 성능, 스케일링 기능 및 가치를 제공하기 위해 최첨단 프로세서와 HPC급 InfiniBand 상호 연결을 사용하는 HPC 및 AI 워크로드용으로 특화된 클라우드 기능입니다. 사용자는 Azure HPC를 사용하여 비즈니스 및 기술 요구 사항이 달라질 때 동적으로 할당될 수 있는 고가용성의 HPC 및 AI 기술을 통해 뛰어난 혁신, 생산성 및 비즈니스 민첩성을 얻을 수 있습니다. 이 학습 경로는 Azure HPC에서 시작하는 데 도움이 되는 모듈 시리즈입니다. 가장 관심 있는 토픽을 선택하거나 하나씩 진행할 수 있습니다.