HDInsight란?

완료됨

현재 데이터가 생성되는 엄청난 볼륨, 다양성 및 속도로 인해 생성되는 반정형 및 비정형 데이터에서 효과적이고 효율적으로 작동할 수 있는 시스템을 사용해야 합니다. 기존 RDBMS(관계형 데이터베이스 관리 시스템)에서 “빅 데이터”를 처리, 저장 및 분석하는 시도가 이루어졌습니다. 그러나 이 시스템은 혁신을 이룬 OSS(오픈 소스 소프트웨어)의 환경이었습니다. OSS는 단일 서버에 적용되는 한도를 초과하여 데이터 및 분석을 확장하도록 소프트웨어와 결합된 분산 방식으로 상용 하드웨어를 사용합니다.

OSS는 조직과 개인 모두가 자유롭게 사용할 수 있습니다. 이전의 OSS는 거버넌스 및 지원이 부족했기 때문에 일부 기업에서 채택하기 어려웠습니다. 클라우드의 출현으로 많은 클라우드 공급자가 이 서비스를 호스트하고 OSS 기술을 활용하는 조직에 대한 관리형 지원을 제공합니다. 이 제안은 관리 및 지원 비용을 들이지 않고 OSS의 이점을 얻을 수 있는 조직에 적합합니다. 빅 데이터 공간에서 OSS를 확인하는 것이 일반적입니다. 이 공간에는 데이터를 처리하고 저장할 뿐만 아니라 분석을 수행하기 위한 많은 기술이 있습니다. OSS 분석을 사용하면 단일 클라우드 공급업체에 연결되지 않은 다중 클라우드, 개방형 애플리케이션 전략이 가능해집니다. 온-프레미스에서 클라우드로 또는 서로 다른 클라우드 공급업체 간에 솔루션을 이동해야 하는지 여부에 상관없이 이동성을 제공합니다.

빅 데이터 솔루션에서 사용되는 핵심 OSS 분석 기술 중 하나는 Hadoop입니다. 일반적으로 HDFS(Hadoop Distributed File System)에 데이터를 저장하며 MapReduce라는 프로그래밍 모델을 사용하여 상용 컴퓨터 클러스터를 사용합니다. 이 프로그래밍 모델을 사용하면 선형 데이터 흐름에서 많은 데이터 세트를 분산 처리할 수 있습니다. 성능 향상을 위해 Apache Spark는 Hadoop의 아키텍처 기능을 기반으로 빌드되지만 MapReduce 패러다임을 RDD(Resilient Distributed Dataset)로 바꿉니다. RDD는 훨씬 더 빠른 메모리 내 데이터 엔진을 제공합니다.

OSS 분석은 Hadoop 및 Spark를 사용하는 빅 데이터 솔루션의 기존 애플리케이션을 벗어났다는 것을 기억해야 합니다. 이제 OSS 분석은 다음을 비롯한 다양한 소프트웨어를 통합합니다.

  • 스트리밍 시나리오에 대한 Kafka 및 Flink
  • SQL 추상화 레이어로서 Presto 및 Kylin
  • H20.ai 및 Dataiku와 함께 추가된 AI 레이어

Azure HDInsight는 엔터프라이즈용 클라우드의 관리형 전체 스펙트럼 오픈 소스 분석 서비스입니다. Microsoft에서 OSS 분석은 Azure HDInsight 내에서 구현됩니다. Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka 등과 같은 오픈 소스 프레임워크를 사용할 수 있습니다. 또한 Azure에서 호스트되는 서비스에서 기대할 수 있는 엔터프라이즈 수준 보안, 모니터링 기능 및 고가용성 옵션의 이점을 얻을 수 있습니다. Azure HDInsight는 다양한 고객 시나리오를 처리할 수 있도록 확장하고 사용자 지정할 수 있습니다.