Azure HDInsight에서 Apache Spark 및 Kafka를 사용하여 고급 스트리밍 데이터 변환 수행

중급
데이터 엔지니어
데이터 과학자
Azure HDInsight

이 모듈에서는 Apache Kafka 및 Apache Spark와 함께 Azure HDInsight를 사용하여 클라우드에서 실시간 스트리밍 데이터 분석 파이프라인 및 애플리케이션을 만드는 방법에 대해 설명합니다.

학습 목표

이 모듈을 마치면 다음을 알게 됩니다.

  • Apache Spark 및 Kafka를 HDInsight와 함께 사용해야 하는 경우.
  • Spark 구조적 스트리밍
  • Kafka 및 Spark 솔루션의 아키텍처.
  • HDInsight를 프로비전하고, Kafka 생산자를 만들고, Kafka 데이터를 Jupyter Notebook으로 스트리밍하는 방법.
  • 보조 클러스터에 데이터를 복제하는 방법.

사전 요구 사항

다음 필수 조건을 충족해야 합니다.

  • Azure Portal에 성공적으로 로그인합니다.
  • Azure Storage 옵션을 이해합니다.
  • Azure 컴퓨팅 옵션을 이해합니다.
  • Azure Portal에서 HDInsight 클러스터를 만들고 구성합니다.