Apache Spark 지침

이 문서에서는 Azure HDInsight에서 Apache Spark를 사용하기 위한 다양한 지침을 제공합니다.

Spark 작업을 실행하거나 제출하는 방법은 무엇인가요?

옵션 문서
VSCode Visual Studio Code용 Spark & Hive Tools 사용
Jupyter 노트북 자습서: Azure HDInsight의 Apache Spark 클러스터에서 데이터 로드 및 쿼리 실행
IntelliJ 자습서: Azure Toolkit for IntelliJ를 사용하여 HDInsight 클러스터용 Apache Spark 애플리케이션 만들기
IntelliJ 자습서: IntelliJ를 사용하여 HDInsight의 Apache Spark에 대한 Scala Maven 애플리케이션 만들기
Zeppelin Notebooks Azure HDInsight에서 Apache Spark 클러스터와 함께 Apache Zeppelin Notebook 사용
Livy를 사용하여 원격 작업 제출 Apache Spark REST API를 사용하여 HDInsight Spark 클러스터에 원격 작업 제출
Apache Oozie Oozie는 Hadoop 작업을 관리하는 워크플로 및 코디네이션 시스템입니다.
Apache Livy Livy를 사용하여 대화형 Spark 셸을 실행하거나 Spark에서 실행되도록 배치 작업을 제출할 수 있습니다.
Apache Spark에 대한 Azure Data Factory Data Factory 파이프라인에서의 Spark 작업은 사용자 고유 또는 주문형 HDInsight 클러스터에서 Spark 프로그램을 실행합니다.
Apache Hive에 대한 Azure Data Factory Data Factory 파이프라인의 HDInsight Hive 작업은 사용자 고유 또는 주문형 HDInsight 클러스터의 Hive 쿼리를 실행합니다.

Spark 작업을 모니터링 및 디버그하는 방법은 무엇인가요?

옵션 문서
Azure Toolkit for IntelliJ Azure Toolkit for IntelliJ로 실패 스파크 작업 디버깅(미리 보기)
SSH를 통한 Azure Toolkit for IntelliJ Azure Toolkit for IntelliJ를 사용하여 SSH를 통해 HDInsight 클러스터에서 로컬 또는 원격으로 Apache Spark 애플리케이션 디버그
VPN을 통한 Azure Toolkit for IntelliJ Azure Toolkit for IntelliJ를 사용하여 VPN을 통해 HDInsight에서 원격으로 Apache Spark 애플리케이션 디버그
Apache Spark 기록 서버의 작업 그래프 확장된 Apache Spark 기록 서버를 사용하여 Apache Spark 애플리케이션 디버그 및 진단

Spark 작업을 보다 효율적으로 실행하는 방법은 무엇인가요?

옵션 문서
IO 캐시 Azure HDInsight IO 캐시를 사용하여 Apache Spark 워크로드의 성능 개선(미리 보기)
구성 옵션 Apache Spark 작업 최적화

기타 Azure 서비스에 어떻게 연결하나요?

옵션 문서
HDInsight의 Apache Hive Hive Warehouse 커넥터를 사용하여 Apache Spark 및 Apache Hive 통합
HDInsight의 Apache HBase Apache Spark를 사용하여 Apache HBase 데이터 읽기 및 쓰기
HDInsight의 Apache Kafka 자습서: HDInsight에서 Apache Kafka의 Apache Spark 구조적 스트림 사용
Azure Cosmos DB Microsoft Azure Cosmos DB용 Azure Synapse Link

내 스토리지 옵션은 무엇인가요?

옵션 문서
Azure Data Lake Storage Gen2 Azure HDInsight 클러스터에 Azure Data Lake Storage Gen2 사용
Azure Data Lake Storage Gen1 Azure HDInsight 클러스터와 함께 Azure Data Lake Storage Gen1 사용
Azure Blob Storage Azure HDInsight 클러스터에서 Azure Storage 사용

다음 단계