Apache Spark 작업 정의란?

Apache Spark 작업 정의는 일괄 처리/스트리밍 작업을 Spark 클러스터에 제출할 수 있는 Microsoft Fabric 코드 항목입니다. 여러 언어의 컴파일 출력(예: Java의 .jar)에서 이진 파일을 업로드하면 레이크하우스에 호스트된 데이터에 다른 변환 논리를 적용할 수 있습니다. 이진 파일 외에도 더 많은 라이브러리 및 명령줄 인수를 업로드하여 작업의 동작을 추가로 사용자 지정할 수 있습니다.

Spark 작업 정의를 실행하려면 연결된 레이크하우스가 하나 이상 있어야 합니다. 이 기본 레이크하우스 컨텍스트는 Spark 런타임의 기본 파일 시스템 역할을 합니다. 데이터를 읽고 쓰는 상대 경로를 사용하는 Spark 코드의 경우 데이터는 기본 레이크하우스에서 제공됩니다.

Spark 작업 정의 항목을 실행하려면 기본 정의 파일과 기본 lakehouse 컨텍스트가 있어야 합니다. 레이크하우스가 없는 경우 레이크하우스 만들기의 단계에 따라 레이크하우스를 만듭니다.