Apache Spark 작업 정의란?
Apache Spark 작업 정의는 일괄 처리/스트리밍 작업을 Spark 클러스터에 제출할 수 있는 Microsoft Fabric 코드 항목입니다. 여러 언어의 컴파일 출력(예: Java의 .jar)에서 이진 파일을 업로드하면 레이크하우스에 호스트된 데이터에 다른 변환 논리를 적용할 수 있습니다. 이진 파일 외에도 더 많은 라이브러리 및 명령줄 인수를 업로드하여 작업의 동작을 추가로 사용자 지정할 수 있습니다.
Spark 작업 정의를 실행하려면 연결된 레이크하우스가 하나 이상 있어야 합니다. 이 기본 레이크하우스 컨텍스트는 Spark 런타임의 기본 파일 시스템 역할을 합니다. 데이터를 읽고 쓰는 상대 경로를 사용하는 Spark 코드의 경우 데이터는 기본 레이크하우스에서 제공됩니다.
팁
Spark 작업 정의 항목을 실행하려면 기본 정의 파일과 기본 lakehouse 컨텍스트가 있어야 합니다. 레이크하우스가 없는 경우 레이크하우스 만들기의 단계에 따라 레이크하우스를 만듭니다.