Co to jest definicja zadania platformy Apache Spark?

Definicja zadania platformy Apache Spark to element kodu usługi Microsoft Fabric, który umożliwia przesyłanie zadań wsadowych/przesyłanych strumieniowo do klastrów Spark. Przekazując pliki binarne z danych wyjściowych kompilacji różnych języków (na przykład plik jar z języka Java), można zastosować inną logikę przekształcania do danych hostowanych w usłudze Lakehouse. Oprócz pliku binarnego można dodatkowo dostosować zachowanie zadania, przekazując więcej bibliotek i argumentów wiersza polecenia.

Aby uruchomić definicję zadania platformy Spark, musisz skojarzyć z nią co najmniej jedną usługę lakehouse. Ten domyślny kontekst lakehouse służy jako domyślny system plików dla środowiska uruchomieniowego platformy Spark. W przypadku dowolnego kodu platformy Spark używającego ścieżki względnej do odczytu/zapisu danych dane są obsługiwane z domyślnej bazy danych lakehouse.

Napiwek

Aby uruchomić element definicji zadania platformy Spark, musisz mieć plik definicji głównej i domyślny kontekst usługi Lakehouse. Jeśli nie masz magazynu lakehouse, utwórz go, wykonując kroki opisane w temacie Create a lakehouse (Tworzenie jeziora).