Jak utworzyć definicję zadania platformy Apache Spark w sieci szkieletowej

Z tego samouczka dowiesz się, jak utworzyć definicję zadania platformy Spark w usłudze Microsoft Fabric.

Ważne

Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.

Wymagania wstępne

Do rozpoczęcia pracy potrzebne są następujące wymagania wstępne:

Porada

Aby uruchomić element definicji zadania platformy Spark, wymagany jest plik definicji głównej i domyślny kontekst lakehouse. Jeśli nie masz magazynu lakehouse, możesz go utworzyć, wykonując kroki opisane w temacie Tworzenie magazynu lakehouse.

Tworzenie definicji zadania platformy Spark

Proces tworzenia definicji zadania platformy Spark jest szybki i prosty i można rozpocząć pracę na kilka sposobów.

Opcje tworzenia definicji zadania platformy Spark

Istnieje kilka sposobów rozpoczynania pracy z procesem tworzenia:

  • Strona główna inżynierii danych: możesz łatwo utworzyć definicję zadania platformy Spark za pomocą karty definicji zadania platformy Spark w sekcji Nowy na stronie głównej.

Zrzut ekranu przedstawiający miejsce wybierania karty definicji zadania platformy Spark.

  • Widok obszaru roboczego: możesz również utworzyć definicję zadania platformy Spark za pomocą widoku Obszar roboczy, gdy korzystasz z Inżynieria danych środowiska, korzystając z listy rozwijanej Nowy.

Zrzut ekranu przedstawiający miejsce wybierania definicji zadania platformy Spark w menu Nowy.

  • Utwórz centrum: inny punkt wejścia umożliwiający utworzenie definicji zadania platformy Spark znajduje się na stronie Tworzenie centrum w obszarze Inżynieria danych.

Zrzut ekranu przedstawiający miejsce wybierania definicji zadania platformy Spark w centrum tworzenia.

Do utworzenia definicji zadania platformy Spark jest wymagana nazwa. Nazwa musi być unikatowa w bieżącym obszarze roboczym. Nowo utworzona definicja zadania platformy Spark zostanie utworzona w bieżącym obszarze roboczym, w którym jesteś.

Tworzenie definicji zadania platformy Spark dla platformy PySpark (Python)

Aby utworzyć definicję zadania platformy Spark dla platformy PySpark, wykonaj następujące kroki:

  1. Utwórz nową definicję zadania platformy Spark.

  2. Wybierz pozycję PySpark (Python) z listy rozwijanej Język .

  3. Przekaż plik definicji głównej jako plik py . Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark. Dla każdej definicji zadania platformy Spark można przekazać tylko jeden główny plik definicji.

    Oprócz przekazywania z pulpitu lokalnego można również przekazać z istniejących Azure Data Lake Storage Gen2, podając pełną ścieżkę abfss pliku. Na przykład ścieżka abfss://your-storage-account-name.dfs.core.windows.net/your-file.

  4. Przekaż pliki referencyjne jako plik py . Pliki referencyjne to moduły języka Python importowane przez główny plik definicji. Podobnie jak przekazywanie głównego pliku definicji, można również przekazać z istniejących Azure Data Lake Storage Gen2, podając pełną ścieżkę abfss pliku. Obsługiwane jest wiele plików referencyjnych.

Porada

Jeśli używana jest ścieżka usługi ADLS-gen2, aby upewnić się, że plik jest dostępny, konto użytkownika używane do uruchamiania zadania powinno mieć przypisane odpowiednie uprawnienia do konta magazynu. Istnieją dwa sugerowane sposoby wykonania tej czynności:

  • Przypisz konto użytkownika jako rolę Współautor do konta magazynu.
  • Udzielanie uprawnień do odczytu i wykonywania dla konta użytkownika w pliku za pośrednictwem listy Azure Data Lake Storage Gen2 Access Control (ACL)

W przypadku ręcznego uruchamiania konto bieżącego użytkownika logowania będzie używane do uruchamiania zadania

  1. W razie potrzeby podaj argumenty wiersza polecenia do zadania. Użyj spacji jako rozdzielającej, aby oddzielić argumenty.

  2. Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania. Obsługiwane są odwołania do wielu magazynów lakehouse. W przypadku usługi Lakehouse innej niż domyślna można znaleźć jej nazwę i pełny adres URL usługi OneLake na stronie Ustawienia platformy Spark.

    Zrzut ekranu przedstawiający przykład wypełnionej głównej osłony plików definicji.

W tym przykładzie wykonaliśmy następujące czynności:

  • Utworzono definicję zadania platformy Spark o nazwie CSVToDelta dla PySpark
  • Przekazano plik createTablefromCSV.py jako główny plik definicji
  • Dodano odwołania lakehouse LH001 i LH002 do zadania
  • Ustawienie LH001 jako domyślnego kontekstu lakehouse

Tworzenie definicji zadania platformy Spark dla języka Scala/Java

Aby utworzyć definicję zadania platformy Spark dla języka Scala/Java, wykonaj następujące kroki:

  1. Wybierz pozycję Spark(Scala/Java) z listy rozwijanej Język .

  2. Przekaż główny plik definicji jako plik jar. Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark. Podaj nazwę klasy Main.

  3. Przekaż pliki referencyjne jako plik jar. Pliki referencyjne są plikami, do których odwołuje się plik definicji głównej lub do którego się odwołujesz.

  4. Udostępnia argumenty wiersza polecenia do zadania w razie potrzeby.

  5. Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.

Tworzenie definicji zadania platformy Spark dla języka R

Aby utworzyć definicję zadania platformy Spark dla platformy SparkR(R), wykonaj następujące kroki:

  1. Wybierz pozycję SparkR(R) z listy rozwijanej Język .

  2. Przekaż główny plik definicji jako . Plik języka R. Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark.

  3. Przekaż pliki referencyjne jako . Plik języka R. Pliki referencyjne są plikami, do których odwołuje się plik definicji głównej lub do którego się odwołujesz.

  4. Udostępnia argumenty wiersza polecenia do zadania w razie potrzeby.

  5. Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.

Uwaga

Definicja zadania platformy Spark zostanie utworzona w bieżącym obszarze roboczym, w którym się znajdują.

Opcje dostosowywania definicji zadania platformy Spark

Istnieje kilka opcji umożliwiających dalsze dostosowywanie wykonywania definicji zadania platformy Spark

  • Spark Compute: na karcie Spark Compute można zobaczyć wersję środowiska uruchomieniowego, która jest wersją platformy Spark, która będzie używana do uruchamiania zadania. Można również wyświetlić ustawienia konfiguracji platformy Spark, które będą używane do uruchamiania zadania. Ustawienia konfiguracji platformy Spark można dostosować, klikając przycisk Dodaj .

Zrzut ekranu przedstawiający miejsce edytowania konfiguracji platformy Spark.

  • Optymalizacja: na karcie Optymalizacja można włączyć i skonfigurować zasady ponawiania dla zadania. Po włączeniu tego zadania zostanie ponowione, jeśli zakończy się niepowodzeniem. Można również ustawić maksymalną liczbę ponownych prób i interwał między kolejnymi próbami. Dla każdej próby ponawiania zadanie zostanie uruchomione ponownie, upewnij się, że zadanie jest idempotentne.

Zrzut ekranu przedstawiający miejsce konfigurowania zasad ponawiania prób.

Następne kroki