Jak utworzyć definicję zadania platformy Apache Spark w sieci szkieletowej
Z tego samouczka dowiesz się, jak utworzyć definicję zadania platformy Spark w usłudze Microsoft Fabric.
Ważne
Usługa Microsoft Fabric jest dostępna w wersji zapoznawczej.
Wymagania wstępne
Do rozpoczęcia pracy potrzebne są następujące wymagania wstępne:
- Konto dzierżawy usługi Microsoft Fabric z aktywną subskrypcją. Utwórz bezpłatne konto.
Porada
Aby uruchomić element definicji zadania platformy Spark, wymagany jest plik definicji głównej i domyślny kontekst lakehouse. Jeśli nie masz magazynu lakehouse, możesz go utworzyć, wykonując kroki opisane w temacie Tworzenie magazynu lakehouse.
Tworzenie definicji zadania platformy Spark
Proces tworzenia definicji zadania platformy Spark jest szybki i prosty i można rozpocząć pracę na kilka sposobów.
Opcje tworzenia definicji zadania platformy Spark
Istnieje kilka sposobów rozpoczynania pracy z procesem tworzenia:
- Strona główna inżynierii danych: możesz łatwo utworzyć definicję zadania platformy Spark za pomocą karty definicji zadania platformy Spark w sekcji Nowy na stronie głównej.
- Widok obszaru roboczego: możesz również utworzyć definicję zadania platformy Spark za pomocą widoku Obszar roboczy, gdy korzystasz z Inżynieria danych środowiska, korzystając z listy rozwijanej Nowy.
- Utwórz centrum: inny punkt wejścia umożliwiający utworzenie definicji zadania platformy Spark znajduje się na stronie Tworzenie centrum w obszarze Inżynieria danych.
Do utworzenia definicji zadania platformy Spark jest wymagana nazwa. Nazwa musi być unikatowa w bieżącym obszarze roboczym. Nowo utworzona definicja zadania platformy Spark zostanie utworzona w bieżącym obszarze roboczym, w którym jesteś.
Tworzenie definicji zadania platformy Spark dla platformy PySpark (Python)
Aby utworzyć definicję zadania platformy Spark dla platformy PySpark, wykonaj następujące kroki:
Utwórz nową definicję zadania platformy Spark.
Wybierz pozycję PySpark (Python) z listy rozwijanej Język .
Przekaż plik definicji głównej jako plik py . Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark. Dla każdej definicji zadania platformy Spark można przekazać tylko jeden główny plik definicji.
Oprócz przekazywania z pulpitu lokalnego można również przekazać z istniejących Azure Data Lake Storage Gen2, podając pełną ścieżkę abfss pliku. Na przykład ścieżka abfss://your-storage-account-name.dfs.core.windows.net/your-file.
Przekaż pliki referencyjne jako plik py . Pliki referencyjne to moduły języka Python importowane przez główny plik definicji. Podobnie jak przekazywanie głównego pliku definicji, można również przekazać z istniejących Azure Data Lake Storage Gen2, podając pełną ścieżkę abfss pliku. Obsługiwane jest wiele plików referencyjnych.
Porada
Jeśli używana jest ścieżka usługi ADLS-gen2, aby upewnić się, że plik jest dostępny, konto użytkownika używane do uruchamiania zadania powinno mieć przypisane odpowiednie uprawnienia do konta magazynu. Istnieją dwa sugerowane sposoby wykonania tej czynności:
- Przypisz konto użytkownika jako rolę Współautor do konta magazynu.
- Udzielanie uprawnień do odczytu i wykonywania dla konta użytkownika w pliku za pośrednictwem listy Azure Data Lake Storage Gen2 Access Control (ACL)
W przypadku ręcznego uruchamiania konto bieżącego użytkownika logowania będzie używane do uruchamiania zadania
W razie potrzeby podaj argumenty wiersza polecenia do zadania. Użyj spacji jako rozdzielającej, aby oddzielić argumenty.
Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania. Obsługiwane są odwołania do wielu magazynów lakehouse. W przypadku usługi Lakehouse innej niż domyślna można znaleźć jej nazwę i pełny adres URL usługi OneLake na stronie Ustawienia platformy Spark.
W tym przykładzie wykonaliśmy następujące czynności:
- Utworzono definicję zadania platformy Spark o nazwie CSVToDelta dla PySpark
- Przekazano plik createTablefromCSV.py jako główny plik definicji
- Dodano odwołania lakehouse LH001 i LH002 do zadania
- Ustawienie LH001 jako domyślnego kontekstu lakehouse
Tworzenie definicji zadania platformy Spark dla języka Scala/Java
Aby utworzyć definicję zadania platformy Spark dla języka Scala/Java, wykonaj następujące kroki:
Wybierz pozycję Spark(Scala/Java) z listy rozwijanej Język .
Przekaż główny plik definicji jako plik jar. Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark. Podaj nazwę klasy Main.
Przekaż pliki referencyjne jako plik jar. Pliki referencyjne są plikami, do których odwołuje się plik definicji głównej lub do którego się odwołujesz.
Udostępnia argumenty wiersza polecenia do zadania w razie potrzeby.
Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.
Tworzenie definicji zadania platformy Spark dla języka R
Aby utworzyć definicję zadania platformy Spark dla platformy SparkR(R), wykonaj następujące kroki:
Wybierz pozycję SparkR(R) z listy rozwijanej Język .
Przekaż główny plik definicji jako . Plik języka R. Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania. Główny plik definicji jest obowiązkowy do uruchamiania zadania platformy Spark.
Przekaż pliki referencyjne jako . Plik języka R. Pliki referencyjne są plikami, do których odwołuje się plik definicji głównej lub do którego się odwołujesz.
Udostępnia argumenty wiersza polecenia do zadania w razie potrzeby.
Dodaj odwołanie do magazynu lakehouse do zadania. Do zadania musi zostać dodane co najmniej jedno odwołanie lakehouse. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.
Uwaga
Definicja zadania platformy Spark zostanie utworzona w bieżącym obszarze roboczym, w którym się znajdują.
Opcje dostosowywania definicji zadania platformy Spark
Istnieje kilka opcji umożliwiających dalsze dostosowywanie wykonywania definicji zadania platformy Spark
- Spark Compute: na karcie Spark Compute można zobaczyć wersję środowiska uruchomieniowego, która jest wersją platformy Spark, która będzie używana do uruchamiania zadania. Można również wyświetlić ustawienia konfiguracji platformy Spark, które będą używane do uruchamiania zadania. Ustawienia konfiguracji platformy Spark można dostosować, klikając przycisk Dodaj .
- Optymalizacja: na karcie Optymalizacja można włączyć i skonfigurować zasady ponawiania dla zadania. Po włączeniu tego zadania zostanie ponowione, jeśli zakończy się niepowodzeniem. Można również ustawić maksymalną liczbę ponownych prób i interwał między kolejnymi próbami. Dla każdej próby ponawiania zadanie zostanie uruchomione ponownie, upewnij się, że zadanie jest idempotentne.
Następne kroki
Opinia
Prześlij i wyświetl opinię dla