Przekształcanie danych przez uruchomienie Synapse Notebooku

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Wskazówka

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Działanie notesu usługi Azure Synapse w potoku uruchamia notes usługi Synapse w obszarze roboczym usługi Azure Synapse Analytics. Ten artykuł opiera się na artykule dotyczącym działań przekształcania danych, który zawiera ogólne omówienie transformacji danych i obsługiwanych działań przekształcania.

Działanie notesu usługi Azure Synapse Analytics można utworzyć bezpośrednio za pomocą interfejsu użytkownika usługi Azure Data Factory Studio. Aby zapoznać się z instrukcjami krok po kroku dotyczącymi tworzenia aktywności notebooka Synapse przy użyciu interfejsu użytkownika, możesz odnieść się do poniższych.

Dodaj zadanie notebooka dla usługi Synapse do strumienia za pomocą interfejsu użytkownika

Aby użyć działania notesu dla usługi Synapse w potoku, wykonaj następujące kroki:

Ustawienia ogólne

  1. Wyszukaj pozycję Notes w okienku Działania potoku i przeciągnij działanie Notes w obszarze usługi Synapse do kanwy potoku.
  2. Wybierz nowe zadanie Notatnik na kanwie, jeśli nie zostało jeszcze wybrane.
  3. W obszarze Ustawienia ogólne wprowadź przykład w polu Nazwa.
  4. (Opcja) Możesz również wprowadzić opis.
  5. Limit czasu: maksymalny czas trwania aktywności. Wartość domyślna to 12 godzin, a maksymalny dozwolony czas to 7 dni. Format jest w formacie D.HH:MM:SS.
  6. Ponów próbę: maksymalna liczba ponownych prób.
  7. Interwał ponawiania prób (s): liczba sekund między poszczególnymi próbami ponawiania próby.
  8. Bezpieczne dane wyjściowe: po zaznaczeniu dane wyjściowe z działania nie będą przechwytywane podczas rejestrowania.
  9. Bezpieczne dane wejściowe: po zaznaczeniu dane wejściowe z aktywności nie będą przechwytywane podczas rejestrowania.

Ustawienia usługi Azure Synapse Analytics (Artefakty)

Wybierz kartę Azure Synapse Analytics (Artifacts), aby wybrać lub utworzyć nową połączoną usługę Azure Synapse Analytics; usługa ta wykona działanie Notebooka.

Zrzut ekranu przedstawiający zakładkę połączonej usługi dla działania notatnika.

Karta Ustawienia

  1. Wybierz nowe działanie notesu usługi Synapse na kanwie, jeśli nie zostało jeszcze wybrane.

  2. Wybierz kartę Ustawienia.

  3. Rozwiń listę Notatników. Możesz wybrać istniejący notatnik w połączonej usłudze Azure Synapse Analytics (Elementy).

  4. Kliknij przycisk Otwórz, aby otworzyć stronę połączonej usługi, na której znajduje się wybrany notatnik.

Uwaga

Jeśli identyfikator zasobu obszaru roboczego w połączonej usłudze jest pusty, przycisk Otwórz zostanie wyłączony.

Zrzut ekranu przedstawiający wyłączony przycisk otwierania.

  1. Wybierz kartę Ustawienia i wybierz notes oraz opcjonalne parametry podstawowe, które mają być przekazywane do notesu.

    Zrzut ekranu przedstawiający kartę ustawień aktywności Notesu.

  2. (Opcjonalnie) Możesz wypełnić informacje dotyczące notebooka Synapse. Jeśli następujące ustawienia są puste, do uruchomienia zostaną użyte ustawienia samego notesu usługi Synapse; Jeśli następujące ustawienia nie są puste, te ustawienia zastąpią ustawienia samego notesu usługi Synapse.

    Właściwości opis
    pula zadań platformy Spark Odwołanie do puli Spark. Z listy możesz wybrać pulę Apache Spark.
    Rozmiar funkcji wykonawczej Liczba rdzeni i pamięci, które mają być używane dla funkcji wykonawczych przydzielonych w określonej puli platformy Apache Spark dla sesji. W przypadku zawartości dynamicznej prawidłowe wartości to Small/Medium/Large/XLarge/XXLarge.
    Dynamiczne przydzielanie funkcji wykonawczych To ustawienie mapuje na właściwość alokacji dynamicznej w konfiguracji platformy Spark dla alokacji funkcji wykonawczych aplikacji platformy Spark.
    Minimalna liczba funkcji wykonawczych Minimalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
    Maksymalna liczba wykonawców Maksymalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
    Rozmiar sterownika Liczba rdzeni i pamięci, które mają być używane dla sterownika podanego w określonej puli platformy Apache Spark dla zadania.

Definicja działania notatnika usługi Azure Synapse Analytics

Oto przykładowa definicja JSON działania notatnika Azure Synapse Analytics.

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Właściwości aktywności notatnika w usłudze Azure Synapse Analytics

W poniższej tabeli opisano właściwości JSON używane w definicji JSON:

Właściwości opis Wymagane
nazwa Nazwa działania w potoku. Tak
opis Tekst opisujący działanie. Nie.
typ W przypadku działania notesu usługi Azure Synapse Analytics typ działania to SynapseNotebook. Tak
notes Nazwa notatnika do uruchomienia w usłudze Azure Synapse Analytics. Tak
sparkPool Pula Spark potrzebna do uruchomienia notebooka Azure Synapse Analytics. Nie.
parametr Parametr wymagany do uruchomienia notatnika w usłudze Azure Synapse Analytics. Aby uzyskać więcej informacji, zobacz Przekształcanie danych poprzez uruchomienie notesu Synapse Nie.

Przypisz komórkę parametrów

Usługa Azure Data Factory wyszukuje komórkę parametrów i używa wartości jako wartości domyślnych dla parametrów przekazywanych w czasie wykonywania. Silnik wykonywania doda nową komórkę pod komórką parametrów z parametrami wejściowymi, aby zastąpić wartości domyślne. Możesz zapoznać się z Przekształcaniem danych, uruchamiając notebook Synapse.

Odczytanie wartości wyjściowej komórki notatnika usługi Synapse

Możesz odczytać wartość danych wyjściowych komórki w notebooku podczas działania. Aby zapoznać się z tym panelem, możesz odnieść się do Transformowanie danych poprzez uruchomienie notesu Synapse.

Uruchamianie innego notesu usługi Synapse

Możesz odwoływać się do innych notesów w aktywności notesu Synapse, wywołując polecenie %run magic lub narzędzia notesu mssparkutils. Obie obsługują zagnieżdżanie wywołań funkcji. Kluczowe różnice między tymi dwiema metodami, które należy wziąć pod uwagę na podstawie danego scenariusza, to:

  • %run magic kopiuje wszystkie komórki z notesu, do którego odwołuje się notes, do komórki %run i współudzieli kontekst zmiennej. Gdy notebook1 odwołuje się do notebook2 za pośrednictwem %run notebook2 i notebook2 wywołuje funkcję mssparkutils.notebook.exit, wykonanie komórki w notebook1 zostanie zatrzymane. Zalecamy użycie polecenia %run magic, jeśli chcesz "dołączyć" plik notesu.
  • narzędzia notesów mssparkutils wywołują wskazany notes jako metodę lub funkcję. Kontekst zmiennej nie jest udostępniany. Gdy notebook1 odwołuje się do notebook2 za pośrednictwem mssparkutils.notebook.run("notebook2") i notebook2 wywołuje funkcję mssparkutils.notebook.exit, wykonanie komórki w notebook1 będzie kontynuowane. Zalecamy użycie narzędzi notatnika mssparkutils, gdy chcesz „zaimportować” notatnik.

Zobacz Historię uruchamiania działania notesu usługi Azure Synapse Analytics

Przejdź do Uruchomienia potoków na karcie Monitor. Zobaczysz uruchomiony potok. Otwórz potok zawierający działanie notesu, aby wyświetlić historię uruchamiania.

Zrzut ekranu danych wejściowych i wyjściowych dla notebooka.

W przypadku migawki otwartego notesu ta funkcja nie jest obecnie obsługiwana.

Dane wejściowe lub wyjściowe działania notesu można wyświetlić, wybierając przycisk dane wejściowe lub wyjściowe. Jeśli potok nie powiódł się z powodu błędu użytkownika, wybierz dane wyjściowe, aby sprawdzić pole wyniku i zobaczyć szczegółowe śledzenie błędów użytkownika.

Zrzut ekranu przedstawiający błąd użytkownika wyjściowego dla działania notesu.