Używanie przepływów danych w potokach
Podczas tworzenia złożonych potoków z wieloma przepływami danych przepływ logiczny może mieć duży wpływ na czas i koszt. W tej sekcji opisano wpływ różnych strategii architektury.
Równoległe wykonywanie przepływów danych
W przypadku równoległego wykonywania wielu przepływów danych usługa uruchamia oddzielne klastry Spark dla każdego działania. Dzięki temu każde zadanie może być izolowane i uruchamiane równolegle, ale spowoduje to jednoczesne uruchomienie wielu klastrów.
Jeśli przepływy danych są wykonywane równolegle, zalecamy, aby nie włączać czasu środowiska Azure IR na żywo, ponieważ doprowadzi to do wielu nieużywanych ciepłych pul.
Porada
Zamiast uruchamiać ten sam przepływ danych wiele razy w obiekcie dla każdego działania, przygotuj dane w usłudze Data Lake i użyj ścieżek wieloznacznych do przetwarzania danych w jednym przepływie danych.
Sekwencyjnie wykonywanie przepływów danych
W przypadku wykonywania działań przepływu danych w sekwencji zaleca się ustawienie czasu wygaśnięcia w konfiguracji środowiska Azure IR. Usługa będzie ponownie używać zasobów obliczeniowych, co spowoduje skrócenie czasu uruchamiania klastra. Każde działanie będzie nadal izolowane i będzie otrzymywać nowy kontekst platformy Spark dla każdego wykonania.
Przeciążanie pojedynczego przepływu danych
Jeśli umieścisz całą logikę wewnątrz jednego przepływu danych, usługa wykona całe zadanie w jednym wystąpieniu platformy Spark. Chociaż może to wydawać się sposobem na zmniejszenie kosztów, łączy ze sobą różne przepływy logiczne i może być trudne do monitorowania i debugowania. Jeśli jeden składnik ulegnie awarii, wszystkie pozostałe części zadania również nie powiedzą się. Zalecane jest organizowanie przepływów danych według niezależnych przepływów logiki biznesowej. Jeśli przepływ danych stanie się zbyt duży, podzielenie go na oddzielne składniki ułatwi monitorowanie i debugowanie. Chociaż nie ma twardego limitu liczby przekształceń w przepływie danych, zbyt wiele spowoduje, że zadanie będzie złożone.
Równoległe wykonywanie ujść
Domyślnym zachowaniem ujścia przepływu danych jest wykonanie każdego ujścia sekwencyjnie, w sposób szeregowy i niepowodzenie przepływu danych w przypadku wystąpienia błędu w ujściu. Ponadto wszystkie ujścia są domyślnie włączone do tej samej grupy, chyba że przejdziesz do właściwości przepływu danych i ustawisz różne priorytety ujścia.
Przepływy danych umożliwiają grupowanie ujść w grupy na karcie właściwości przepływu danych w projektancie interfejsu użytkownika. Można ustawić kolejność wykonywania ujść, a także grupować ujścia razem przy użyciu tego samego numeru grupy. Aby ułatwić zarządzanie grupami, możesz poprosić usługę o uruchomienie ujść w tej samej grupie w celu równoległego uruchomienia.
W potoku wykonaj działanie przepływu danych w sekcji "Właściwości ujścia" jest opcją włączenia ładowania równoległego ujścia. Po włączeniu opcji "Uruchamianie równolegle" instruujesz przepływy danych zapisywane w połączonych ujściach w tym samym czasie, a nie w sposób sekwencyjny. Aby można było korzystać z opcji równoległej, ujścia muszą być grupowane razem i połączone z tym samym strumieniem za pośrednictwem nowej gałęzi lub podziału warunkowego.
Uzyskiwanie dostępu do szablonów baz danych Azure Synapse w potokach
Podczas tworzenia potoku można użyć szablonu bazy danych Azure Synapse. Podczas tworzenia nowego przepływu danych w ustawieniach źródła lub ujścia wybierz pozycję Baza danych obszaru roboczego. Lista rozwijana bazy danych będzie zawierać listę baz danych utworzonych za pomocą szablonu bazy danych. Opcja Baza danych obszaru roboczego jest dostępna tylko dla nowych przepływów danych. Nie jest dostępna w przypadku korzystania z istniejącego potoku z galerii programu Synapse Studio.
Następne kroki
- Omówienie wydajności przepływu danych
- Optymalizowanie źródeł
- Optymalizowanie ujść
- Optymalizowanie przekształceń
Zobacz inne artykuły Przepływ danych związane z wydajnością: