Udostępnij przez


Najlepsze rozwiązania dotyczące projektowania i opracowywania złożonych przepływów danych

Jeśli opracowywany przepływ danych jest coraz większy i bardziej złożony, oto kilka rzeczy, które można zrobić, aby ulepszyć oryginalny projekt.

Podział go na wiele przepływów danych

Nie rób wszystkiego w jednym przepływie danych. Nie tylko pojedynczy, złożony przepływ danych sprawia, że proces przekształcania danych jest dłuższy, ale także utrudnia zrozumienie i ponowne użycie przepływu danych. Podzielenie przepływu danych na wiele przepływów danych może odbywać się przez oddzielenie tabel w różnych przepływach danych, a nawet jednej tabeli do wielu przepływów danych. Możesz użyć koncepcji tabeli obliczeniowej lub tabeli połączonej, aby utworzyć część transformacji w jednym przepływie danych i użyć jej ponownie w innych przepływach danych.

Oddziel przepływy przekształcania danych od przepływów przejściowych/wyodrębniania danych.

Niektóre przepływy danych tylko do wyodrębniania danych (czyli przemieszczania przepływów danych) i innych tylko do przekształcania danych są pomocne nie tylko w przypadku tworzenia wielowarstwowej architektury, ale także pomaga zmniejszyć złożoność przepływów danych. Niektóre kroki po prostu wyodrębniają dane ze źródła danych, takie jak pobieranie danych, nawigacja i zmiany typu danych. Oddzielając przepływy danych do etapowania i przepływy danych do przekształceń, możesz ułatwić opracowywanie swoich przepływów danych.

Architektura wielowarstwowego przepływu danych.

Obraz przedstawiający proces wyodrębniania danych ze źródła do przejściowych przepływów danych, w których tabele są przechowywane w usłudze Dataverse lub w magazynie Azure Data Lake. Następnie dane są przenoszone do przepływów przekształcania danych, w których dane są przekształcane w strukturę magazynu danych. Następnie dane są przenoszone do modelu semantycznego.

Korzystanie z funkcji niestandardowych

Funkcje niestandardowe są przydatne w scenariuszach, w których należy wykonać pewną liczbę kroków dla wielu zapytań z różnych źródeł. Funkcje niestandardowe można opracowywać za pomocą interfejsu graficznego w Edytorze Power Query lub za pomocą skryptu języka M. Funkcji można używać ponownie w przepływie danych w tylu tabelach, ile potrzeba.

Posiadanie funkcji niestandardowej ułatwia posiadanie tylko jednej wersji kodu źródłowego, więc nie trzeba duplikować kodu. W rezultacie utrzymywanie logiki przekształceń w Power Query i całego przepływu danych jest o wiele łatwiejsze. Aby uzyskać więcej informacji, przejdź do następującego wpisu w blogu: Custom Functions Made Easy in Power BI Desktop (Funkcje niestandardowe wykonane w programie Power BI Desktop).

Zrzut ekranu przedstawiający okienko Zapytania z wyróżnioną funkcją niestandardową Get Holidays i jej danymi.

Uwaga / Notatka

Czasami możesz otrzymać powiadomienie, które informuje, że do odświeżenia przepływu danych przy użyciu funkcji niestandardowej jest wymagana licencja Premium. Możesz zignorować ten komunikat i ponownie otworzyć edytor przepływu danych. Zwykle rozwiązuje to problem, chyba że funkcja odwołuje się do zapytania z włączonym ładowaniem.

Umieszczanie zapytań w folderach

Używanie folderów dla zapytań ułatwia grupowanie powiązanych zapytań. Podczas opracowywania przepływu danych poświęcaj trochę więcej czasu na rozmieszczanie zapytań w folderach, które mają sens. Korzystając z tego podejścia, można łatwiej znaleźć zapytania w przyszłości, a obsługa kodu jest znacznie łatwiejsza.

Korzystanie z tabel obliczeniowych

Obliczone tabele nie tylko sprawiają, że przepływ danych jest bardziej zrozumiały, ale także zapewnia lepszą wydajność. Gdy używasz tabeli obliczeniowej, inne tabele, do których się odwołuje, pobierają dane z tabeli "już przetworzonej i przechowywanej". Transformacja jest znacznie prostsza i szybsza.

Korzystanie z ulepszonego aparatu obliczeniowego

W przypadku przepływów danych opracowanych w portalu administracyjnym usługi Power BI upewnij się, że korzystasz z ulepszonego aparatu obliczeniowego, wykonując sprzężenia i przekształcenia filtrów najpierw w obliczonej tabeli przed wykonaniem innych typów przekształceń.

Podziel wiele kroków na wiele zapytań

Trudno śledzić dużą liczbę kroków w jednej tabeli. Zamiast tego należy podzielić dużą liczbę kroków na wiele tabel. Możesz użyć opcji Włącz ładowanie dla innych zapytań i wyłączyć je, jeśli są one zapytaniami pośrednimi, i załadować tylko końcową tabelę za pośrednictwem przepływu danych. Jeśli masz wiele zapytań z mniejszymi krokami w każdym z nich, łatwiej jest użyć diagramu zależności i śledzić każde zapytanie w celu dalszego badania, zamiast zagłębiać się w setki kroków w jednym zapytaniu.

Dodawanie właściwości dla zapytań i kroków

Dokumentacja jest kluczem do łatwego obsługi kodu. W Power Query można dodawać właściwości zarówno do tabel, jak i do kroków. Tekst dodany we właściwościach jest wyświetlany jako podpowiedź po najechaniu myszą na to zapytanie lub krok. Ta dokumentacja pomaga zachować model w przyszłości. Po zapoznaniu się z tabelą lub krokiem możesz zrozumieć, co się tam dzieje, zamiast ponownie analizować i przypominać sobie, co zostało zrobione w tym kroku.

Upewnij się, że wydajność znajduje się w tym samym regionie

Przepływy danych nie obsługują obecnie wielu krajów ani regionów. Pojemność Premium musi znajdować się w tym samym regionie co dzierżawa usługi Power BI.

Oddzielanie źródeł lokalnych od źródeł w chmurze

Zalecamy utworzenie oddzielnego przepływu danych dla każdego typu źródła, takiego jak lokalny, chmurowy, SQL Server, Spark i Dynamics 365. Rozdzielenie przepływów danych według typu źródła ułatwia szybkie rozwiązywanie problemów i pozwala uniknąć limitów wewnętrznych podczas odświeżania przepływów danych.

Oddziel przepływy danych na podstawie harmonogramu odświeżania wymaganego dla tabel

Jeśli masz tabelę transakcji sprzedaży, która jest aktualizowana w systemie źródłowym co godzinę i masz tabelę mapowania produktów, która jest aktualizowana co tydzień, podziel te dwie tabele na dwa przepływy danych z różnymi harmonogramami odświeżania danych.

Unikaj planowania odświeżania tabel połączonych w tym samym obszarze roboczym

Jeżeli jesteś regularnie pozbawiany dostępu do swoich przepływów danych, które zawierają połączone tabele, może to być spowodowane tym, że odpowiedni, zależny przepływ danych w tym samym obszarze roboczym jest zablokowany podczas odświeżania przepływu danych. Takie blokowanie zapewnia dokładność transakcyjną i gwarantuje, że oba przepływy danych zostaną pomyślnie odświeżone, ale może zablokować edytowanie.

Jeśli skonfigurujesz oddzielny harmonogram połączonego przepływu danych, przepływy danych mogą być niepotrzebnie odświeżane i blokować edytowanie przepływu danych. Istnieją dwa zalecenia, aby uniknąć tego problemu:

  • Nie ustawiaj harmonogramu odświeżania połączonego przepływu danych w tym samym obszarze roboczym co źródłowy przepływ danych.
  • Jeśli chcesz oddzielnie skonfigurować harmonogram odświeżania i chcesz uniknąć zachowania blokującego, przenieś przepływ danych do oddzielnego obszaru roboczego.