Udostępnij za pośrednictwem


Opracowywanie rozwiązań za pomocą przepływów danych

Przepływy danych usługi Power BI to oparte na przedsiębiorstwie rozwiązanie do przygotowywania danych, które umożliwia ekosystem danych gotowych do użycia, ponownego użycia i integracji. W tym artykule przedstawiono niektóre typowe scenariusze, linki do artykułów i inne informacje ułatwiające zrozumienie i używanie przepływów danych do ich pełnego potencjału.

Uzyskiwanie dostępu do funkcji Premium przepływów danych

Przepływy danych usługi Power BI w pojemnościach Premium udostępniają wiele kluczowych funkcji, które ułatwiają osiągnięcie większej skali i wydajności przepływów danych, takich jak:

  • Zaawansowane obliczenia, które przyspieszają wydajność etL i zapewniają możliwości trybu DirectQuery.
  • Odświeżanie przyrostowe, które umożliwia ładowanie danych zmienionych ze źródła.
  • Połączone jednostki, których można użyć do odwołowania się do innych przepływów danych.
  • Obliczone jednostki, których można użyć do kompilowania bloków konstrukcyjnych przepływów danych zawierających więcej logiki biznesowej.

Z tych powodów zalecamy używanie przepływów danych w pojemności Premium zawsze wtedy, gdy jest to możliwe. Przepływy danych używane w licencji usługi Power BI Pro mogą służyć do prostych, małych przypadków użycia.

Rozwiązanie

Uzyskiwanie dostępu do tych funkcji Premium przepływów danych jest możliwe na dwa sposoby:

  • Wyznaczyć pojemność Premium do danego obszaru roboczego i przenieść własną licencję Pro do tworzenia przepływów danych tutaj.
  • Licencja bring your own Premium na użytkownika (PPU), która wymaga, aby inni członkowie obszaru roboczego mieli również licencję PPU.

Nie można korzystać z przepływów danych PPU (ani żadnej innej zawartości) poza środowiskiem PPU (na przykład w warstwie Premium lub innych jednostkach SKU lub licencjach).

W przypadku pojemności Premium użytkownicy przepływów danych w programie Power BI Desktop nie potrzebują jawnych licencji do korzystania z usługi Power BI i publikowania ich w usłudze Power BI. Jednak aby opublikować w obszarze roboczym lub udostępnić wynikowy model semantyczny, musisz mieć co najmniej licencję Pro.

W przypadku ppu każdy, kto tworzy lub korzysta z zawartości PPU, musi mieć licencję PPU. To wymaganie różni się od pozostałej części usługi Power BI, w której musisz jawnie licencjonować wszystkich użytkowników z ppU. Nie można mieszać pojemności Bezpłatna, Pro, a nawet Premium z zawartością PPU, chyba że migrujesz obszar roboczy do pojemności Premium.

Wybór modelu zwykle zależy od rozmiaru i celów organizacji, ale mają zastosowanie następujące wskazówki.

Typ zespołu Premium na pojemność Premium na użytkownika
>5000 użytkowników
<5000 użytkowników

W przypadku małych zespołów ppu może wypełnić lukę między free, Pro i Premium na pojemność. Jeśli masz większe potrzeby, najlepszym rozwiązaniem jest użycie pojemności Premium z użytkownikami, którzy mają licencje Pro.

Tworzenie przepływów danych użytkownika z zastosowanymi zabezpieczeniami

Załóżmy, że musisz utworzyć przepływy danych do użycia, ale wymagania dotyczące zabezpieczeń:

Diagram opisujący scenariusz.

W tym scenariuszu prawdopodobnie istnieją dwa typy obszarów roboczych:

  • Obszary robocze zaplecza, w których tworzysz przepływy danych i tworzysz logikę biznesową.

  • Obszary robocze użytkownika, w których chcesz uwidocznić niektóre przepływy danych lub tabele do określonej grupy użytkowników do użycia:

    • Obszar roboczy użytkownika zawiera połączone tabele wskazujące przepływy danych w obszarze roboczym zaplecza.
    • Użytkownicy mają dostęp do obszaru roboczego odbiorcy i nie mają dostępu do obszaru roboczego zaplecza.
    • Gdy użytkownik używa programu Power BI Desktop do uzyskiwania dostępu do przepływu danych w obszarze roboczym użytkownika, może zobaczyć przepływ danych. Ale ponieważ przepływ danych jest pusty w nawigatorze, połączone tabele nie są wyświetlane.

Omówienie tabel połączonych

Tabele połączone są po prostu wskaźnikiem do oryginalnych tabel przepływu danych i dziedziczą uprawnienia źródła. Jeśli usługa Power BI zezwoliła połączonej tabeli na korzystanie z uprawnienia docelowego, każdy użytkownik może obejść uprawnienie źródłowe, tworząc tabelę połączoną w miejscu docelowym wskazującym źródło.

Rozwiązanie: Korzystanie z tabel obliczeniowych

Jeśli masz dostęp do usługi Power BI Premium, możesz utworzyć obliczoną tabelę w miejscu docelowym, która odwołuje się do tabeli połączonej, która zawiera kopię danych z połączonej tabeli. Kolumny można usuwać za pomocą projekcji i usuwać wiersze za pomocą filtrów. Użytkownik z uprawnieniami do docelowego obszaru roboczego może uzyskać dostęp do danych za pośrednictwem tej tabeli.

Pochodzenie uprzywilejowanych osób pokazuje również przywołyny obszar roboczy i umożliwia użytkownikom łączenie się z powrotem w celu pełnego zrozumienia nadrzędnego przepływu danych. Dla tych użytkowników, którzy nie są uprzywilejowani, prywatność jest nadal przestrzegana. Wyświetlana jest tylko nazwa obszaru roboczego.

Na poniższym diagramie przedstawiono tę konfigurację. Po lewej stronie znajduje się wzorzec architektury. Po prawej stronie znajduje się przykład pokazujący podział i zabezpieczenie danych sprzedaży według regionu.

Diagram opisujący sposób używania tabel połączonych i przepływów danych.

Skrócenie czasu odświeżania przepływów danych

Wyobraź sobie, że masz duży przepływ danych, ale chcesz utworzyć modele semantyczne poza tym przepływem danych i skrócić czas wymagany do jego odświeżenia. Zazwyczaj odświeżanie trwa długo od źródła danych do przepływów danych do modelu semantycznego. Długotrwałe odświeżanie jest trudne do zarządzania lub konserwacji.

Rozwiązanie: Używanie tabel z jawnie skonfigurowaną funkcją Włącz ładowanie dla tabel, do których odwołuje się odwołanie, i nie wyłączaj ładowania

Usługa Power BI obsługuje prostą aranżację przepływów danych zgodnie z definicją w zakresie zrozumienia i optymalizacji odświeżania przepływów danych. Korzystanie z orkiestracji wymaga jawnego skonfigurowania wszystkich podrzędnych przepływów danych skonfigurowanych do włączania obciążenia.

Wyłączenie obciążenia zwykle jest odpowiednie tylko wtedy, gdy obciążenie związane z ładowaniem większej liczby zapytań anuluje korzyści wynikające z jednostki, z którą tworzysz.

Wyłączenie obciążenia oznacza, że usługa Power BI nie ocenia danego zapytania, jeśli jest używane jako składniki, czyli przywoływane w innych przepływach danych, oznacza to również, że usługa Power BI nie traktuje jej jako istniejącej tabeli, w której możemy udostępnić wskaźnik i przeprowadzić składanie i optymalizacje zapytań. W tym sensie wykonywanie przekształceń, takich jak sprzężenia lub scalanie, jest tylko sprzężenia lub scalania dwóch zapytań źródła danych. Takie operacje mogą mieć negatywny wpływ na wydajność, ponieważ usługa Power BI musi ponownie załadować ponownie obliczoną logikę, a następnie zastosować dowolną logikę.

Aby uprościć przetwarzanie zapytań przepływu danych i upewnić się, że są wykonywane optymalizacje aparatu, włącz obciążenie i upewnij się, że aparat obliczeniowy w przepływach danych usługi Power BI Premium jest ustawiony na ustawienie domyślne, które jest zoptymalizowane.

Włączenie ładowania umożliwia również zachowanie pełnego widoku pochodzenia danych, ponieważ usługa Power BI traktuje przepływ danych nieuwzględnianego ładowania jako nowy element. Jeśli pochodzenie danych jest dla Ciebie ważne, nie wyłączaj ładowania jednostek ani przepływów danych połączonych z innymi przepływami danych.

Skrócenie czasu odświeżania modeli semantycznych

Wyobraź sobie, że masz duży przepływ danych, ale chcesz utworzyć modele semantyczne poza nim i zmniejszyć aranżację. Odświeżanie trwa długo od źródła danych do przepływów danych do modeli semantycznych, co zwiększa opóźnienie.

Rozwiązanie: Korzystanie z przepływów danych trybu DirectQuery

Zapytanie bezpośrednie może być używane za każdym razem, gdy rozszerzone ustawienie aparatu obliczeniowego obszaru roboczego (ECE) jest jawnie skonfigurowane na wartość Włączone. To ustawienie jest przydatne, gdy masz dane, które nie muszą być ładowane bezpośrednio do modelu usługi Power BI. Jeśli konfigurujesz środowisko ECE tak, aby było włączone po raz pierwszy, zmiany, które zezwalają na zapytanie bezpośrednie, będą miały miejsce podczas następnego odświeżania. Należy je odświeżyć po włączeniu, aby zmiany miały miejsce natychmiast. Odświeżanie początkowego obciążenia przepływu danych może być wolniejsze, ponieważ usługa Power BI zapisuje dane zarówno w magazynie, jak i w zarządzanym aucie SQL.

Podsumowując, użycie trybu DirectQuery z przepływami danych umożliwia następujące ulepszenia procesów usługi Power BI i przepływów danych:

  • Unikaj oddzielnych harmonogramów odświeżania: tryb DirectQuery łączy się bezpośrednio z przepływem danych, co eliminuje konieczność utworzenia zaimportowanego modelu semantycznego. W związku z tym użycie trybu DirectQuery z przepływami danych oznacza, że nie potrzebujesz już oddzielnych harmonogramów odświeżania dla przepływu danych i modelu semantycznego w celu zapewnienia synchronizacji danych.
  • Filtrowanie danych: zapytanie bezpośrednie jest przydatne do pracy nad filtrowanym widokiem danych wewnątrz przepływu danych. Jeśli chcesz filtrować dane i w ten sposób pracować z mniejszym podzbiorem danych w przepływie danych, możesz użyć trybu DirectQuery (i ECE) do filtrowania danych przepływu danych i pracy z filtrowanym podzestawem.

Ogólnie rzecz biorąc, użycie trybu DirectQuery wymienia aktualne dane w modelu semantycznym z wolniejszymi wydajnościami raportów w porównaniu z trybem importu. Rozważ to podejście tylko wtedy, gdy:

  • Twój przypadek użycia wymaga danych o małych opóźnieniach pochodzących z przepływu danych.
  • Dane przepływu danych są duże.
  • Importowanie byłoby zbyt czasochłonne.
  • Chcesz wymienić buforowane wyniki dla aktualnych danych.

Rozwiązanie: użyj łącznika przepływów danych, aby włączyć składanie zapytań i odświeżanie przyrostowe na potrzeby importowania

Ujednolicony łącznik Przepływy danych może znacznie skrócić czas oceny kroków wykonywanych w obliczonych jednostkach, takich jak wykonywanie sprzężeń, odrębnych filtrów i grupowanie według operacji. Istnieją dwie konkretne korzyści:

  • Użytkownicy podrzędni łączący się z łącznikiem Przepływy danych w programie Power BI Desktop mogą korzystać z lepszej wydajności w scenariuszach tworzenia, ponieważ nowy łącznik obsługuje składanie zapytań.
  • Operacje odświeżania modelu semantycznego mogą również składać się do ulepszonego aparatu obliczeniowego, co oznacza, że nawet odświeżanie przyrostowe z modelu semantycznego może składać się do przepływu danych. Ta funkcja zwiększa wydajność odświeżania i potencjalnie zmniejsza opóźnienie między cyklami odświeżania.

Aby włączyć tę funkcję dla dowolnego przepływu danych Premium, upewnij się, że aparat obliczeniowy jest jawnie ustawiony na włączone. Następnie użyj łącznika Przepływy danych w programie Power BI Desktop. Aby korzystać z tej funkcji, należy użyć wersji programu Power BI Desktop lub nowszej z sierpnia 2021 r.

Aby korzystać z tej funkcji dla istniejących rozwiązań, musisz mieć subskrypcję Premium lub Premium na użytkownika. Może być również konieczne wprowadzenie pewnych zmian w przepływie danych zgodnie z opisem w temacie Korzystanie z ulepszonego aparatu obliczeniowego. Aby korzystać z nowego łącznika, należy zaktualizować wszystkie istniejące zapytania dodatku Power Query, zastępując element PowerBI.Dataflows w sekcji Źródło ciągiem PowerPlatform.Dataflows.

Tworzenie złożonych przepływów danych w dodatku Power Query

Wyobraź sobie, że masz przepływ danych, który jest milionami wierszy danych, ale chcesz utworzyć złożoną logikę biznesową i przekształcenia. Chcesz stosować najlepsze rozwiązania dotyczące pracy z dużymi przepływami danych. Do szybkiego wykonania potrzebne są również podglądy przepływów danych. Masz jednak dziesiątki kolumn i miliony wierszy danych.

Rozwiązanie: Użyj widoku schematu

Możesz użyć widoku schematu, który jest przeznaczony do optymalizowania przepływu podczas pracy nad operacjami na poziomie schematu, umieszczając front i środek informacji o kolumnie zapytania. Widok schematu zapewnia kontekstowe interakcje w celu kształtowania struktury danych. Widok schematu zapewnia również mniejsze opóźnienia operacji, ponieważ wymaga obliczenia tylko metadanych kolumny, a nie pełnych wyników danych.

Praca z większymi źródłami danych

Wyobraź sobie, że uruchamiasz zapytanie w systemie źródłowym, ale nie chcesz zapewnić bezpośredniego dostępu do systemu ani demokratyzować dostępu. Planujesz umieścić go w przepływie danych.

Rozwiązanie 1. Używanie widoku dla zapytania lub optymalizowanie zapytania

Użycie zoptymalizowanego źródła danych i zapytania jest najlepszą opcją. Często źródło danych działa najlepiej z zapytaniami przeznaczonymi dla niego. Dodatek Power Query ma zaawansowane możliwości składania zapytań w celu delegowania tych obciążeń. Usługa Power BI udostępnia również wskaźniki składania kroków w usłudze Power Query Online. Przeczytaj więcej na temat typów wskaźników w dokumentacji wskaźników składania kroków.

Rozwiązanie 2. Używanie zapytania natywnego

Możesz również użyć funkcji Value.NativeQuery() M. W trzecim parametrze ustaw wartość EnableFolding=true . Zapytanie natywne jest udokumentowane w tej witrynie internetowej dla łącznika Postgres. Działa również w przypadku łącznika programu SQL Server.

Rozwiązanie 3. Podział przepływu danych na pozyskiwanie i zużycie przepływów danych w celu korzystania z ecE i połączonych jednostek

Dzieląc przepływ danych na oddzielne przepływy danych pozyskiwania i zużycia, możesz korzystać z ecE i połączonych jednostek. Więcej informacji na temat tego wzorca i innych można uzyskać w dokumentacji najlepszych rozwiązań.

Upewnij się, że klienci korzystają z przepływów danych, gdy jest to możliwe

Załóżmy, że masz wiele przepływów danych, które służą do typowych celów, takich jak zgodne wymiary, takie jak klienci, tabele danych, produkty i lokalizacje geograficzne. Przepływy danych są już dostępne na wstążce usługi Power BI. Najlepiej, aby klienci korzystali przede wszystkim z utworzonych przepływów danych.

Rozwiązanie: używanie poręczenia do certyfikowania i podwyższania poziomu przepływów danych

Aby dowiedzieć się więcej na temat sposobu działania poręczenia, zobacz Popularyzacja: promowanie i certyfikowanie zawartości usługi Power BI.

Programowanie i automatyzacja w przepływach danych usługi Power BI

Załóżmy, że masz wymagania biznesowe dotyczące automatyzowania importów, eksportów lub odświeżeń oraz akcji poza usługą Power BI. Istnieje kilka opcji, które należy włączyć, zgodnie z opisem w poniższej tabeli.

Type Mechanizm
Użyj szablonów PowerAutomate. Brak kodu
Użyj skryptów automatyzacji w programie PowerShell. Skrypty automatyzacji
Tworzenie własnej logiki biznesowej przy użyciu interfejsów API. Interfejs API REST

Aby uzyskać więcej informacji na temat odświeżania, zobacz Omówienie i optymalizowanie odświeżania przepływów danych.

Upewnij się, że chronisz zasoby danych podrzędne

Za pomocą etykiet poufności można zastosować klasyfikację danych i wszystkie reguły skonfigurowane dla elementów podrzędnych łączących się z przepływami danych. Aby dowiedzieć się więcej na temat etykiet poufności, zobacz Etykiety poufności w usłudze Power BI. Aby przejrzeć dziedziczenie, zobacz Dziedziczenie podrzędne etykiety poufności w usłudze Power BI.

Obsługa wielu regionów geograficznych

Wielu klientów ma obecnie potrzebę spełnienia wymagań dotyczących niezależności i rezydencji danych. Możesz ukończyć ręczną konfigurację obszaru roboczego przepływów danych, aby był wielolokacyjny.

Przepływy danych obsługują wiele regionów geograficznych, gdy korzystają z funkcji bring-your-own-storage-account. Ta funkcja została opisana w temacie Konfigurowanie magazynu przepływu danych w celu korzystania z usługi Azure Data Lake Gen 2. Obszar roboczy musi być pusty przed dołączeniem tej funkcji. Dzięki tej konkretnej konfiguracji można przechowywać dane przepływu danych w wybranych regionach geograficznych.

Zapewnianie ochrony zasobów danych za siecią wirtualną

Wielu klientów musi obecnie zabezpieczyć zasoby danych za prywatnym punktem końcowym. W tym celu użyj sieci wirtualnych i bramy, aby zachować zgodność. W poniższej tabeli opisano bieżącą obsługę sieci wirtualnej i wyjaśniono, jak korzystać z przepływów danych w celu zapewnienia zgodności i ochrony zasobów danych.

Scenariusz Stan
Odczytywanie źródeł danych sieci wirtualnej za pośrednictwem bramy lokalnej. Obsługiwane za pośrednictwem bramy lokalnej
Zapisywanie danych na koncie etykiety poufności za siecią wirtualną przy użyciu bramy lokalnej. Jeszcze nieobsługiwane

Następujące artykuły zawierają więcej informacji na temat przepływów danych i usługi Power BI: