Szybki start: pobieranie danych do usługi OneLake

OneLake to jedyne, zunifikowane jezioro danych w Microsoft Fabric. Każde obciążenie Fabric odczytuje i zapisuje dane za pośrednictwem usługi OneLake, więc wystarczy załadować dane tylko raz, aby używać ich wszędzie. Dane można przenieść do usługi OneLake na kilka sposobów:

  • Przekaż pliki bezpośrednio do magazynu lub lakehouse.
  • Pozyskuj dane przy użyciu potoków, przepływów danych lub funkcji przesyłania strumieniowego.
  • Nawiąż połączenie z danymi zewnętrznymi przy użyciu skrótów lub dublowania.

W tym przewodniku Szybki start dodasz dane do usługi OneLake na dwa sposoby: prześlesz plik CSV do lakehouse i utworzysz skrót OneLake z drugiego lakehouse, który prowadzi do tych samych danych bez ich kopiowania. Po zakończeniu masz tabelę Delta, którą można odpytywać, oraz skrót — oba dostępne dla wszystkich silników Fabric za pośrednictwem usługi OneLake.

Wymagania wstępne

Utwórz dom nad jeziorem

Podczas tworzenia elementu Fabric, takiego jak lakehouse, warehouse lub eventhouse, dla tego elementu jest aprowizowana przestrzeń magazynowa w usłudze OneLake w twoim imieniu. W tym przewodniku Szybki start utworzysz magazyn typu lakehouse, który zapewnia zarówno obszar plików (Pliki) dla danych bez struktury, jak i częściowo ustrukturyzowanych danych oraz obszar tabeli delty (Tabele) dla danych ze strukturą, do których można wykonywać zapytania. Wszystko, co umieścisz w dowolnym z tych obszarów, jest przechowywane w usłudze OneLake i natychmiast dostępne dla innych obciążeń platformy Fabric.

  1. Zaloguj się do portalu Fabric i wybierz swój obszar roboczy.

  2. Wybierz pozycję Nowy element.

  3. W okienku Nowy element wyszukaj i wybierz pozycję Lakehouse.

  4. Wprowadź nazwę, taką jak DataLakehouse, a następnie wybierz pozycję Utwórz.

    Lakehouse otwiera się w widoku Explorer, w którym są widoczne puste sekcje Tabele i Pliki. Obie sekcje są już obsługiwane przez usługę OneLake i są gotowe na zawartość.

Przekazywanie przykładowych danych

W tym przewodniku skorzystasz z Dim_Products.csv z publicznie dostępnego przykładowego zestawu danych usługi Fabric. Jest to mała tabela informacji o produkcie od przykładowego sprzedawcy kawy.

  1. Otwórz przeglądarkę i przejdź pod adres https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Po wyświetleniu monitu zapisz plik jako Dim_Products.csv w folderze na komputerze.

W tej sekcji przesyłasz Dim_Products.csv do Pliki, aby surowe dane źródłowe znajdowały się w usłudze OneLake. Obszar Pliki w lakehouse jest obszarem magazynowania ogólnego przeznaczenia w OneLake. Potraktuj to jako obszar docelowy dla surowych danych, niezależnie od formatu, w jakim napływają. Możesz dodać pliki CSV, JSON, Parquet, obrazy, logi lub cokolwiek innego bez konieczności wcześniejszego definiowania schematu.

  1. W eksploratorze lakehouse umieść kursor na pozycji Pliki, wybierz menu Więcej opcji (...), a następnie wybierz pozycję Przekaż>pliki.

  2. W okienku Przekazywanie plików wybierz ikonę folderu i przejdź do Dim_Products.csv na komputerze.

  3. Wybierz pozycję Przekaż, a następnie zamknij okienko przekazywania.

  4. Wybierz folder Pliki , aby wyświetlić jego zawartość i potwierdzić, że Dim_Products.csv jest wyświetlany.

  5. Wybierz Dim_Products.csv , aby wyświetlić swoje dane.

    Zrzut ekranu portalu Fabric, na którym w sekcji Pliki w lakehouse są widoczne nieustrukturyzowane dane CSV.

Plik znajduje się teraz w usłudze OneLake, ale jako surowy plik CSV nie jest jeszcze czymś, co można odpytywać z poziomu SQL lub Sparka jako tabelę.

Ładowanie pliku do tabeli delty

Fabric wykorzystuje standard Delta Lake jako format tabel w usłudze OneLake. Podczas ładowania pliku do obszaru Tables Fabric odczytuje plik źródłowy, wywnioskuje schemat i zapisuje dane jako tabelę delty. Od tego momentu każdy aparat Fabric może wykonywać zapytania dotyczące tej samej tabeli bez konieczności ponownego kopiowania lub konwertowania danych.

  1. W eksploratorze lakehouse otwórz folder Pliki .

  2. Najedź kursorem na plik Dim_Products.csv i wybierz menu więcej opcji (...), a następnie wybierz Załaduj do tabel>Nowa tabela.

  3. W oknie dialogowym Ładowanie do tabeli wprowadź dim_products nazwę tabeli, zachowaj wartości domyślne i wybierz pozycję Załaduj.

  4. Po zakończeniu wczytywania rozwiń sekcję Tabele i wybierz dim_products, aby wyświetlić podgląd wierszy. Surowy plik CSV w Files pozostaje bez zmian, a dim_products to nowa tabela Delta utworzona na jego podstawie.

    Zrzut ekranu przedstawia ustrukturyzowane dane tabeli Delta w sekcji Tabele w lakehouse.

  5. dim_products Zatrzymaj wskaźnik myszy i wybierz menu więcej opcji (...), a następnie wybierz pozycję Właściwości.

    Ekran Properties wyświetla różne szczegóły dotyczące tabeli, w tym adres URL i ścieżkę w systemie plików obiektów blob platformy Azure (ABFS), których można użyć, aby odwoływać się do tej tabeli w innych silnikach.

Ponowne użycie danych przy użyciu skrótu z innego lakehouse

Przesyłanie i ładowanie to jeden ze sposobów na wprowadzanie danych do usługi OneLake. Innym kluczowym wzorcem jest odwołanie do danych, które już istnieją gdzie indziej, bez ich duplikowania. To właśnie jest skrót: wskaźnik w usłudze OneLake, który odwołuje się do danych przechowywanych w innym elemencie lakehouse, w innym obszarze roboczym platformy Fabric lub w obsługiwanych źródłach poza platformą Fabric, takich jak Azure Data Lake Storage czy Amazon S3. Dane nie są kopiowane; pozostaje w lokalizacji źródłowej, ale można ją odczytać za pośrednictwem usługi OneLake tak, jakby była lokalna. Wszystkie aktualizacje źródła są natychmiast widoczne za pomocą skrótu, więc nie trzeba utrzymywać kopii danych.

W tej sekcji utworzysz drugi lakehouse i dodasz z niego skrót do tabeli dim_products w swoim pierwszym lakehouse. Odzwierciedla to sposób, w jaki zespoły zwykle pracują, gdzie jeden zespół jest właścicielem wyselekcjonowanych danych, a inne zespoły lub projekty używają ich za pomocą skrótów we własnych obszarach roboczych.

  1. W obszarze roboczym wybierz pozycję Nowy element.
  2. W okienku Nowy element wyszukaj i wybierz pozycję Lakehouse.
  3. Wprowadź nazwę, taką jak ShortcutLakehouse, a następnie wybierz pozycję Utwórz.
  4. W Eksploratorze nowego lakehouse umieść kursor nad tabelami, wybierz menu Więcej opcji (...), a następnie wybierz pozycję Nowy skrót.
  5. Na stronie Nowy skrót w obszarze Internal sources wybierz Microsoft OneLake.
  6. W przeglądarce źródła danych wybierz pierwszy obiekt lakehouse utworzony na potrzeby tego przewodnika Szybki start, a następnie wybierz pozycję Dalej.
  7. Rozwiń element Tabele, wybierz tabelę dim_products, a następnie wybierz Dalej.
  8. Przejrzyj zaznaczenie i wybierz pozycję Utwórz.
  9. Rozwiń Tabele w ShortcutLakehouse i upewnij się, że dim_products pojawia się z ikoną skrótu (małą ikoną łącza na ikonie tabeli). Wybierz go, aby wyświetlić podgląd wierszy. Tabela jest taka sama jak w oryginalnym lakehouse, ale żadne dane nie zostały skopiowane.
  10. Umieść kursor nad tabelą dim_products , wybierz pozycję Więcej opcji (...), a następnie wybierz pozycję Zarządzaj skrótem. W okienku Zarządzanie skrótami można wyświetlić szczegóły skrótu, w tym miejsce docelowe skrótu, w którym są przechowywane oryginalne dane.

Uprzątnij zasoby

Jeśli nie planujesz przejść do pozostałych przewodników Szybki start usługi OneLake, usuń obiekty lakehouse, aby uniknąć opłat za magazynowanie w usłudze OneLake naliczanych względem pojemności Fabric.

  1. W obszarze roboczym najedź kursorem na lakehouse, który chcesz usunąć.
  2. Wybierz menu Więcej opcji (...) obok elementu lakehouse, wybierz pozycję Usuń i potwierdź usunięcie.

Usunięcie elementów Lakehouse powoduje również usunięcie zawartości w nich: przesłanego pliku, tabeli dim_products Delta i skrótu.