Udostępnij przez


Skróty OneLake

Za pomocą skrótów w usłudze Microsoft OneLake możesz ujednolicić dane między domenami, chmurami i kontami, tworząc usługę OneLake jako pojedynczego wirtualnego magazynu danych w całym przedsiębiorstwie. Platformy Fabric i silniki analityczne mogą łączyć się z istniejącymi źródłami danych, takimi jak Azure, Amazon Web Services (AWS) i OneLake za pośrednictwem ujednoliconej przestrzeni nazw. Usługa OneLake zarządza wszystkimi uprawnieniami i poświadczeniami, dlatego nie trzeba samodzielnie konfigurować każdego obciążenia infrastruktury, aby łączyć się z poszczególnymi źródłami danych. Ponadto można użyć szybkich skrótów, aby wyeliminować zbędne kopie danych i zmniejszyć opóźnienie procesu związane z kopiowaniem i etapowaniem danych.

Co to są skróty?

Skróty to obiekty w usłudze OneLake wskazujące na inne lokalizacje przechowywania. Lokalizacja może być wewnętrzna lub zewnętrzna dla usługi OneLake. Lokalizacja wskazująca skrót jest znana jako ścieżka docelowa skrótu. Lokalizacja, w której pojawia się skrót, jest znana jako ścieżka skrótu.

Skróty są wyświetlane jako foldery w usłudze OneLake oraz wszystkie obciążenia lub usługi, które mają dostęp do usługi OneLake, mogą ich używać. Skróty zachowują się jak linki symboliczne. Są one obiektem niezależnym od obiektu docelowego. Jeśli usuniesz skrót, obiekt docelowy pozostanie nienaruszony. Jeśli przenosisz, zmieniasz nazwę lub usuwasz ścieżkę docelową, skrót może zostać przerwany.

Diagram pokazujący, jak skrót łączy pliki i foldery przechowywane w innych lokalizacjach.

Gdzie można tworzyć skróty?

Możesz tworzyć skróty w lakehouses i bazach danych Kusto Query Language (KQL).

Portal sieci szkieletowej umożliwia interaktywne tworzenie skrótów i programowe tworzenie skrótów za pomocą interfejsu API REST .

Lakehouse

Podczas tworzenia skrótów w systemie Lakehouse należy zrozumieć strukturę folderów elementu. Lakehouses mają dwa najwyższego poziomu foldery: folder Tabele i folder Pliki. Folder 'tables' to zarządzana część magazynu danych lakehouse dla ustrukturyzowanych zbiorów danych. Folder plików to niezarządzana część systemu lakehouse dla danych nieustrukturyzowanych lub częściowo ustrukturyzowanych.

W folderze tables można tworzyć skróty tylko na najwyższym poziomie. Skróty nie są obsługiwane w podkatalogach folderu tabel. Skróty w sekcji tabel zwykle wskazują wewnętrzne źródła w OneLake lub prowadzą do innych zasobów danych, które są zgodne z formatem tabeli Delta. Jeśli element docelowy skrótu zawiera dane w formacie Delta Parquet, lakehouse automatycznie synchronizuje metadane i rozpoznaje folder jako tabelę. Skróty w sekcji tabel mogą łączyć się z pojedynczą tabelą lub schematem, który jest folderem nadrzędnym dla wielu tabel.

Uwaga

Format delty nie obsługuje tabel z znakami spacji w nazwie. Żaden skrót zawierający spację w nazwie nie zostanie odnaleziony jako tabela Delta w platformie lakehouse.

W folderze plików nie ma żadnych ograniczeń dotyczących tego, gdzie można tworzyć skróty. Skróty można tworzyć na dowolnym poziomie hierarchii folderów. Odnajdywanie tabel nie jest wykonywane w folderze plików. Skróty w tym miejscu mogą wskazywać na wewnętrzne systemy magazynowania OneLake i zewnętrzne z danymi w dowolnym formacie.

Diagram przedstawiający widok jeziora i widok tabeli obok siebie.

Baza danych KQL

Po utworzeniu skrótu w bazie danych KQL zostanie on wyświetlony w folderze Skróty bazy danych. Baza danych KQL traktuje skróty tak, jak tabele zewnętrzne. Aby wysłać zapytanie do skrótu, użyj funkcji external_table języka zapytań Kusto.

Zrzut ekranu przedstawiający skróty w bazie danych KQL.

Gdzie można uzyskać dostęp do skrótów?

Dowolna usługa fabryczna lub niefabryczna, która może uzyskiwać dostęp do danych w OneLake, może używać skrótów. Skróty są przezroczyste dla wszystkich usług, które uzyskują dostęp do danych za pośrednictwem interfejsu API OneLake. Skróty pojawiają się po prostu jako kolejny folder w jeziorze. Usługi Apache Spark, SQL, Analizy w czasie rzeczywistym i Analysis Services mogą używać skrótów podczas wykonywania zapytań dotyczących danych.

Apache Spark

Notesy platformy Apache Spark i zadania platformy Apache Spark mogą używać skrótów tworzonych w usłudze OneLake. Użyj względnych ścieżek plików, aby odczytywać dane bezpośrednio ze skrótów. Ponadto, jeśli utworzysz skrót w sekcji Tabele usługi Lakehouse i jest on w formacie Delta, możesz go odczytać jako tabelę zarządzaną przy użyciu składni Apache Spark SQL.

df = spark.read.format("delta").load("Tables/MyShortcut")
display(df)
df = spark.sql("SELECT * FROM MyLakehouse.MyShortcut LIMIT 1000")
display(df)

SQL

Skróty można odczytać w sekcji Tabele w lakehouse za pośrednictwem punktu końcowego analityki SQL dla lakehouse. Dostęp do punktu końcowego analizy SQL można uzyskać za pomocą selektora trybu usługi Lakehouse lub programu SQL Server Management Studio (SSMS).

SELECT TOP (100) *
FROM [MyLakehouse].[dbo].[MyShortcut]

Analiza w czasie rzeczywistym

Skróty w bazach danych KQL są rozpoznawane jako tabele zewnętrzne. Aby wysłać zapytanie do skrótu, użyj funkcji external_table języka zapytań Kusto.

external_table('MyShortcut')
| take 100

Analysis Services

Można tworzyć modele semantyczne dla lakehouse'ów zawierające skróty w sekcji Tabele. Gdy model semantyczny działa w trybie Direct Lake, usługi Analysis Services mogą odczytywać dane bezpośrednio ze skrótu.

Usługi niezwiązane z Fabric

Aplikacje i usługi spoza sieci Szkieletowej mogą również uzyskiwać dostęp do skrótów za pośrednictwem interfejsu API OneLake. OneLake obsługuje podzbiór interfejsów API przechowywania ADLS Gen2 i Blob. Aby dowiedzieć się więcej o interfejsie API OneLake, zobacz OneLake access with APIs (Dostęp do usługi OneLake za pomocą interfejsów API).

https://onelake.dfs.fabric.microsoft.com/MyWorkspace/MyLakhouse/Tables/MyShortcut/MyFile.csv

Typy skrótów

Skróty OneLake obsługują wiele źródeł danych systemu plików. Obejmują one wewnętrzne lokalizacje usługi OneLake i zewnętrzne lub źródła stron trzecich.

Można również tworzyć skróty do lokalizacji lokalnych lub z ograniczeniami sieci przy użyciu bramy danych Fabric na miejscu (OPDG).

Wewnętrzne skróty "OneLake"

Wewnętrzne skróty OneLake umożliwiają odwoływać się do danych w istniejących elementach Fabric, w tym:

  • Bazy danych KQL
  • Domy nad jeziorem
  • Lustrzane wykazy usługi Azure Databricks
  • Dublowane bazy danych
  • Modele semantyczne
  • Bazy danych SQL
  • Magazyny

Aby uzyskać instrukcje dotyczące tworzenia skrótu wewnętrznego, zobacz Tworzenie wewnętrznego skrótu OneLake.

Skrót może wskazywać lokalizację folderu w obrębie tego samego elementu, między elementami w tym samym obszarze roboczym, a nawet między elementami w różnych obszarach roboczych. Podczas tworzenia skrótu między elementami typy elementów nie muszą być zgodne. Na przykład można utworzyć skrót w usłudze Lakehouse, który wskazuje dane w magazynie danych.

Gdy użytkownik uzyskuje dostęp do danych za pomocą skrótu do innej lokalizacji OneLake, usługa OneLake używa tożsamości użytkownika wywołującego do autoryzowania dostępu do danych w ścieżce docelowej skrótu. Ten użytkownik musi mieć uprawnienia w lokalizacji docelowej, aby odczytać dane.

Ważne

Podczas uzyskiwania dostępu do skrótów za pośrednictwem modeli semantycznych usługi Power BI przy użyciu DirectLake przez silniki SQL lub silniki T-SQL w trybie tożsamości delegowanej, tożsamość wywołującego użytkownika nie jest przekazywana do elementu docelowego skrótu. Tożsamość właściciela elementu wywołującego jest przekazywana, delegując dostęp użytkownikowi wywołującemu. Aby rozwiązać ten problem, użyj semantycznych modeli usługi Power BI w trybie DirectLake za pośrednictwem trybu OneLake lub języka T-SQL w trybie tożsamości użytkownika.

Skróty zewnętrzne OneLake

Aby uzyskać szczegółowe instrukcje dotyczące tworzenia określonego typu skrótu, wybierz artykuł z tej listy obsługiwanych źródeł zewnętrznych:

Buforowanie

Buforowanie skrótów może zmniejszyć koszty wychodzące związane z dostępem do danych między chmurami. Podczas odczytywania plików za pomocą zewnętrznego skrótu, pliki są przechowywane w pamięci podręcznej obszaru roboczego Fabric. Kolejne żądania odczytu są obsługiwane z pamięci podręcznej, a nie zdalnego dostawcy przechowywania. Okres przechowywania buforowanych plików można ustawić z zakresu od 1 do 28 dni. Za każdym razem, gdy plik jest otwierany, okres przechowywania zostaje zresetowany. Jeśli plik u dostawcy magazynu zdalnego jest nowszy niż plik w pamięci podręcznej, żądanie jest obsługiwane przez dostawcę magazynu zdalnego, a zaktualizowany plik będzie przechowywany w pamięci podręcznej. Jeśli plik nie był otwierany dłużej niż przez wybrany okres przechowywania, jest on czyszczony z pamięci podręcznej. Pojedyncze pliki o rozmiarze większym niż 1 GB nie są buforowane.

Uwaga

Buforowanie skrótów jest obecnie obsługiwane dla skrótów GCS, S3, zgodnych z S3, oraz lokalnych skrótów bramy danych.

Aby włączyć buforowanie skrótów, otwórz panel Ustawienia obszaru roboczego . Wybierz kartę OneLake . Przełącz ustawienie pamięci podręcznej na Włączone i wybierz okres przechowywania.

Pamięć podręczną można również wyczyścić w dowolnym momencie. Na tej samej stronie ustawień wybierz przycisk Resetuj pamięć podręczną. Ta akcja usuwa wszystkie pliki z pamięci podręcznej skrótów w tym obszarze roboczym.

Zrzut ekranu przedstawiający panel ustawień obszaru roboczego z wybraną kartą OneLake.

Jak skróty korzystają z połączeń w chmurze

Autoryzacja skrótów usług ADLS i S3 jest delegowana przy użyciu połączeń w chmurze. Podczas tworzenia nowego skrótu usługi ADLS lub S3 należy utworzyć nowe połączenie lub wybrać istniejące połączenie dla źródła danych. Ustawienie połączenia dla skrótu jest operacją wiązania. Tylko użytkownicy z uprawnieniami do połączenia mogą wykonać operację powiązania. Jeśli nie masz uprawnień do połączenia, nie możesz utworzyć nowych skrótów przy użyciu tego połączenia.

Bezpieczeństwo skrótów

Skróty wymagają pewnych uprawnień do zarządzania i używania. Zabezpieczenia skrótów OneLake analizują uprawnienia wymagane do tworzenia skrótów i uzyskiwania dostępu do danych.

Jak skróty radzą sobie z usunięciami?

Skróty nie wykonują kaskadowego usuwania. Usunięcie skrótu powoduje usunięcie tylko obiektu skrótu. Dane w celu skrótu pozostają bez zmian. Jeśli jednak usuniesz plik lub folder w ramach skrótu i masz uprawnienia do wykonania operacji usuwania, pliki lub foldery zostaną usunięte w obiekcie docelowym.

Przykładem może być dom nad jeziorem z następującą ścieżką: MyLakehouse\Files\MyShortcut\Foo\Bar. MyShortcut to skrót wskazujący konto usługi ADLS Gen2 zawierające katalogi Foo\Bar .

Operację usuwania można wykonać na następującej ścieżce: MyLakehouse\Files\MyShortcut. W takim przypadku skrót MyShortcut jest usuwany z lakehouse'u, ale pliki i katalogi na koncie usługi ADLS Gen2 Foo\Bar pozostają nienaruszone.

Możesz również wykonać operację kasowania na następującej ścieżce: MyLakehouse\Files\MyShortcut\Foo\Bar. W takim przypadku, jeśli masz uprawnienia do zapisu na koncie usługi ADLS Gen2, katalog bar zostanie usunięty z konta usługi ADLS Gen2.

Widok zależności obszaru roboczego

Podczas tworzenia skrótów między wieloma elementami Fabric w obszarze roboczym można wizualizować relacje skrótów za pomocą widoku linii genealogicznej obszaru roboczego. Wybierz przycisk Widok pochodzenia ( ) w prawym górnym rogu Eksploratora obszaru roboczego.

Zrzut ekranu widoku pochodzenia do wizualizacji relacji skrótów.

Uwaga

Widok zależności jest ograniczony do pojedynczego obszaru roboczego. Skróty do lokalizacji spoza wybranego obszaru roboczego nie są wyświetlane.

Ograniczenia i istotne zagadnienia

  • Maksymalna liczba skrótów na element Fabric wynosi 100 000. W tym kontekście termin "element" odnosi się do: aplikacji, lakehouse'ów, magazynów, raportów i innych.
  • Maksymalna liczba skrótów w pojedynczej ścieżce OneLake wynosi 10.
  • Maksymalna liczba bezpośrednich skrótów do linków wynosi 5.
  • Nazwy skrótów OneLake, ścieżki nadrzędne i ścieżki docelowe nie mogą zawierać znaków "%" ani "+".
  • Skróty nie obsługują znaków innych niż łacińskie.
  • Informacje o pochodzeniu skrótów do magazynów danych i modeli semantycznych nie są obecnie dostępne.
  • Skrót Fabric synchronizuje się ze źródłem niemal natychmiast, ale czas propagacji może się różnić ze względu na wydajność źródła danych, widoki w pamięci podręcznej lub problemy z łącznością sieciową.
  • Rozpoznanie nowych skrótów przez API tabeli może potrwać do minuty.