Omówienie usługi OneLake
OneLake jest podstawą platformy analitycznej firmy Microsoft Fabric. Zapewnia jedną, ujednoliconą warstwę magazynu, w której znajdują się wszystkie dane. Zrozumienie usługi OneLake jest niezbędne, ponieważ zmienia sposób myślenia o magazynie danych. Zamiast kopiować dane między systemami lub zarządzać wieloma kontami magazynu, pracujesz z jedną scentralizowaną lokalizacją udostępnioną we wszystkich obciążeniach środowisk Fabric.
Usługa OneLake działa w ramach całej dzierżawy
OneLake to data lake obejmujący wszystkie dane dzierżawcy, wbudowany w każde środowisko usługi Fabric. Gdy Twoja organizacja włączy Fabric, OneLake jest automatycznie dostępna. Nie są wymagane żadne oddzielne ustawienia ani konfiguracja.
Dzięki usłudze OneLake uzyskujesz pojedynczą kopię danych. Wszystkie obciążenia platformy Fabric odczytują i zapisują w tej samej lokalizacji pamięci masowej. Takie podejście eliminuje tradycyjny problem silosów danych, w którym każdy zespół lub narzędzie utrzymuje własną kopię.
Tradycyjne środowiska analityczne często tworzą kopie danych dla różnych zespołów lub obciążeń. W usłudze OneLake wszystkie obciążenia są odczytywane z tych samych plików bazowych. Gdy dane się zmienią, wszyscy natychmiast zobaczą zaktualizowaną wersję. To pojedyncze źródło prawdy zmniejsza niespójności danych i koszty magazynowania.
Odnajdywanie danych za pomocą wykazu OneLake
Katalog OneLake ułatwia odnajdywanie i przeglądanie zasobów danych w całej dzierżawie usługi Fabric. Pomyśl o nim jako spis wszystkich danych w usłudze OneLake z możliwością wyszukiwania.
Zasoby można wyszukiwać według nazwy, przeglądać według obszaru roboczego lub domeny i wyświetlać metadane, takie jak opisy, właściciele i pochodzenie. Wykaz umożliwia znalezienie odpowiednich danych nawet wtedy, gdy nie wiesz dokładnie, gdzie są przechowywane.
Katalog zapewnia również funkcje zarządzania i zabezpieczeń. OneLake integruje się z Microsoft Purview w zakresie zarządzania danymi. Możesz klasyfikować dane, stosować etykiety poufności i śledzić pochodzenie danych. Mechanizmy kontroli dostępu określają, kto może odczytywać lub modyfikować dane, zapewniając kontrolę klasy korporacyjnej w celu ochrony danych.
Typy danych w usłudze OneLake
Usługa OneLake przechowuje dane w otwartych formatach, co oznacza, że dane nie są zablokowane w zastrzeżonym formacie. Usługa OneLake używa usługi Delta Lake jako domyślnego formatu tabeli, który przechowuje dane w otwartych plikach Parquet. Każde narzędzie, które rozumie usługę Delta Lake lub Parquet, może uzyskać do niego dostęp, co zapewnia elastyczność w sposobie pracy z danymi. Pliki w usłudze OneLake mogą mieć dowolny format.
Dane w usłudze OneLake mogą obejmować:
- Tabele przechowywane w data lakeach, magazynach lub eventhouse'ach
- Pliki w różnych formatach (Parquet, CSV, JSON i inne)
- Skróty odwołujące się do danych bez fizycznego kopiowania
- Semantyczne modele analizy usługi Power BI
Skróty umożliwiają odwołowanie się do danych w lokalizacjach zewnętrznych, takich jak Azure Data Lake Storage, Amazon S3 lub inna lokalizacja OneLake. Dane pozostają tam, gdzie są, ale możesz z nimi pracować, tak jakby były częścią twojego lakehouse'u. Skróty są przydatne, gdy inny zespół zarządza danymi źródłowymi lub gdy zasady ładu wymagają, aby dane pozostały w określonej lokalizacji.
Jak dane docierają do usługi OneLake
Dane mogą docierać do usługi OneLake za pośrednictwem kilku metod pozyskiwania:
- Dublowanie: stale replikuje dane z zewnętrznych baz danych, takich jak SQL Server, Azure SQL Database, Azure Cosmos DB lub Snowflake. Gdy dane źródłowe zmienią się, usługa OneLake odzwierciedla te zmiany automatycznie.
- Przepływy: Koordynowanie przenoszenia i przekształcania danych przy użyciu funkcji usługi Data Factory. Kopiują dane z różnych źródeł, stosują przekształcenia i ładują je do usługi OneLake.
- Przepływy danych: użyj dodatku Power Query, aby połączyć się ze źródłami, przekształcić dane i załadować je do usługi OneLake. Znają użytkowników programu Excel i usługi Power BI, którzy pracowali z programem Power Query.
- Przesyłanie strumieniowe: obsługuje dane w czasie rzeczywistym za pośrednictwem strumieni zdarzeń. Dane przepływa stale ze źródeł, takich jak urządzenia IoT, dzienniki aplikacji lub zdarzenia strumienia kliknięć.
- Bezpośrednie przekazywanie: Przekazywanie plików bezpośrednio do magazynu OneLake za pośrednictwem interfejsu Fabric.
Jak usługa OneLake obsługuje przepływ pracy sztucznej inteligencji
OneLake odgrywa podstawową rolę w włączaniu sztucznej inteligencji w usłudze Fabric. Aby dostarczyć istotne informacje, agenci Copilot i Fabric IQ muszą znaleźć i zrozumieć twoje dane.
Kiedy zadajesz Copilot pytanie takie jak "Co było w zeszłym kwartale trendów sprzedaży?", wyszukuje katalog OneLake w celu zlokalizowania odpowiednich danych. Ten sam wykaz, którego używasz do przeglądania i odnajdywania zasobów, zapewnia pomoc opartą na sztucznej inteligencji.
Gdy dane są rozproszone lub słabo udokumentowane, nawet sztuczna inteligencja ma trudności z ich znalezieniem. Copilot może zwracać dokładniejsze wyniki użytkownikom, gdy dane mają jasne nazwy, opisy i metadane. Asystenci sztucznej inteligencji mogą pomóc efektywniej, gdy dane są wykrywalne i dobrze katalogowane.