OneLake to jedno, ujednolicone, logiczne jezioro danych dla całej organizacji. Usługa Data Lake przetwarza duże ilości danych z różnych źródeł. Podobnie jak usługa OneDrive, usługa OneLake jest automatycznie dostarczana z każdą dzierżawą usługi Microsoft Fabric i jest zaprojektowana jako jedno miejsce dla wszystkich danych analitycznych. Usługa OneLake oferuje klientom:
Jedno urządzenie Data Lake dla całej organizacji
Jedna kopia danych do użycia z wieloma aparatami analitycznymi
Jedno urządzenie Data Lake dla całej organizacji
Przed usługą OneLake łatwiej było klientom tworzyć wiele jezior dla różnych grup biznesowych, a nie współpracować nad jednym jeziorem, nawet przy dodatkowym narzucie zarządzania wieloma zasobami. OneLake koncentruje się na usuwaniu tych wyzwań, poprawiając współpracę. Każda dzierżawa klienta ma dokładnie jedną usługę OneLake. Nigdy nie może być więcej niż jeden i jeśli masz sieć szkieletową, nigdy nie może być zero. Każda dzierżawa sieci szkieletowej automatycznie aprowizuje usługę OneLake bez dodatkowych zasobów do skonfigurowania ani zarządzania nimi.
Domyślnie z rozproszoną własnością współpracy
Koncepcja dzierżawy to unikatowa korzyść z usługi SaaS. Znajomość, gdzie rozpoczyna się organizacja klienta i kończy się, zapewnia naturalną granicę ładu i zgodności, która jest pod kontrolą administratora dzierżawy. Wszystkie dane, które lądują w usłudze OneLake, są domyślnie zarządzane. Chociaż wszystkie dane są w granicach ustawionych przez administratora dzierżawy, ważne jest, aby ten administrator nie stał się centralnym strażnikiem uniemożliwiającym współtworzenie innych części organizacji współtworzenia usługi OneLake.
W ramach dzierżawy można utworzyć dowolną liczbę obszarów roboczych. Obszary robocze umożliwiają różnym częściom organizacji dystrybucję własności i zasad dostępu. Każdy obszar roboczy jest częścią pojemności powiązanej z określonym regionem i jest rozliczany oddzielnie.
W obszarze roboczym można tworzyć elementy danych i uzyskiwać dostęp do wszystkich danych w usłudze OneLake za pośrednictwem elementów danych. Podobnie jak w przypadku przechowywania plików programów Word, Excel i PowerPoint w usłudze OneDrive, usługa Fabric przechowuje magazyny, magazyny i inne elementy w usłudze OneLake. Elementy mogą oferować dostosowane środowiska dla każdej osoby, takie jak środowisko deweloperskie platformy Apache Spark w usłudze Lakehouse.
OneLake jest otwarty na każdym poziomie. Usługa OneLake jest oparta na usłudze Azure Data Lake Storage (ADLS) Gen2 i może obsługiwać dowolny typ pliku, ze strukturą lub bez struktury. Wszystkie elementy danych sieci szkieletowej, takie jak magazyny danych i magazyny lakehouse, automatycznie przechowują swoje dane w usłudze OneLake w formacie Delta Parquet. Jeśli inżynier danych ładuje dane do magazynu typu lakehouse przy użyciu platformy Apache Spark, a następnie deweloper SQL używa języka T-SQL do ładowania danych w pełni transakcyjnym magazynie danych, oba są współtworamiane z tym samym magazynem danych typu data lake. Usługa OneLake przechowuje wszystkie dane tabelaryczne w formacie Delta Parquet.
Usługa OneLake obsługuje te same interfejsy API i zestawy SDK usługi ADLS Gen2, które mają być zgodne z istniejącymi aplikacjami usługi ADLS Gen2, w tym z usługą Azure Databricks. Dane w usłudze OneLake można adresować tak, jakby było to jedno duże konto magazynu usługi ADLS dla całej organizacji. Każdy obszar roboczy jest wyświetlany jako kontener na tym koncie magazynu, a różne elementy danych są wyświetlane jako foldery w tych kontenerach.
OneLake to usługa OneDrive dla danych. Podobnie jak w usłudze OneDrive, możesz łatwo eksplorować dane usługi OneLake z systemu Windows przy użyciu Eksploratora plików OneLake dla systemu Windows. Możesz nawigować po wszystkich obszarach roboczych i elementach danych, łatwo przekazywać, pobierać lub modyfikować pliki tak jak w pakiecie Office. Eksplorator plików OneLake upraszcza pracę z magazynami danych, umożliwiając nawet użytkownikom firmowym korzystanie z nich.
Aby uzyskać więcej informacji, zobacz Eksplorator plików OneLake.
Jedna kopia danych
Usługa OneLake ma na celu zapewnienie możliwie największej wartości z pojedynczej kopii danych bez przenoszenia lub duplikowania danych. Nie trzeba już kopiować danych, aby używać ich z innym aparatem lub podzielić silosy, aby można było analizować dane z innych źródeł.
Skróty łączą dane między domenami bez przenoszenia danych
Skróty umożliwiają organizacji łatwe udostępnianie danych użytkownikom i aplikacjom bez konieczności niepotrzebnego przenoszenia i duplikowania informacji. Gdy zespoły działają niezależnie w oddzielnych obszarach roboczych, skróty umożliwiają łączenie danych między różnymi grupami biznesowymi i domenami w produkt danych wirtualnych, aby dopasować je do konkretnych potrzeb użytkownika.
Skrót to odwołanie do danych przechowywanych w innych lokalizacjach plików. Te lokalizacje plików mogą znajdować się w tym samym obszarze roboczym lub w różnych obszarach roboczych, w usłudze OneLake lub poza usługą OneLake w usługach ADLS, S3 lub Dataverse — z większą częścią lokalizacji docelowych. Niezależnie od lokalizacji skróty sprawiają, że pliki i foldery wyglądają tak, jakby były przechowywane lokalnie.
Jedna kopia danych z wieloma aparatami analitycznymi
Chociaż aplikacje mogą mieć separację magazynu i przetwarzania, dane są często zoptymalizowane pod kątem pojedynczego aparatu, co utrudnia ponowne użycie tych samych danych dla wielu aplikacji. W przypadku sieci szkieletowej różne aparaty analityczne (T-SQL, Apache Spark, Analysis Services itp.) przechowują dane w otwartym formacie Delta Parquet, aby umożliwić korzystanie z tych samych danych w wielu aparatach.
Nie ma już potrzeby kopiowania danych, aby używać ich z innym aparatem. Zawsze możesz wybrać najlepszy aparat do pracy, którą próbujesz wykonać. Załóżmy na przykład, że masz zespół inżynierów SQL tworzący w pełni transakcyjny magazyn danych. Mogą używać aparatu T-SQL i wszystkich możliwości języka T-SQL do tworzenia tabel, przekształcania danych i ładowania danych do tabel. Jeśli analityk danych chce korzystać z tych danych, nie musi już przechodzić przez specjalny sterownik Spark/SQL. Usługa OneLake przechowuje wszystkie dane w formacie Delta Parquet. Analitycy danych mogą korzystać z pełnej mocy aparatu Spark i bibliotek open source bezpośrednio nad danymi.
Użytkownicy biznesowi mogą tworzyć raporty usługi Power BI bezpośrednio w usłudze OneLake przy użyciu nowego trybu Direct Lake w akompiluj aparat usług Analysis Services. Aparat usług Analysis Services obsługuje modele semantyczne usługi Power BI i zawsze oferuje dwa tryby uzyskiwania dostępu do danych: importowanie i wykonywanie zapytań bezpośrednich. Tryb Direct Lake zapewnia użytkownikom całą szybkość importowania bez konieczności kopiowania danych, łącząc najlepsze wyniki importu i zapytań bezpośrednich. Aby uzyskać więcej informacji, zobacz Direct Lake.
Przykładowy diagram przedstawiający ładowanie danych przy użyciu platformy Spark, wykonywanie zapytań przy użyciu języka T-SQL i wyświetlanie danych w raporcie usługi Power BI.
Demonstrate understanding of common data engineering tasks to implement and manage data engineering workloads on Microsoft Azure, using a number of Azure services.