OneLake, OneDrive pro data
OneLake je jedno jednotné logické datové jezero pro celou organizaci. Data Lake zpracovává velké objemy dat z různých zdrojů. Stejně jako OneDrive se OneLake automaticky dodává s každým tenantem Microsoft Fabric a je navržený jako jediné místo pro všechna analytická data. OneLake přináší zákazníky:
- Jedno datové jezero pro celou organizaci
- Jedna kopie dat pro použití s několika analytickými moduly
Než OneLake, bylo pro zákazníky jednodušší vytvářet více jezer pro různé obchodní skupiny místo spolupráce na jednom jezeře, a to i s dodatečnými režijními náklady na správu více prostředků. OneLake se zaměřuje na odstranění těchto problémů zlepšením spolupráce. Každý tenant zákazníka má přesně jeden OneLake. Nikdy nemůže existovat více než jeden a pokud máte Prostředky infrastruktury, nikdy nesmí být nula. Každý tenant Fabric automaticky zřizuje OneLake, bez dalších prostředků pro nastavení nebo správu.
Koncept tenanta je jedinečnou výhodou služby SaaS. Znalost zahájení a ukončení organizace zákazníka poskytuje přirozenou hranici zásad správného řízení a dodržování předpisů, která je pod kontrolou správce tenanta. Všechna data, která přistane ve OneLake, se ve výchozím nastavení řídí. I když jsou všechna data v mezích nastavených správcem tenanta, je důležité, aby se tento správce nestal centrálním vrátkem, který brání ostatním částem organizace v přispívání do OneLake.
V rámci tenanta můžete vytvořit libovolný počet pracovních prostorů. Pracovní prostory umožňují různým částem organizace distribuovat zásady vlastnictví a přístupu. Každý pracovní prostor je součástí kapacity, která je svázaná s konkrétní oblastí a účtuje se samostatně.
V pracovním prostoru můžete vytvářet datové položky a přistupovat ke všem datům ve OneLake prostřednictvím datových položek. Podobně jako Office ukládá soubory Wordu, Excelu a PowerPointu na OneDrivu, v Prostředcích infrastruktury jsou v Úložišti jezera, sklady a další položky ve OneLake. Položky můžou poskytnout přizpůsobené prostředí pro každou osobu, jako je prostředí pro vývojáře Apache Sparku v jezeře.
Další informace o tom, jak začít používat OneLake, najdete v tématu Vytvoření jezera s OneLake.
OneLake je otevřený na všech úrovních. OneLake je založený na Azure Data Lake Storage (ADLS) Gen2 a podporuje jakýkoli typ souboru, strukturované nebo nestrukturované. Všechny datové položky infrastruktury, jako jsou datové sklady a jezero, ukládají data automaticky ve formátu OneLake ve formátu Delta Parquet. Pokud datový inženýr načte data do jezera pomocí Apache Sparku a pak vývojář SQL použije T-SQL k načtení dat do plně transakčního datového skladu, oba přispívají do stejného datového jezera. OneLake ukládá všechna tabulková data ve formátu Delta Parquet.
OneLake podporuje stejná rozhraní API a sady SDK ADLS Gen2, aby byly kompatibilní s existujícími aplikacemi ADLS Gen2, včetně Azure Databricks. Data v OneLake můžete adresovat, jako by to byl jeden velký účet úložiště ADLS pro celou organizaci. Každý pracovní prostor se zobrazí jako kontejner v rámci tohoto účtu úložiště a různé datové položky se zobrazí jako složky v rámci těchto kontejnerů.
Další informace o rozhraních API a koncových bodech najdete v tématu Přístup k OneLake a rozhraní API. Příklady integrace OneLake s Azure najdete v článcích o Azure Synapse Analytics, Průzkumníku služby Azure Storage, Azure Databricks a Azure HDInsight .
OneLake je OneDrive pro data. Stejně jako OneDrive můžete data OneLake snadno zkoumat z Windows pomocí Průzkumníka souborů OneLake pro Windows. Můžete procházet všechny pracovní prostory a datové položky, snadno nahrávat, stahovat nebo upravovat soubory stejně jako v Office. Průzkumník souborů OneLake zjednodušuje práci s datovými jezery, takže je můžou používat i netechnické firemní uživatelé.
Další informace najdete v průzkumníku souborů OneLake.
OneLake vám dává nejvyšší možnou hodnotu z jedné kopie dat bez přesunu nebo duplikace dat. Už nemusíte kopírovat data, abyste je mohli používat s jiným modulem nebo rozdělit sila, abyste mohli data analyzovat daty z jiných zdrojů.
Klávesové zkratky umožňují vaší organizaci snadno sdílet data mezi uživateli a aplikacemi, aniž by museli zbytečně přesouvat a duplikovat informace. Když týmy pracují nezávisle na samostatných pracovních prostorech, umožňují klávesové zkratky kombinovat data mezi různými obchodními skupinami a doménami do virtuálního datového produktu tak, aby vyhovovaly konkrétním potřebám uživatele.
Zástupce je odkaz na data uložená v jiných umístěních souborů. Tato umístění souborů můžou být ve stejném pracovním prostoru nebo v různých pracovních prostorech, v rámci OneLake nebo externích aplikací OneLake v ADLS, S3 nebo Dataverse – s dalšími cílovými umístěními, která budou brzy k dispozici. Bez ohledu na umístění budou klávesové zkratky soubory a složky vypadat, jako byste je uložili místně.
Další informace o tom, jak používat klávesové zkratky, najdete v tématu Klávesové zkratky OneLake.
I když můžou mít aplikace oddělení úložiště a výpočtů, data se často optimalizují pro jeden modul, což ztěžuje opakované použití stejných dat pro více aplikací. V případě prostředků infrastruktury ukládají různé analytické moduly (T-SQL, Apache Spark, Analysis Services atd.) data v otevřeném formátu Delta Parquet, abyste mohli používat stejná data napříč několika moduly.
Už není potřeba kopírovat data, abyste je mohli použít s jiným modulem. Vždy si můžete vybrat nejlepší modul pro úlohu, kterou se snažíte provést. Představte si například, že máte tým techniků SQL, kteří vytvářejí plně transakční datový sklad. Můžou používat modul T-SQL a všechny možnosti T-SQL k vytváření tabulek, transformaci dat a načítání dat do tabulek. Pokud datový vědec chce tato data používat, už nemusí projít speciálním ovladačem Spark/SQL. OneLake ukládá všechna data ve formátu Delta Parquet. Datoví vědci můžou využívat plnou sílu modulu Spark a jejích opensourcových knihoven přímo nad daty.
Podnikoví uživatelé můžou vytvářet sestavy Power BI přímo nad OneLake pomocí nového režimu Direct Lake v modulu Analysis Services. Modul Analysis Services využívá sémantické modely Power BI a vždy nabízí dva režimy přístupu k datům: import a přímý dotaz. Režim Direct Lake poskytuje uživatelům veškerou rychlost importu, aniž by museli kopírovat data a kombinovat nejlepší import a přímý dotaz. Další informace najdete v tématu Direct Lake.
Příklad diagramu znázorňující načítání dat pomocí Sparku, dotazování pomocí T-SQL a zobrazení dat v sestavě Power BI