Sdílet prostřednictvím


Co je Azure Data Lake Storage Gen1?

Poznámka:

Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné.

Azure Data Lake Storage Gen1 je podnikové úložiště s hyper-škálováním pro analytické úlohy pro velké objemy dat. Azure Data Lake umožňuje zaznamenávat data libovolné velikosti, typu a rychlosti příjmu do jediného místa pro účely provozní a zjišťovací analýzy.

Data Lake Storage Gen1 je možné získat přístup z Hadoopu (k dispozici v clusteru HDInsight) pomocí rozhraní REST API kompatibilních s WebHDFS. Je navržená tak, aby umožňovala analýzu uložených dat a je vyladěná pro výkon pro scénáře analýzy dat. Data Lake Storage Gen1 zahrnuje všechny možnosti na podnikové úrovni: zabezpečení, spravovatelnost, škálovatelnost, spolehlivost a dostupnost.

Azure Data Lake

Klíčové funkce

Mezi klíčové funkce Data Lake Storage Gen1 patří následující.

Sestaveno pro Hadoop

Data Lake Storage Gen1 je systém souborů Apache Hadoop, který je kompatibilní se systémem souborů HDFS (Hadoop Distributed File System) a pracuje s ekosystémem Hadoop. Vaše stávající aplikace nebo služby HDInsight, které používají rozhraní WebHDFS API, se můžou snadno integrovat s Data Lake Storage Gen1. Data Lake Storage Gen1 také zveřejňuje rozhraní REST kompatibilní s WebHDFS pro aplikace.

Data uložená v Data Lake Storage Gen1 můžete snadno analyzovat pomocí analytických architektur Hadoop, jako jsou MapReduce nebo Hive. Můžete zřídit clustery Azure HDInsight a nakonfigurovat je pro přímý přístup k datům uloženým v Data Lake Storage Gen1.

Neomezené úložiště, petabajtové soubory

Data Lake Storage Gen1 poskytuje neomezené úložiště a může ukládat různá data pro analýzy. Neukládá žádné limity pro velikosti účtů, velikosti souborů ani množství dat, která je možné uložit v datovém jezeře. Jednotlivé soubory můžou mít velikost od kilobajtů až po petabajty. Data jsou trvale uložena tak, že vytváří více kopií. Doba, po kterou mohou být data uložena v datovém jezeře, není nijak omezena.

Optimalizace výkonu pro analýzu velkých objemů dat

Data Lake Storage Gen1 je sestavená pro spouštění rozsáhlých analytických systémů, které vyžadují masivní propustnost pro dotazování a analýzu velkých objemů dat. Úložiště Data Lake rozděluje části souborů do několika jednotlivých serverů úložiště. Tím se zvyšuje propustnost čtení při paralelním čtení souboru pro provádění analýz dat.

Připraveno pro podniky: Vysoce dostupné a zabezpečené

Data Lake Storage Gen1 poskytuje standardní dostupnost a spolehlivost. Vaše datové prostředky se ukládají odolným způsobem díky vytváření redundantních kopií, které chrání před neočekávaným selháním.

Data Lake Storage Gen1 také poskytuje zabezpečení uložených dat na podnikové úrovni. Další informace najdete v tématu Zabezpečení dat ve službě Azure Data Lake Storage Gen1.

Všechna data

Data Lake Storage Gen1 může ukládat všechna data v nativním formátu bez nutnosti jakýchkoli předchozích transformací. Data Lake Storage Gen1 nevyžaduje, aby bylo před načtením dat definováno schéma, takže ho ponecháte v individuálním analytickém rozhraní pro interpretaci dat a definování schématu v době analýzy. Možnost ukládat soubory libovolných velikostí a formátů umožňuje data Lake Storage Gen1 zpracovávat strukturovaná, částečně strukturovaná a nestrukturovaná data.

Kontejnery Data Lake Storage Gen1 pro data jsou v podstatě složky a soubory. S uloženými daty pracujete pomocí sad SDK, webu Azure Portal a Azure PowerShellu. Pokud data vložíte do úložiště pomocí těchto rozhraní a použijete příslušné kontejnery, můžete uložit libovolný typ dat. Data Lake Storage Gen1 neprovádí žádné zvláštní zpracování dat na základě typu uložených dat.

Zabezpečení dat

Data Lake Storage Gen1 používá k ověřování ID Microsoft Entra a seznamy řízení přístupu (ACL) ke správě přístupu k vašim datům.

Funkce Popis
Ověřování Data Lake Storage Gen1 se integruje s ID Microsoft Entra pro správu identit a přístupu pro všechna data uložená v Data Lake Storage Gen1. Díky integraci využívá Data Lake Storage Gen1 všechny funkce Microsoft Entra, jako je vícefaktorové ověřování, podmíněný přístup, řízení přístupu na základě role Azure, monitorování využití aplikací, monitorování zabezpečení a upozorňování atd. Data Lake Storage Gen1 podporuje protokol OAuth 2.0 pro ověřování v rozhraní REST. Viz ověřování Data Lake Storage Gen1.
Řízení přístupu Data Lake Storage Gen1 poskytuje řízení přístupu tím, že podporuje oprávnění ve stylu POSIX vystavená protokolem WebHDFS. Seznamy ACL můžete povolit v kořenové složce, v podsložkách a v jednotlivých souborech. Další informace o tom, jak seznamy ACL fungují v kontextu Data Lake Storage Gen1, najdete v tématu Řízení přístupu v Data Lake Storage Gen1.
Šifrování Data Lake Storage Gen1 také poskytuje šifrování dat uložených v účtu. Při vytváření účtu Data Lake Storage Gen1 zadáte nastavení šifrování. Můžete se rozhodnout, že vaše data budou zašifrovaná nebo se rozhodnete bez šifrování. Další informace najdete v tématu Šifrování ve službě Data Lake Storage Gen1. Pokyny k poskytování konfigurace související s šifrováním najdete v tématu Začínáme se službou Data Lake Storage Gen1 pomocí webu Azure Portal.

Pokyny k zabezpečení dat v Data Lake Storage Gen1 najdete v tématu Zabezpečení dat v Azure Data Lake Storage Gen1.

Kompatibilita aplikací

Data Lake Storage Gen1 je kompatibilní s většinou opensourcových komponent v ekosystému Hadoop. Také se dobře integruje s dalšími službami Azure. Další informace o tom, jak používat Data Lake Storage Gen1 s opensourcovými komponentami a dalšími službami Azure, najdete na následujících odkazech:

Systém souborů Data Lake Storage Gen1

Data Lake Storage Gen1 je možné získat přístup prostřednictvím systému souborů AzureDataLakeFilesystem (adl://) v prostředích Hadoop (k dispozici v clusteru HDInsight). Aplikace a služby, které používají adl://, můžou využívat další optimalizace výkonu, které nejsou aktuálně dostupné v systému WebHDFS. Díky tomu vám Data Lake Storage Gen1 poskytuje flexibilitu, abyste buď mohli využít nejlepší výkon s doporučenou možností použití adl://, nebo udržovat stávající kód tím, že budete dál používat rozhraní WebHDFS API přímo. Azure HDInsight plně využívá azureDataLakeFilesystem k zajištění nejlepšího výkonu ve službě Data Lake Storage Gen1.

K datům v Data Lake Storage Gen1 můžete přistupovat pomocí adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Další informace o přístupu k datům v Data Lake Storage Gen1 najdete v tématu Zobrazení vlastností uložených dat.

Další kroky