Mi az a Data Lake?

A data lake egy tárház, amely nagy mennyiségű adatot tárol natív, nyers formátumban. A Data Lake-tárolók terabájtos és petabájtos adatokra való skálázásra vannak optimalizálva. Az adatok általában több heterogén forrásból származnak, és strukturáltak, részben strukturáltak vagy strukturálatlanok lehetnek. A data lake lényege, hogy mindent eredeti, nem lefordított állapotban tároljon. Ez a megközelítés eltér a hagyományos adattárháztól, amely a betöltéskor átalakítja és feldolgozza az adatokat.

A diagram that shows the different data lake use cases.

A data lake-használati esetek a következők:

  • Felhőbeli és IoT-adatáthelyezés
  • Big data jellegű adatok feldolgozása
  • Analytics
  • Jelentéskészítés
  • Helyszíni adatáthelyezés

A data lake előnyei:

  • A rendszer soha nem dobja el az adatokat, mert az adatok nyers formátumban lesznek tárolva. Ez különösen hasznos egy big data-környezetben, amikor nem biztos, hogy előre tudja, milyen elemzések érhetők el az adatokból.
  • A felhasználók megismerhetik az adatokat, és saját lekérdezéseket hozhatnak létre.
  • Gyorsabb lehet, mint a hagyományos ETL-eszközök.
  • Rugalmasabb, mint egy adattárház, mert strukturálatlan és félig strukturált adatokat tárolhat.

A teljes data lake-megoldás tárolásból és feldolgozásból áll. A Data Lake Storage hibatűrésre, végtelen méretezhetőségre és az adatok nagy átviteli sebességre való betöltésére lett tervezve, különböző alakzatokkal és méretekkel. A data lake-feldolgozás egy vagy több olyan feldolgozómotort foglal magában, amely ezeket a célokat szem előtt tartva épül fel, és nagy méretekben képes a data lake-ben tárolt adatokon működni.

Mikor érdemes data lake-t használni?

A data lake tipikus felhasználási módjai közé tartozik az adatfeltárás, az adatelemzés és a gépi tanulás.

A data lake az adattárház adatforrásaként is működhet. Ezzel a módszerrel a nyers adatok a data lake-be kerülnek, majd strukturált, lekérdezhető formátummá alakulnak. Ez az átalakítás általában egy ELT (extract-load-transform) folyamatot használ, ahol az adatok betöltése és átalakítása a helyén történik. A már relációs forrásadatok közvetlenül az adattárházba kerülhetnek egy ETL-folyamattal, kihagyva a data lake-t.

A data lake-tárolókat gyakran használják eseménystreamelési vagy IoT-forgatókönyvekben, mivel nagy mennyiségű relációs és nem kapcsolódó adatot őrizhetnek meg átalakítás vagy sémadefiníció nélkül. Ezek nagy mennyiségű kis írás kezelésére készültek alacsony késéssel, és nagy átviteli sebességre vannak optimalizálva.

Az alábbi táblázat a data lake-eket és az adattárházakat hasonlítja össze:

A table that compares data lake features with data warehouse features.

Problémák

  • A séma vagy leíró metaadatok hiánya megnehezítheti az adatok használatát vagy lekérdezését.
  • Az adatok szemantikai konzisztenciájának hiánya megnehezítheti az adatok elemzését, kivéve, ha a felhasználók magasan képzettek az adatelemzésben.
  • Nehéz lehet garantálni a data lake-be kerülő adatok minőségét.
  • Megfelelő irányítás nélkül a hozzáférés-vezérléssel és az adatvédelemmel kapcsolatos problémák problémák lehetnek. Milyen információk kerülnek a data lake-be, ki férhet hozzá az adatokhoz, és milyen célokra?
  • Előfordulhat, hogy a data lake nem a legjobb módszer a már relációs adatok integrálására.
  • A data lake önmagában nem biztosít integrált vagy holisztikus nézeteket a szervezeten belül.
  • A data lake olyan adatok memóriaképévé válhat, amelyeket soha nem elemeznek vagy bányásznak elemzés céljából.

Technológiai lehetőségek

Data Lake-megoldások létrehozása az Azure által kínált alábbi szolgáltatások használatával:

A diagram that shows the key data lake services.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

További lépések