Kötegelt feldolgozási technológia kiválasztása az Azure-ban

A big data-megoldások gyakran hosszú ideig futó kötegelt feladatokat használnak az adatok szűrésére, összesítésére és egyéb módon elemzésre való előkészítésére. Ezek a feladatok általában a forrásfájlok skálázható tárolóból (például HDFS, Azure Data Lake Store és Azure Storage) való olvasását, feldolgozását és a kimenet skálázható tárolóban lévő új fájlokba való írását foglalják magukban.

Az ilyen kötegfeldolgozó motorok alapvető követelménye a számítások vertikális felskálázása nagy mennyiségű adat kezeléséhez. A valós idejű feldolgozástól eltérően a kötegelt feldolgozás várhatóan késéssel (az adatbetöltés és az eredmény számítása közötti idő) jár, amely percről órára mér.

Technológiai lehetőségek a kötegelt feldolgozáshoz

Azure Synapse Analytics

Az Azure Synapse egy elosztott rendszer, amely nagy méretű adatok elemzésére szolgál. Támogatja a nagy teljesítményű párhuzamos feldolgozást (MPP), ami alkalmassá teszi a nagy teljesítményű elemzések futtatására. Fontolja meg az Azure Synapse-t, ha nagy mennyiségű adat (több mint 1 TB) van, és olyan elemzési számítási feladatot futtat, amely kihasználja a párhuzamosságot.

Azure Data Lake Analytics

A Data Lake Analytics egy igény szerinti elemzési feladatszolgáltatás. Az Azure Data Lake Store-ban tárolt nagy adathalmazok elosztott feldolgozására van optimalizálva.

  • Nyelvek: U-SQL (beleértve a Python-, R- és C#-bővítményeket).
  • Integrálható az Azure Data Lake Store-ral, az Azure Storage-blobokkal, az Azure SQL Database-zel és az Azure Synapse-vel.
  • A díjszabási modell feladatonkénti.

HDInsight

A HDInsight egy felügyelt Hadoop-szolgáltatás. Hadoop-fürtök üzembe helyezése és kezelése az Azure-ban. Kötegelt feldolgozáshoz használhatja a Spark, a Hive, a Hive LLAP és a MapReduce parancsot.

  • Nyelvek: R, Python, Java, Scala, SQL
  • Kerberos-hitelesítés az Active Directoryval, Apache Ranger-alapú hozzáférés-vezérléssel
  • Teljes körű vezérlést biztosít a Hadoop-fürt felett

Azure Databricks

Az Azure Databricks egy Apache Spark-alapú elemzési platform. Úgy is gondolhatja, hogy "Spark, mint szolgáltatás". Ez a legegyszerűbb módja a Spark azure-platformon való használatának.

  • Nyelvek: R, Python, Java, Scala, Spark SQL
  • Gyors fürtindítási idők, automatikus skálázás, automatikus skálázás.
  • Kezeli a Spark-fürtöt.
  • Az Azure Blob Storage, az Azure Data Lake Storage (ADLS), az Azure Synapse és más szolgáltatások beépített integrációja. Lásd az adatforrásokat.
  • Felhasználói hitelesítés Microsoft Entra-azonosítóval.
  • Webes jegyzetfüzetek együttműködéshez és adatfeltáráshoz.
  • GPU-kompatibilis fürtök támogatása

Kulcsválasztási feltételek

A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:

  • Szeretne felügyelt szolgáltatást ahelyett, hogy saját kiszolgálókat kezel?

  • Kötegfeldolgozási logikát szeretne deklaratívan vagy imperatív módon létrehozni?

  • Végrehajtja a kötegelt feldolgozást kipukkanásokban? Ha igen, fontolja meg azokat a beállításokat, amelyek lehetővé teszik a fürt automatikus leállítását, vagy amelyek tarifamodellje kötegelt feladatonként van.

  • Le kell kérdeznie a relációs adattárakat a kötegelt feldolgozással együtt, például a referenciaadatok kereséséhez? Ha igen, fontolja meg a külső relációs tárolók lekérdezését lehetővé tevő beállításokat.

Képességmátrix

Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.

Általános képességek

Funkció Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Felügyelt szolgáltatás Igen Igen Igen 1 Igen
Relációs adattár Igen Igen Nem Igen
Díjszabási modell Kötegelt feladatonként Fürtóra szerint Fürtóra szerint Databricks Unit2 + fürt óra

[1] Manuális konfigurációval.

[2] A Databricks Egység (DBU) óránkénti feldolgozási képességegység.

Capabilities

Funkció Azure Data Lake Analytics Azure Synapse HDInsight a Sparkkal HDInsight és Hive HDInsight és Hive LLAP Azure Databricks
Automatikus skálázás Nem No Yes Yes Yes Igen
Vertikális felskálázás részletessége Feladatonként Fürtönként Fürtönként Fürtönként Fürtönként Fürtönként
Adatok memóriabeli gyorsítótárazása Nem Yes Igen Nem Yes Igen
Lekérdezés külső relációs tárolókból Igen Nem Igen Nem No Igen
Hitelesítés Microsoft Entra ID SQL/ Microsoft Entra ID Nem Microsoft Entra ID1 Microsoft Entra ID1 Microsoft Entra ID
Naplózás Igen Igen Nem Igen 1 Igen 1 Igen
Row-level security Nem Igen2 Nem Igen 1 Igen 1 Igen
Tűzfalak támogatása Igen Yes Igen Igen 3 Igen 3 Igen
Dynamic data masking Nem Igen Nem Igen 1 Igen 1 Igen

[1] Tartományhoz csatlakoztatott HDInsight-fürt használatát igényli.

[2] A szűrési predikátumok csak. Lásd: Sorszintű biztonság

[3] Azure-beli virtuális hálózaton belüli használat esetén támogatott.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerző:

További lépések