Kötegelt feldolgozási technológia kiválasztása az Azure-ban
A big data-megoldások gyakran hosszú ideig futó kötegelt feladatokat használnak az adatok szűrésére, összesítésére és egyéb módon elemzésre való előkészítésére. Ezek a feladatok általában a forrásfájlok skálázható tárolóból (például HDFS, Azure Data Lake Store és Azure Storage) való olvasását, feldolgozását és a kimenet skálázható tárolóban lévő új fájlokba való írását foglalják magukban.
Az ilyen kötegfeldolgozó motorok alapvető követelménye a számítások vertikális felskálázása nagy mennyiségű adat kezeléséhez. A valós idejű feldolgozástól eltérően a kötegelt feldolgozás várhatóan késéssel (az adatbetöltés és az eredmény számítása közötti idő) jár, amely percről órára mér.
Technológiai lehetőségek a kötegelt feldolgozáshoz
Azure Synapse Analytics
Az Azure Synapse egy elosztott rendszer, amely nagy méretű adatok elemzésére szolgál. Támogatja a nagy teljesítményű párhuzamos feldolgozást (MPP), ami alkalmassá teszi a nagy teljesítményű elemzések futtatására. Fontolja meg az Azure Synapse-t, ha nagy mennyiségű adat (több mint 1 TB) van, és olyan elemzési számítási feladatot futtat, amely kihasználja a párhuzamosságot.
Azure Data Lake Analytics
A Data Lake Analytics egy igény szerinti elemzési feladatszolgáltatás. Az Azure Data Lake Store-ban tárolt nagy adathalmazok elosztott feldolgozására van optimalizálva.
- Nyelvek: U-SQL (beleértve a Python-, R- és C#-bővítményeket).
- Integrálható az Azure Data Lake Store-ral, az Azure Storage-blobokkal, az Azure SQL Database-zel és az Azure Synapse-vel.
- A díjszabási modell feladatonkénti.
HDInsight
A HDInsight egy felügyelt Hadoop-szolgáltatás. Hadoop-fürtök üzembe helyezése és kezelése az Azure-ban. Kötegelt feldolgozáshoz használhatja a Spark, a Hive, a Hive LLAP és a MapReduce parancsot.
- Nyelvek: R, Python, Java, Scala, SQL
- Kerberos-hitelesítés az Active Directoryval, Apache Ranger-alapú hozzáférés-vezérléssel
- Teljes körű vezérlést biztosít a Hadoop-fürt felett
Azure Databricks
Az Azure Databricks egy Apache Spark-alapú elemzési platform. Úgy is gondolhatja, hogy "Spark, mint szolgáltatás". Ez a legegyszerűbb módja a Spark azure-platformon való használatának.
- Nyelvek: R, Python, Java, Scala, Spark SQL
- Gyors fürtindítási idők, automatikus skálázás, automatikus skálázás.
- Kezeli a Spark-fürtöt.
- Az Azure Blob Storage, az Azure Data Lake Storage (ADLS), az Azure Synapse és más szolgáltatások beépített integrációja. Lásd az adatforrásokat.
- Felhasználói hitelesítés Microsoft Entra-azonosítóval.
- Webes jegyzetfüzetek együttműködéshez és adatfeltáráshoz.
- GPU-kompatibilis fürtök támogatása
Kulcsválasztási feltételek
A lehetőségek szűkítéséhez először válaszoljon az alábbi kérdésekre:
Szeretne felügyelt szolgáltatást ahelyett, hogy saját kiszolgálókat kezel?
Kötegfeldolgozási logikát szeretne deklaratívan vagy imperatív módon létrehozni?
Végrehajtja a kötegelt feldolgozást kipukkanásokban? Ha igen, fontolja meg azokat a beállításokat, amelyek lehetővé teszik a fürt automatikus leállítását, vagy amelyek tarifamodellje kötegelt feladatonként van.
Le kell kérdeznie a relációs adattárakat a kötegelt feldolgozással együtt, például a referenciaadatok kereséséhez? Ha igen, fontolja meg a külső relációs tárolók lekérdezését lehetővé tevő beállításokat.
Képességmátrix
Az alábbi táblázatok összefoglalják a képességek főbb különbségeit.
Általános képességek
Funkció | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
---|---|---|---|---|
Felügyelt szolgáltatás | Igen | Igen | Igen 1 | Igen |
Relációs adattár | Igen | Igen | Nem | Igen |
Díjszabási modell | Kötegelt feladatonként | Fürtóra szerint | Fürtóra szerint | Databricks Unit2 + fürt óra |
[1] Manuális konfigurációval.
[2] A Databricks Egység (DBU) óránkénti feldolgozási képességegység.
Capabilities
Funkció | Azure Data Lake Analytics | Azure Synapse | HDInsight a Sparkkal | HDInsight és Hive | HDInsight és Hive LLAP | Azure Databricks |
---|---|---|---|---|---|---|
Automatikus skálázás | Nem | No | Yes | Yes | Yes | Igen |
Vertikális felskálázás részletessége | Feladatonként | Fürtönként | Fürtönként | Fürtönként | Fürtönként | Fürtönként |
Adatok memóriabeli gyorsítótárazása | Nem | Yes | Igen | Nem | Yes | Igen |
Lekérdezés külső relációs tárolókból | Igen | Nem | Igen | Nem | No | Igen |
Hitelesítés | Microsoft Entra ID | SQL/ Microsoft Entra ID | Nem | Microsoft Entra ID1 | Microsoft Entra ID1 | Microsoft Entra ID |
Naplózás | Igen | Igen | Nem | Igen 1 | Igen 1 | Igen |
Row-level security | Nem | Igen2 | Nem | Igen 1 | Igen 1 | Igen |
Tűzfalak támogatása | Igen | Yes | Igen | Igen 3 | Igen 3 | Igen |
Dynamic data masking | Nem | Igen | Nem | Igen 1 | Igen 1 | Igen |
[1] Tartományhoz csatlakoztatott HDInsight-fürt használatát igényli.
[2] A szűrési predikátumok csak. Lásd: Sorszintű biztonság
[3] Azure-beli virtuális hálózaton belüli használat esetén támogatott.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerző:
- Zoiner Tejada | vezérigazgató és tervező
További lépések
- Tóadatbázis létrehozása az Azure Synapse Analyticsben
- Create an Azure Databricks workspace
- Az Azure Databricks felfedezése
- Az Azure Data Lake Analytics használatának első lépései az Azure Portal használatával
- Az Azure Synapse Analytics bemutatása
- Mi az az Azure Databricks?
- What is Azure Synapse Analytics?
Kapcsolódó erőforrások
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: