Az Apache Spark ismertetése U-SQL-fejlesztőknek
Fontos
Az Azure Data Lake Analytics 2024. február 29-én megszűnt. További információ ezzel a bejelentéssel.
Az adatelemzéshez a szervezet használhatja a Azure Synapse Analyticset vagy a Microsoft Fabricet.
A Microsoft számos Analytics-szolgáltatást támogat, például az Azure Databrickset, az Azure HDInsightot és az Azure Data Lake Analytics. A fejlesztőktől azt halljuk, hogy egyértelműen előnyben részesítik a nyílt forráskódú megoldásokat az elemzési folyamatok létrehozásakor. Ezt az útmutatót azért hoztuk létre, hogy segítsen a U-SQL-fejlesztőknek megérteni az Apache Sparkot, és hogy hogyan alakíthatja át U-SQL-szkripteit Apache Sparkra.
Ez tartalmazza a lépéseket, és számos alternatívát.
Az U-SQL Apache Sparkra való átalakításának lépései
Alakítsa át a feladatvezénylési folyamatokat.
Ha Azure Data Factory használja az Azure-Data Lake Analytics-szkriptek vezénylésére, módosítania kell őket az új Spark-programok vezényléséhez.
Megismerheti az U-SQL és a Spark adatkezelése közötti különbségeket.
Ha Azure Data Lake Storage Gen1-ről Azure Data Lake Storage Gen2 szeretné áthelyezni az adatokat, akkor a fájladatokat és a katalógusban tárolt adatokat is át kell másolnia. Az Azure Data Lake Analytics csak az 1. generációs Azure Data Lake Storage támogatja. További információ: A Spark-adatformátumok ismertetése.
Alakítsa át az U-SQL-szkripteket Sparkra.
Az U-SQL-szkriptek átalakítása előtt ki kell választania egy elemzési szolgáltatást. Az elérhető számítási szolgáltatások némelyike a következő:
- Azure Data Factory Adatfolyam-leképezési adatfolyamok vizuálisan megtervezett adatátalakítások, amelyek lehetővé teszik az adatmérnökök számára, hogy kódírás nélkül dolgozzanak ki grafikus adatátalakítási logikát. Bár nem alkalmasak összetett felhasználói kód végrehajtására, könnyen képviselhetik a hagyományos SQL-szerű adatfolyam-átalakításokat
- Azure HDInsight Hive Az Apache Hive on HDInsight a kinyerési, átalakítási és betöltési (ETL) műveletekhez használható. Ez azt jelenti, hogy lefordítja az U-SQL-szkripteket az Apache Hive-ra.
- Apache Spark-motorok, például az Azure HDInsight Spark vagy az Azure Databricks . Ez azt jelenti, hogy az U-SQL-szkripteket a Sparkra fogja fordítani. További információ: A Spark-adatformátumok ismertetése
Figyelemfelhívás
Az Azure Databricks és az Azure HDInsight Spark is fürtszolgáltatás, és nem kiszolgáló nélküli feladat, mint például az Azure Data Lake Analytics. Meg kell fontolnia, hogyan építheti ki a fürtöket a megfelelő költség/teljesítmény arány eléréséhez, és hogyan kezelheti élettartamukat a költségek minimalizálása érdekében. Ezek a szolgáltatások különböző teljesítményjellemzőkkel rendelkeznek a .NET-ben írt felhasználói kóddal, ezért vagy burkolókat kell írnia, vagy át kell írnia a kódot egy támogatott nyelven. További információ: A Spark-adatformátumok ismertetése, Az Apache Spark kódfogalmainak ismertetése U-SQL-fejlesztők számára, .NET for Apache Spark
Következő lépések
- A Spark-adatformátumok ismertetése U-SQL-fejlesztők számára
- A Spark kódfogalmainak megismerése U-SQL-fejlesztők számára
- A big data-elemzési megoldások frissítése Azure Data Lake Storage Gen1-ről Azure Data Lake Storage Gen2
- .NET az Apache Sparkhoz
- Adatok átalakítása Hadoop Hive-tevékenységgel a Azure Data Factory
- Adatok átalakítása Spark-tevékenységgel a Azure Data Factory
- Mi az az Azure HDInsight-alapú Apache Spark?