Megosztás a következőn keresztül:


Az Apache Spark ismertetése U-SQL-fejlesztőknek

Fontos

Az Azure Data Lake Analytics 2024. február 29-én megszűnt. További információ ezzel a bejelentéssel.

Az adatelemzéshez a szervezet használhatja a Azure Synapse Analyticset vagy a Microsoft Fabricet.

A Microsoft számos Analytics-szolgáltatást támogat, például az Azure Databrickset, az Azure HDInsightot és az Azure Data Lake Analytics. A fejlesztőktől azt halljuk, hogy egyértelműen előnyben részesítik a nyílt forráskódú megoldásokat az elemzési folyamatok létrehozásakor. Ezt az útmutatót azért hoztuk létre, hogy segítsen a U-SQL-fejlesztőknek megérteni az Apache Sparkot, és hogy hogyan alakíthatja át U-SQL-szkripteit Apache Sparkra.

Ez tartalmazza a lépéseket, és számos alternatívát.

Az U-SQL Apache Sparkra való átalakításának lépései

  1. Alakítsa át a feladatvezénylési folyamatokat.

    Ha Azure Data Factory használja az Azure-Data Lake Analytics-szkriptek vezénylésére, módosítania kell őket az új Spark-programok vezényléséhez.

  2. Megismerheti az U-SQL és a Spark adatkezelése közötti különbségeket.

    Ha Azure Data Lake Storage Gen1-ről Azure Data Lake Storage Gen2 szeretné áthelyezni az adatokat, akkor a fájladatokat és a katalógusban tárolt adatokat is át kell másolnia. Az Azure Data Lake Analytics csak az 1. generációs Azure Data Lake Storage támogatja. További információ: A Spark-adatformátumok ismertetése.

  3. Alakítsa át az U-SQL-szkripteket Sparkra.

    Az U-SQL-szkriptek átalakítása előtt ki kell választania egy elemzési szolgáltatást. Az elérhető számítási szolgáltatások némelyike a következő:

    • Azure Data Factory Adatfolyam-leképezési adatfolyamok vizuálisan megtervezett adatátalakítások, amelyek lehetővé teszik az adatmérnökök számára, hogy kódírás nélkül dolgozzanak ki grafikus adatátalakítási logikát. Bár nem alkalmasak összetett felhasználói kód végrehajtására, könnyen képviselhetik a hagyományos SQL-szerű adatfolyam-átalakításokat
    • Azure HDInsight Hive Az Apache Hive on HDInsight a kinyerési, átalakítási és betöltési (ETL) műveletekhez használható. Ez azt jelenti, hogy lefordítja az U-SQL-szkripteket az Apache Hive-ra.
    • Apache Spark-motorok, például az Azure HDInsight Spark vagy az Azure Databricks . Ez azt jelenti, hogy az U-SQL-szkripteket a Sparkra fogja fordítani. További információ: A Spark-adatformátumok ismertetése

Figyelemfelhívás

Az Azure Databricks és az Azure HDInsight Spark is fürtszolgáltatás, és nem kiszolgáló nélküli feladat, mint például az Azure Data Lake Analytics. Meg kell fontolnia, hogyan építheti ki a fürtöket a megfelelő költség/teljesítmény arány eléréséhez, és hogyan kezelheti élettartamukat a költségek minimalizálása érdekében. Ezek a szolgáltatások különböző teljesítményjellemzőkkel rendelkeznek a .NET-ben írt felhasználói kóddal, ezért vagy burkolókat kell írnia, vagy át kell írnia a kódot egy támogatott nyelven. További információ: A Spark-adatformátumok ismertetése, Az Apache Spark kódfogalmainak ismertetése U-SQL-fejlesztők számára, .NET for Apache Spark

Következő lépések