Förstå Apache Spark för U-SQL-utvecklare

Viktigt

Azure Data Lake Analytics tillbaka den 29 februari 2024. Läs mer med det här meddelandet.

För dataanalys kan din organisation använda Azure Synapse Analytics eller Microsoft Fabric.

Microsoft har stöd för flera analystjänster som Azure Databricks, Azure HDInsight och Azure Data Lake Analytics. Vi hör från utvecklare att de har en tydlig preferens för lösningar med öppen källkod när de skapar analyspipelines. För att hjälpa U-SQL-utvecklare att förstå Apache Spark och hur du kan transformera dina U-SQL-skript till Apache Spark har vi skapat den här vägledningen.

Den innehåller de steg du kan vidta och flera alternativ.

Steg för att transformera U-SQL till Apache Spark

  1. Transformera dina jobborkestreringspipelines.

    Om du använder Azure Data Factory för att orkestrera dina Azure Data Lake Analytics-skript måste du justera dem för att orkestrera de nya Spark-programmen.

  2. Förstå skillnaderna mellan hur U-SQL och Spark hanterar data.

    Om du vill flytta dina data från Azure Data Lake Storage Gen1 till Azure Data Lake Storage Gen2 måste du kopiera både fildata och katalogunderhållna data. Azure Data Lake Analytics stöder endast Azure Data Lake Storage Gen1. Mer information finns i Förstå Spark-dataformat.

  3. Transformera dina U-SQL-skript till Spark.

    Innan du transformerar dina U-SQL-skript måste du välja en analystjänst. Några av de tillgängliga beräkningstjänsterna är:

    • Azure Data Factory dataflöden för dataflödesmappning är visuellt utformade datatransformeringar som gör det möjligt för datatekniker att utveckla en grafisk datatransformeringslogik utan att skriva kod. De är inte lämpade för att köra komplex användarkod, men de kan enkelt representera traditionella SQL-liknande dataflödesomvandlingar
    • Azure HDInsight Hive Apache Hive på HDInsight passar för åtgärder för extrahering, transformering och inläsning (ETL). Det innebär att du ska översätta dina U-SQL-skript till Apache Hive.
    • Apache Spark-motorer som Azure HDInsight Spark eller Azure Databricks Det innebär att du ska översätta dina U-SQL-skript till Spark. Mer information finns i Förstå Spark-dataformat

Varning

Både Azure Databricks och Azure HDInsight Spark är klustertjänster och inte serverlösa jobb som Azure Data Lake Analytics. Du måste överväga hur du etablerar klustren för att få rätt kostnads-/prestandaförhållande och hur du hanterar deras livslängd för att minimera dina kostnader. Dessa tjänster har olika prestandaegenskaper med användarkod som skrivits i .NET, så du måste antingen skriva om eller skriva om koden på ett språk som stöds. Mer information finns i Förstå Spark-dataformat, Förstå Apache Spark-kodbegrepp för U-SQL-utvecklare, .NET för Apache Spark

Nästa steg