Grundlegendes zu Apache Spark für U-SQL-Entwickler

Microsoft unterstützt verschiedene Analysedienste wie Azure Databricks und Azure HDInsight sowie Azure Data Lake Analytics. Wir hören von Entwicklern, dass sie beim Erstellen von Analysepipelines ganz eindeutig Open Source-Lösungen bevorzugen. Wir haben diesen Leitfaden erstellt, um U-SQL-Entwicklern Apache Spark zu veranschaulichen und zu erläutern, wie U-SQL-Skripts in Apache Spark transformiert werden können.

Der Leitfaden enthält eine Reihe von Schritten, die ausgeführt werden können, sowie verschiedene Alternativen.

Schritte zum Transformieren von U-SQL in Apache Spark

  1. Transformieren Ihrer Pipelines für die Auftragsorchestrierung

    Wenn Sie Azure Data Factory zum Orchestrieren Ihrer Azure Data Lake Analytics-Skripts verwenden, müssen Sie diese für das Orchestrieren der neuen Spark-Programme anpassen.

  2. Verstehen der Unterschiede zwischen der Datenverwaltung in U-SQL und Spark

    Wenn Sie Ihre Daten aus Azure Data Lake Storage Gen1 in Azure Data Lake Storage Gen2 verschieben möchten, müssen Sie sowohl die Dateidaten als auch die im Katalog verwalteten Daten kopieren. Beachten Sie, dass Azure Data Lake Analytics nur Azure Data Lake Storage Gen1 unterstützt. Informationen dazu finden Sie unter Grundlegendes zu Spark-Datenformaten.

  3. Transformieren Ihrer U-SQL-Skripts in Spark

    Vor dem Transformieren Ihrer U-SQL-Skripts müssen Sie einen Analysedienst auswählen. Nachfolgend sind einige der verfügbaren Computedienste aufgelistet:

    • Azure Data Factory-Datenfluss: Zuordnungsdatenflüsse sind visuell gestaltete Datentransformationen, mit denen Datentechniker eine grafische Datentransformationslogik entwickeln können, ohne Code schreiben zu müssen. Obwohl nicht zum Ausführen von komplexem Benutzercode geeignet, können sie auf einfache Weise herkömmliche SQL-ähnliche Datenflusstransformationen darstellen.
    • Azure HDInsight Hive: Apache Hive in HDInsight eignet sich für ETL-Vorgänge (Extrahieren, Transformieren und Laden). Das bedeutet, dass Sie Ihre U-SQL-Skripts in Apache Hive übersetzen.
    • Apache Spark-Engines wie Azure HDInsight Spark oder Azure Databricks: Das bedeutet, dass Sie Ihre U-SQL-Skripts in Spark übersetzen. Weitere Informationen finden Sie unter Grundlegendes zu Spark-Datenformaten.

Achtung

Azure Databricks und Azure HDInsight Spark sind Clusterdienste und keine serverlosen Aufträge wie Azure Data Lake Analytics. Sie müssen berücksichtigen, wie die Cluster bereitgestellt werden, um das entsprechende Preis-Leistungs-Verhältnis zu erzielen, und wie deren Lebensdauer zu verwalten ist, um Kosten zu minimieren. Diese Dienste weisen verschiedene Leistungsmerkmale mit Benutzercode in .NET auf, sodass Sie entweder Wrapper schreiben oder Ihren Code in einer unterstützten Sprache umschreiben müssen. Weitere Informationen finden Sie unter Grundlegendes zu Spark-Datenformaten, Grundlegendes zu Apache Spark-Codekonzepten für U-SQL-Entwickler und .Net für Apache Spark.

Nächste Schritte