Grundlegendes zu Apache Spark für U-SQL-Entwickler

Wichtig

Azure Data Lake Analytics am 29. Februar 2024 eingestellt. In dieser Ankündigung erhalten Sie weitere Informationen.

Für Datenanalysen kann Ihr organization Azure Synapse Analytics oder Microsoft Fabric verwenden.

Microsoft unterstützt mehrere Analysedienste wie Azure Databricks, Azure HDInsight und Azure Data Lake Analytics. Wir hören von Entwicklern, dass sie beim Erstellen von Analysepipelines ganz eindeutig Open Source-Lösungen bevorzugen. Wir haben diesen Leitfaden erstellt, um U-SQL-Entwicklern Apache Spark zu veranschaulichen und zu erläutern, wie U-SQL-Skripts in Apache Spark transformiert werden können.

Es enthält die Schritte, die Sie ausführen können, und mehrere Alternativen.

Schritte zum Transformieren von U-SQL in Apache Spark

  1. Transformieren Ihrer Pipelines für die Auftragsorchestrierung

    Wenn Sie Azure Data Factory verwenden, um Ihre Azure Data Lake Analytics-Skripts zu orchestrieren, müssen Sie diese anpassen, um die neuen Spark-Programme zu orchestrieren.

  2. Machen Sie sich mit den Unterschieden zwischen der Verwaltung von Daten von U-SQL und Spark vertraut.

    Wenn Sie Ihre Daten aus Azure Data Lake Storage Gen1 in Azure Data Lake Storage Gen2 verschieben möchten, müssen Sie sowohl die Dateidaten als auch die verwalteten Katalogdaten kopieren. Azure Data Lake Analytics unterstützt nur Azure Data Lake Storage Gen1. Weitere Informationen finden Sie unter Grundlegendes zu Spark-Datenformaten.

  3. Transformieren Ihrer U-SQL-Skripts in Spark.

    Bevor Sie Ihre U-SQL-Skripts transformieren, müssen Sie einen Analysedienst auswählen. Nachfolgend sind einige der verfügbaren Computedienste aufgelistet:

    • Azure Data Factory-Datenfluss: Zuordnungsdatenflüsse sind visuell gestaltete Datentransformationen, mit denen Datentechniker eine grafische Datentransformationslogik entwickeln können, ohne Code schreiben zu müssen. Obwohl nicht zum Ausführen von komplexem Benutzercode geeignet, können sie auf einfache Weise herkömmliche SQL-ähnliche Datenflusstransformationen darstellen.
    • Azure HDInsight Hive: Apache Hive in HDInsight eignet sich für ETL-Vorgänge (Extrahieren, Transformieren und Laden). Dies bedeutet, dass Sie Ihre U-SQL-Skripts in Apache Hive übersetzen.
    • Apache Spark-Engines wie Azure HDInsight Spark oder Azure Databricks Dies bedeutet, dass Sie Ihre U-SQL-Skripts in Spark übersetzen. Weitere Informationen finden Sie unter Grundlegendes zu Spark-Datenformaten.

Achtung

Azure Databricks und Azure HDInsight Spark sind Clusterdienste und keine serverlosen Aufträge wie Azure Data Lake Analytics. Sie müssen berücksichtigen, wie die Cluster bereitgestellt werden, um das entsprechende Preis-Leistungs-Verhältnis zu erzielen, und wie deren Lebensdauer zu verwalten ist, um Kosten zu minimieren. Diese Dienste weisen verschiedene Leistungsmerkmale mit Benutzercode in .NET auf, sodass Sie entweder Wrapper schreiben oder Ihren Code in einer unterstützten Sprache umschreiben müssen. Weitere Informationen finden Sie unter Grundlegendes zu Spark-Datenformaten, Grundlegendes zu Apache Spark-Codekonzepten für U-SQL-Entwickler, .NET für Apache Spark.

Nächste Schritte