U-SQL 開発者向けの Apache Spark について

重要

Azure Data Lake Analyticsは、2024 年 2 月 29 日に廃止されました。 詳細については、このお知らせを参照してください。

データ分析の場合、organizationは Azure Synapse Analytics または Microsoft Fabric を使用できます。

Microsoft では、Azure DatabricksAzure HDInsight、Azure Data Lake Analyticsなどの複数の Analytics サービスがサポートされています。 開発者は、分析パイプラインを構築するときに、はっきりと好みのオープンソース ソリューションがあると言っています。 このガイダンスでは、U-SQL 開発者が Apache Spark を理解するのに役立つ情報と、U-SQL のスクリプトを Apache Spark に変換する方法について説明します。

これには、実行できる手順と、いくつかの代替手段が含まれています。

U-SQL を Apache Spark に変換する手順

  1. ジョブ オーケストレーション パイプラインを変換します。

    Azure Data Factoryを使用して Azure Data Lake Analytics スクリプトを調整する場合は、それらを調整して新しい Spark プログラムを調整する必要があります。

  2. U-SQL と Spark でデータを管理する方法の違いを理解します。

    データを Azure Data Lake Storage Gen1 からAzure Data Lake Storage Gen2に移動する場合は、ファイル データとカタログ管理データの両方をコピーする必要があります。 Azure Data Lake Analytics では、Gen1 Azure Data Lake Storageのみがサポートされます。 詳細については、「 Spark データ形式について」を参照してください。

  3. U-SQL スクリプトを Spark に変換します。

    U-SQL スクリプトを変換する前に、分析サービスを選択する必要があります。 利用可能なコンピューティング サービスの一部を次に示します。

    • Azure Data Factory データフロー: マッピング データ フローは、視覚的に設計されたデータ変換であり、データ エンジニアはコードを記述せずにグラフィカルなデータ変換ロジックを開発できます。 複雑なユーザー コードの実行には適していませんが、従来の SQL に似たデータフローの変換を簡単に表すことができます
    • Azure HDInsight Hive: HDInsight 上の Apache Hive は、抽出、変換、読み込み (ETL) 操作に適しています。 つまり、U-SQL スクリプトを Apache Hive に変換します。
    • Azure HDInsight SparkAzure Databricks などの Apache Spark エンジン これは、U-SQL スクリプトを Spark に変換することを意味します。 詳しくは、Spark のデータ形式に関する記事をご覧ください

注意事項

Azure DatabricksAzure HDInsight Spark はどちらもクラスター サービスであり、Azure Data Lake Analytics のようなサーバーレス ジョブではありません。 適切なコスト/パフォーマンス比を得るためのクラスターのプロビジョニング方法と、コストを最小限に抑えるための有効期間の管理方法を、検討する必要があります。 これらのサービスには、.NET で記述されたユーザー コードとは異なるパフォーマンス特性があるため、ラッパーを作成するか、サポートされている言語でコードを書き直す必要があります。 詳細については、「Spark データ形式の理解」、U-SQL 開発者向けの Apache Spark コードの概念の理解.NET for Apache Spark に関するページを参照してください。

次のステップ