U-SQL 開発者向けの Apache Spark について

[アーティクル]
12/20/2023

重要

Azure Data Lake Analyticsは、2024 年 2 月 29 日に廃止されました。詳細については、このお知らせを参照してください。

データ分析の場合、organizationは Azure Synapse Analytics または Microsoft Fabric を使用できます。

Microsoft では、Azure Databricks、Azure HDInsight、Azure Data Lake Analyticsなどの複数の Analytics サービスがサポートされています。開発者は、分析パイプラインを構築するときに、はっきりと好みのオープンソースソリューションがあると言っています。このガイダンスでは、U-SQL 開発者が Apache Spark を理解するのに役立つ情報と、U-SQL のスクリプトを Apache Spark に変換する方法について説明します。

これには、実行できる手順と、いくつかの代替手段が含まれています。

U-SQL を Apache Spark に変換する手順

ジョブオーケストレーションパイプラインを変換します。

Azure Data Factoryを使用して Azure Data Lake Analytics スクリプトを調整する場合は、それらを調整して新しい Spark プログラムを調整する必要があります。
U-SQL と Spark でデータを管理する方法の違いを理解します。

データを Azure Data Lake Storage Gen1 からAzure Data Lake Storage Gen2に移動する場合は、ファイルデータとカタログ管理データの両方をコピーする必要があります。 Azure Data Lake Analytics では、Gen1 Azure Data Lake Storageのみがサポートされます。詳細については、「 Spark データ形式について」を参照してください。
U-SQL スクリプトを Spark に変換します。

U-SQL スクリプトを変換する前に、分析サービスを選択する必要があります。利用可能なコンピューティングサービスの一部を次に示します。
- Azure Data Factory データフロー: マッピングデータフローは、視覚的に設計されたデータ変換であり、データエンジニアはコードを記述せずにグラフィカルなデータ変換ロジックを開発できます。複雑なユーザーコードの実行には適していませんが、従来の SQL に似たデータフローの変換を簡単に表すことができます
- Azure HDInsight Hive: HDInsight 上の Apache Hive は、抽出、変換、読み込み (ETL) 操作に適しています。つまり、U-SQL スクリプトを Apache Hive に変換します。
- Azure HDInsight Spark や Azure Databricks などの Apache Spark エンジンこれは、U-SQL スクリプトを Spark に変換することを意味します。詳しくは、Spark のデータ形式に関する記事をご覧ください

注意事項

Azure Databricks と Azure HDInsight Spark はどちらもクラスターサービスであり、Azure Data Lake Analytics のようなサーバーレスジョブではありません。適切なコスト/パフォーマンス比を得るためのクラスターのプロビジョニング方法と、コストを最小限に抑えるための有効期間の管理方法を、検討する必要があります。これらのサービスには、.NET で記述されたユーザーコードとは異なるパフォーマンス特性があるため、ラッパーを作成するか、サポートされている言語でコードを書き直す必要があります。詳細については、「Spark データ形式の理解」、U-SQL 開発者向けの Apache Spark コードの概念の理解、.NET for Apache Spark に関するページを参照してください。

U-SQL 開発者向けの Apache Spark について

U-SQL を Apache Spark に変換する手順

次のステップ

その他のリソース