データラングリングとは

[アーティクル]
05/15/2024

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

データラングリングでは、元のソースからのデータをさまざまなダウンストリームアプリケーションに適した便利なものするために、変換と再フォーマットが行われます。

組織は、日々増加し続ける複雑なデータを正確に分析するために、データの準備とラングリングの目的で重要なビジネスデータを調査する能力を必要としています。さまざまなビジネスプロセスのデータを使用して、価値創造までの時間を短縮できるようにするには、データの準備が不可欠です。

Data Factory では、Power Query を使用して、クラウド規模でコードフリーのデータ準備を繰り返し行うことができます。 Data Factory と Power Query Online の統合により、Power Query M の関数をパイプラインアクティビティとして使用できるようになります。

Data Factory は、Power Query Online マッシュアップエディターによって生成された M を、Azure Data Factory データフローに変換することによって、クラウド規模で実行するための Spark コードに変換します。 Power Query とデータフローを使用したデータのラングリングは、データエンジニアや "シティズンデータインテグレーター" にとっては特に便利です。

ユースケース

迅速な対話型のデータ探索と準備

複数のデータエンジニアやシティズンデータインテグレーターが、データセットをクラウド規模で対話的に探索し、準備することができます。データレイク内のデータの量、種類、速さが増大するなか、ユーザーは、データセットを探索して準備するための効果的な方法を必要としています。たとえば、2017 年以降の新規顧客を対象に、すべての顧客人口統計情報を含んだデータセットを作成するようなケースもあるでしょう。既知のターゲットにマッピングするのでなければ、レイクに公開する前に、データセットの探索、ラングリング、準備を行って、要件を満たすことになります。ラングリングは、それほど厳格ではない分析シナリオでよく使用されます。準備されたデータセットは、変換や機械学習のために使用できます。

コードフリーのアジャイルなデータ準備

シティズンデータインテグレーターは、データを探して準備するのに、業務時間の 60% 以上を費やしています。業務の生産性を向上させるため、彼らはこれらの作業をコーディングなし行う方法を探しています。シティズンデータインテグレーターが Power Query Online などの既知のツールを使用して、データをスケーラブルに強化、整形、公開できるようになれば、生産性は大幅に向上します。 Azure Data Factory のラングリングを使用すれば、シティズンデータインテグレーターは使い慣れた Power Query Online マッシュアップエディターを使用して、エラーを迅速に修正し、データを標準化し、高品質なデータを生成して、ビジネス上の意思決定をサポートできるようになります。

データの検証と調査

コードを使用せずにデータを視覚的にスキャンして、外れ値や異常を除外し、データを高速分析用に整形することができます。

サポートされているソース

コネクタ	データ形式	認証の種類
Azure Blob Storage	CSV、Parquet、Excel	アカウントキー、サービスプリンシパル、MSI
Azure Data Lake Storage Gen1	CSV、Parquet、Excel	サービスプリンシパル、MSI
Azure Data Lake Storage Gen2	CSV、Parquet、Excel	アカウントキー、サービスプリンシパル、MSI
Azure SQL Database	-	SQL 認証、MSI、サービスプリンシパル
Azure Synapse Analytics	-	SQL 認証、MSI、サービスプリンシパル

マッシュアップエディター

Power Query アクティビティを作成すると、すべてのソースデータセットがデータセットクエリになり、 ADFResource フォルダーに配置されます。既定では、UserQuery は最初のデータセットクエリを指します。データセットクエリに対する変更はサポートされておらず、永続化もされないため、すべての変換は UserQuery で実行される必要があります。クエリの名前変更、追加、削除は、現在サポートされていません。

ラングリング

現時点では、Power Query M 関数は、作成中に利用可能であっても、そのすべてがデータラングリングでサポートされているわけではありません。 Power Query のアクティビティの作成中、関数がサポートされていない場合は、次のエラーメッセージが表示されます。

The Power Query Spark Runtime does not support the function

サポートされている変換の詳細については、Power Query データラングリングの関数に関する記事を参照してください。

データラングリング Power Query マッシュアップを作成する方法について確認します。

次の方法で共有

データラングリングとは

ユースケース

迅速な対話型のデータ探索と準備

コードフリーのアジャイルなデータ準備

データの検証と調査

サポートされているソース

マッシュアップエディター

フィードバック

その他のリソース

次の方法で共有

データ ラングリングとは

ユース ケース

迅速な対話型のデータ探索と準備

コードフリーのアジャイルなデータ準備

データの検証と調査

サポートされているソース

マッシュアップ エディター

関連するコンテンツ

フィードバック

その他のリソース

データラングリングとは

ユースケース

マッシュアップエディター