Amazon S3 からデータを取得する

[アーティクル]
01/16/2024

データインジェストは、1 つ以上のソースから Azure Data Explorer のテーブルにデータを読み込むプロセスです。取り込まれたデータは、クエリに使用できるようになります。この記事では、Amazon S3 から新しいテーブルまたは既存のテーブルにデータを取得する方法について説明します。

Amazon S3 の詳細については、「Amazon S3 とは」を参照してください。

データインジェストの一般的な情報については、「Azure Data Explorer データインジェストの概要」を参照してください。

前提条件

Microsoft アカウントまたはMicrosoft Entraユーザー ID。 Azure サブスクリプションは不要です。
Azure Data Explorer Web UI にサインインします。
Azure Data Explorer クラスターとデータベース。クラスターとデータベースを作成します。

データを取得

左側のメニューから [クエリ] を選択 します。
データを取り込むデータベースを右クリックし、[データの取得] を選択します。

source

[ データの取得] ウィンドウで、[ ソース ] タブが選択されています。

使用可能な一覧からデータソースを選択します。この例では、 Amazon S3 からデータを取り込んでいるとします。

構成

ターゲットデータベースとテーブルを選択します。新しいテーブルにデータを取り込む場合は、[ + 新しいテーブル ] を選択し、テーブル名を入力します。

注意

テーブル名には、スペース、英数字、ハイフン、アンダースコアを含む最大 1024 文字を指定できます。特殊文字はサポートされていません。
[URI] フィールドに、1 つのバケットまたは個々のオブジェクトの接続文字列を次の形式で貼り付けます。

バケット: https://<バケット名>.s3.<リージョン名>.amazonaws.com

オブジェクト: <オブジェクト名>;AwsCredentials=,

必要に応じて、バケットフィルターを適用して、特定のファイル拡張子に従ってデータをフィルター処理できます。

注意

インジェストでは、最大で 6 GB のファイルサイズがサポートされます。 100 MB から 1 GB の間のファイルを取り込むことをお勧めします。
[次へ] を選択します。

検査

[検査] タブが開き、データのプレビューが表示されます。

インジェストプロセスを完了するには、[完了] を選択 します。

省略可能:

[ コマンドビューアー] を選択して、入力から生成された自動コマンドを表示およびコピーします。
[スキーマ定義ファイル] ドロップダウンを使用して、スキーマの推論元のファイルを変更します。
ドロップダウンから目的の形式を選択して、自動的に推論されるデータ形式を変更します。インジェストについては、「Azure Data Explorer でサポートされているデータ形式」を参照してください。
列を編集します。
データ型に基づいて高度なオプションを調べる。

列の編集

注意

表形式 (CSV、TSV、PSV) の場合、列を 2 回マップすることはできません。既存の列にマップするには、最初に新しい列を削除します。
既存の列の型を変更することはできません。異なる形式の列にマップしようとすると、空の列になってしまう場合があります。

テーブルに加えることができる変更は、次のパラメーターによって異なります。

テーブルの種類が新規かまたは既存か
マッピングの種類が新規かまたは既存か

テーブルの種類です。	マッピングの種類	使用可能な調整
新しいテーブル	新しいマッピング	列の名前変更、データ型の変更、データソースの変更、マッピング変換、列の追加、列の削除
既存のテーブル	新しいマッピング	列の追加 (データ型の変更、名前の変更、更新が可能)
既存のテーブル	既存のマッピング	なし

マッピング変換

一部のデータ形式マッピング (Parquet、JSON、Avro) では、簡単な取り込み時の変換がサポートされています。マッピング変換を適用するには、[列の編集] ウィンドウで列を作成または更新します。

マッピング変換は、string 型または datetime 型の列に対して実行でき、ソースのデータ型は int または long です。サポートされているマッピング変換は次のとおりです。

DateTimeFromUnixSeconds
DateTimeFromUnixMilliseconds
DateTimeFromUnixMicroseconds
DateTimeFromUnixNanoseconds

データ型に基づく高度なオプション

表形式 (CSV、TSV、PSV):

既存のテーブルに表形式を取り込む場合は、[高度な>現在のテーブルスキーマを保持する] を選択できます。表形式データには、ソースデータを既存の列にマップするために使用される列名が必ずしも含まれるとは限りません。このオプションをオンにすると、マッピングは順番に行われ、テーブルスキーマは変わりません。このオプションをオフにすると、データ構造に関係なく、受信データ用に新しい列が作成されます。
最初の行を列名として使用するには、[詳細設定>] [最初の行は列ヘッダー] の順に選択します。

JSON:

JSON データの列分割を決定するには、1 から 100 までの 高度な>入れ子になったレベルを選択します。
[詳細]>[データ形式のエラーを無視する] を選択すると、データは JSON 形式で取り込まれます。このチェックボックスをオフのままにすると、データは multijson 形式で取り込まれます。

まとめ

[データ準備] ウィンドウでは、データインジェストが正常に完了すると、3 つのステップすべてが緑色のチェックマークでマークされます。各ステップで使用されたコマンドを表示したり、取り込まれたデータのクエリ、視覚化、または削除を行うカードを選択したりできます。

次の方法で共有

Amazon S3 からデータを取得する

前提条件

データを取得

source

構成

検査

列の編集

マッピング変換

データ型に基づく高度なオプション

まとめ

フィードバック

その他のリソース

次の方法で共有

Amazon S3 からデータを取得する

前提条件

データを取得

source

構成

検査

列の編集

マッピング変換

データ型に基づく高度なオプション

まとめ

関連コンテンツ

フィードバック

その他のリソース