Amazon S3 からデータを取得する
データ インジェストは、1 つ以上のソースから Azure Data Explorer のテーブルにデータを読み込むプロセスです。 取り込まれたデータは、クエリに使用できるようになります。 この記事では、Amazon S3 から新しいテーブルまたは既存のテーブルにデータを取得する方法について説明します。
Amazon S3 の詳細については、「Amazon S3 とは」を参照してください。
データ インジェストの一般的な情報については、「Azure Data Explorer データ インジェストの概要」を参照してください。
前提条件
- Microsoft アカウントまたはMicrosoft Entraユーザー ID。 Azure サブスクリプションは不要です。
- Azure Data Explorer Web UI にサインインします。
- Azure Data Explorer クラスターとデータベース。 クラスターとデータベースを作成します。
データを取得
source
[ データの取得] ウィンドウで、[ ソース ] タブが選択されています。
使用可能な一覧からデータ ソースを選択します。 この例では、 Amazon S3 からデータを取り込んでいるとします。
構成
ターゲット データベースとテーブルを選択します。 新しいテーブルにデータを取り込む場合は、[ + 新しいテーブル ] を選択し、テーブル名を入力します。
注意
テーブル名には、スペース、英数字、ハイフン、アンダースコアを含む最大 1024 文字を指定できます。 特殊文字はサポートされていません。
[URI] フィールドに、1 つのバケットまたは個々のオブジェクトの接続文字列を次の形式で貼り付けます。
バケット:
https://
<バケット名>.s3.
<リージョン名>.amazonaws.com
オブジェクト: <オブジェクト名>
;AwsCredentials=
,
必要に応じて、バケット フィルターを適用して、特定のファイル拡張子に従ってデータをフィルター処理できます。
注意
インジェストでは、最大で 6 GB のファイル サイズがサポートされます。 100 MB から 1 GB の間のファイルを取り込むことをお勧めします。
[次へ] を選択します。
検査
[検査] タブが開き、データのプレビューが表示されます。
インジェスト プロセスを完了するには、[完了] を選択 します。
省略可能:
- [ コマンド ビューアー] を選択して、入力から生成された自動コマンドを表示およびコピーします。
- [スキーマ定義ファイル] ドロップダウンを使用して、スキーマの推論元のファイルを変更します。
- ドロップダウンから目的の形式を選択して、自動的に推論されるデータ形式を変更します。 インジェストについては、「Azure Data Explorer でサポートされているデータ形式」を参照してください。
- 列を編集します。
- データ型に基づいて高度なオプションを調べる。
列の編集
注意
- 表形式 (CSV、TSV、PSV) の場合、列を 2 回マップすることはできません。 既存の列にマップするには、最初に新しい列を削除します。
- 既存の列の型を変更することはできません。 異なる形式の列にマップしようとすると、空の列になってしまう場合があります。
テーブルに加えることができる変更は、次のパラメーターによって異なります。
- テーブルの種類が新規かまたは既存か
- マッピングの種類が新規かまたは既存か
テーブルの種類です。 | マッピングの種類 | 使用可能な調整 |
---|---|---|
新しいテーブル | 新しいマッピング | 列の名前変更、データ型の変更、データ ソースの変更、 マッピング変換、列の追加、列の削除 |
既存のテーブル | 新しいマッピング | 列の追加 (データ型の変更、名前の変更、更新が可能) |
既存のテーブル | 既存のマッピング | なし |
マッピング変換
一部のデータ形式マッピング (Parquet、JSON、Avro) では、簡単な取り込み時の変換がサポートされています。 マッピング変換を適用するには、[列の 編集] ウィンドウで列を作成または更新します。
マッピング変換は、string 型または datetime 型の列に対して実行でき、ソースのデータ型は int または long です。 サポートされているマッピング変換は次のとおりです。
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
データ型に基づく高度なオプション
表形式 (CSV、TSV、PSV):
既存のテーブルに表形式を取り込む場合は、[高度な>現在のテーブル スキーマを保持する] を選択できます。 表形式データには、ソース データを既存の列にマップするために使用される列名が必ずしも含まれるとは限りません。 このオプションをオンにすると、マッピングは順番に行われ、テーブル スキーマは変わりません。 このオプションをオフにすると、データ構造に関係なく、受信データ用に新しい列が作成されます。
最初の行を列名として使用するには、[詳細設定>] [最初の行は列ヘッダー] の順に選択します。
JSON:
JSON データの列分割を決定するには、1 から 100 までの 高度な>入れ子になったレベルを選択します。
[詳細]>[データ形式のエラーを無視する] を選択すると、データは JSON 形式で取り込まれます。 このチェック ボックスをオフのままにすると、データは multijson 形式で取り込まれます。
まとめ
[データ準備] ウィンドウでは、データ インジェストが正常に完了すると、3 つのステップすべてが緑色のチェックマークでマークされます。 各ステップで使用されたコマンドを表示したり、取り込まれたデータのクエリ、視覚化、または削除を行うカードを選択したりできます。