資料擷取是指將一個或多個來源的資料載入 Azure Data Explorer 中的資料表的過程。 資料匯入後,即可查詢。 在本文中,您將瞭解如何從 Amazon S3 取得資料到新的或現有的資料表。
欲了解更多關於 Amazon S3 的資訊,請參閱 What is Amazon S3?
關於資料擷取的一般資訊,請參見 Azure Data Explorer資料擷取概覽。
必要條件
- Microsoft 帳戶或 Microsoft Entra 使用者身份。 你不需要 Azure 訂閱。
- 登入 Azure Data Explorer網頁介面。
- 一個 Azure Data Explorer 叢集與資料庫。 建立叢集和資料庫。
取得資料
來源
在取得資料視窗中,已選取來源索引標籤。
從可用清單選取資料來源。 在這個例子中,從 Amazon S3 匯入資料。
設定
選取目標資料庫和數據表。 要將資料匯入新資料表,請選擇 + 新資料表 並輸入資料表名稱。
注意
表格名稱最多可達 1,024 個字元,包含空格、字母數字、連字號和底線。 但不支援特殊字元。
在 URI 欄位中,按照以下格式貼上單一儲存桶或單一物件的連接字串。
Bucket:
https://BucketName.s3.RegionName.amazonaws.com物件: ObjectName
;AwsCredentials=AwsAccessID,AwsSecretKey您可以選擇性地套用貯體篩選,以根據特定的副檔名來篩選資料。
注意
匯入支援的最大檔案大小為 6 GB。 建議擷取介於 100 MB 到 1 GB 之間的檔案。
選取 [下一步]。
檢查
[檢查] 索引標籤隨即開啟,並預覽資料。
若要完成匯入程序,請選取完成。
可選:
- 選取命令檢視器以檢視和複製從輸入產生的自動命令。
- 使用結構描述定義檔案下拉式清單來變更結構描述所匯出的檔案。
- 從下拉式清單中選取所需的格式,變更自動推斷的資料格式。 請參見Azure Data Explorer 支援的資料格式。
- 編輯欄位。
- 探索基於資料類型的進階選項。
編輯欄位
注意
- 針對表格格式 (CSV、TSV、PSV),您無法對應資料行兩次。 若要對應至現有的資料行,請先刪除新資料行。
- 您無法變更現有的資料行類型。 如果您嘗試對應到具有不同格式的資料行,最終可能會出現空資料行。
您可以在資料表中進行的變更取決於下列參數:
- 資料表類型是新的或現有的
- 映射類型是新的還是現有的
| 資料表類型 | 對應類型 | 可用的調整 |
|---|---|---|
| 新增資料表 | 新的映射 | 重新命名資料行、變更資料類型、變更資料來源、對應轉換、新增資料行、刪除資料行 |
| 現有的資料表 | 新的映射 | 新增資料行 (然後您可以在其中變更資料類型、重新命名和更新) |
| 現有的資料表 | 現有的映射 | 無 |
映射轉換
某些資料格式映射(Parquet、JSON 和 Avro)支援簡單的匯入時間轉換。 若要套用映射轉換,請在編輯欄位視窗中新增或更新欄位。
對應變換可以在 string 或 datetime 類型的資料行上執行,而源資料具有資料類型 int 或 long。 所支持的映射轉換如下:
- DateTimeFromUnixSeconds(從Unix秒轉換為日期時間)
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- 從 Unix 奈秒獲取日期時間
基於資料類型的進階選項
表格式 (CSV、TSV、PSV):
如果你在 現有資料表中匯入表格格式,可以選擇表格映射下拉選單,並選擇 使用現有映射。 表格資料不一定包含用於將來源資料映射至現有資料行的欄位名稱。 勾選此選項時,會按順序進行對應,資料表結構描述保持不變。
否則,就建立新的映射。
若要使用第一個數據列作為數據行名稱,請選取 [第一個數據列標頭]。
JSON:
- 若要判斷 JSON 數據的數據行除法,請選取 [ 巢狀層級],從 1 到 100。
摘要
在 資料準備 視窗中,當資料擷取成功完成時,三個步驟都會顯示綠色勾勾。 你可以查看每個步驟所使用的指令,或選擇卡片查詢、視覺化或丟棄已接收的資料。