從 Amazon S3 取得數據
數據擷取是用來將數據從一或多個來源載入 Azure Data Explorer 數據表的程式。 一旦擷取之後,資料就會變成可供查詢。 在本文中,您將瞭解如何將數據從 Amazon S3 取得到新的或現有的數據表。
如需 Amazon S3 的詳細資訊,請參閱什麼是 Amazon S3.5。
如需數據擷取的一般資訊,請參閱 Azure Data Explorer 數據擷取概觀。
必要條件
- Microsoft 帳戶或 Microsoft Entra 使用者身分識別。 不需要 Azure 訂用帳戶。
- 登入 Azure Data Explorer Web UI。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
取得資料
Source
在 [ 取得數據] 視窗中,已選取 [ 來源] 索引 標籤。
從可用的清單中選取資料來源。 在此範例中,您會從 Amazon S3 擷取數據。
設定
選取目標資料庫和數據表。 如果您想要將數據內嵌到新的數據表,請選取 [+新增數據表 ],然後輸入數據表名稱。
注意
數據表名稱最多可以有 1024 個字元,包括空格、英數位元、連字元和底線。 但不支援萬用字元。
在 [URI] 字段中,以下列格式貼上單一貯體或個別物件的 連接字串。
Bucket:
https://
BucketName.s3.
RegionName.amazonaws.com
物件: ObjectName
;AwsCredentials=
AwsAccessID,
AwsSecretKey您可以選擇性地套用貯體篩選,根據特定的擴展名來篩選數據。
注意
擷取最多可支援 6GB 的檔案大小。 建議內嵌 100 MB 和 1 GB 之間的檔案。
選取 [下一步] 。
檢查
[ 檢查 ] 索引標籤隨即開啟,其中包含數據的預覽。
若要完成擷取程式,請選取 [ 完成]。
選擇性:
- 選取 [命令檢視器 ] 以檢視和複製從輸入產生的自動命令。
- 使用 [ 架構定義檔案 ] 下拉式清單來變更從中推斷架構的檔案。
- 從下拉式清單中選取所需的格式,以變更自動推斷的數據格式。 如需擷取,請參閱 Azure Data Explorer 支援的數據格式。
- 編輯數據行。
- 根據數據類型探索進階選項。
編輯欄
注意
- 對於表格式格式格式 (CSV、TSV、PSV) ,您無法對應數據行兩次。 若要對應到現有的資料行,請先刪除新的資料行。
- 您無法變更現有的資料行類型。 如果您嘗試對應至具有不同格式的數據行,最後可能會有空的數據行。
您可對資料表進行的變更視下列參數而定:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
資料表類型 | 對應類型 | 可用的調整 |
---|---|---|
新增資料表 | 新的對應 | 重新命名數據行、變更數據類型、變更數據源、 對應轉換、新增數據行、刪除數據行 |
現有的資料表 | 新的對應 | 新增資料行 (,然後您可以變更數據類型、重新命名和更新) |
現有的資料表 | 現有的對應 | 無 |
對應資訊
某些資料格式對應 (Parquet、JSON 和 Avro) 支援簡單的內嵌時間轉換。 若要套用對應轉換,請在 [編輯數據行] 視窗中建立或更新數據 行 。
對應轉換可以在字串或 datetime 類型的數據行上執行,而來源具有數據類型 int 或 long。 支援的對應轉換如下:
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
以數據類型為基礎的進階選項
表格式 (CSV、TSV、PSV) :
如果您要內嵌 現有資料表中的表格式格式,您可以選取 [ 進階>保留目前的資料表架構]。 表格式數據不一定包含用來將源數據對應至現有數據行的數據行名稱。 核取此選項時,對應會依序完成,而且數據表架構維持不變。 如果未核取此選項,不論數據結構為何,都會為傳入的數據建立新的數據行。
若要使用第一個數據列作為數據行名稱,請選取 [ 進階>第一列是數據行標頭]。
JSON:
若要判斷 JSON 數據的數據行分割,請選取 [ 進階>巢狀層級],從 1 到 100。
如果您選取 [進階>忽略數據格式錯誤],則會以 JSON 格式擷取數據。 如果您取消選取此複選框,數據會以多重 json 格式擷取。
摘要
在 [ 數據準備 ] 視窗中,當數據擷取順利完成時,所有三個步驟都會標示綠色複選標記。 您可以檢視用於每個步驟的命令,或選取要查詢、可視化或卸除內嵌數據的卡片。
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應