資料轉換

資料轉換用來：

準備模型定型的數據。
以 TensorFlow 或 ONNX 格式套用匯入的模型。
對經過模型處理後的數據進行後續處理。

本指南中的轉換會傳回能實作 IEstimator 介面的類別。資料轉換可以鏈結在一起。每個轉換都會預期和產生特定類型及格式的資料，其已詳述於連結的參考文件中。

某些資料轉換需要定型資料以計算其參數。例如：NormalizeMeanVariance 轉換器會在 Fit() 作業期間計算定型資料的平均數和變異數，並將那些參數用於 Transform() 作業。

其他資料轉換並不需要定型資料。例如：ConvertToGrayscale 轉換可以在無須於 Transform() 作業期間查看任何定型資料的情況下執行 Fit() 作業。

欄位對應及群組

轉換	定義	ONNX 可匯出
Concatenate	將一或多個輸入資料行串連成新的輸出資料行	是的
CopyColumns	複製並重新命名一或多個輸入資料行	是的
DropColumns	刪除一或多個輸入資料行	是的
SelectColumns	選取一或多個資料行以將其自輸入資料中排除	是的

標準化和調整

轉換	定義	ONNX 可匯出
NormalizeMeanVariance	減去 (定型資料的) 平均數並除以 (定型資料的) 變異數	是的
NormalizeLogMeanVariance	依定型資料的對數進行標準化	是的
NormalizeLpNorm	依據輸入向量的 lp-範數來對它進行縮放，其中 p 為 1、2 或無限。預設為 l2（歐幾里得距離）範數	是的
NormalizeGlobalContrast	對於資料列中的每個值，透過先減去該列資料的平均數，再除以標準差或 l2 範數 (該列資料)，最後乘以可配置的縮放因子 (預設為 2)，來進行縮放。	是的
NormalizeBinning	將輸入值指派至 bin 目錄並除以 bin 的數目，以產生介於 0 與 1 的浮點值。系統會計算 bin 界線，以便將訓練資料均勻分配到所有區。	是的
NormalizeSupervisedBinning	根據輸入值與標籤資料行的關聯性將其分配到對應的桶中。	是的
NormalizeMinMax	藉由訓練數據中最小值和最大值之間的差值來縮放輸入	是的
NormalizeRobustScaling	使用對極端值具魯棒性的統計方法來調整每個值，這些方法會將資料集中在0附近，並根據分位數範圍來縮放資料。	是的

資料類型之間的轉換

轉換	定義	ONNX 可匯出
ConvertType	將某個輸入資料行的類型轉換成新的類型	是的
MapValue	根據所提供的對應字典，將值映射至鍵（類別）	否
MapValueToKey	透過從輸入資料創建映射來將值映射到鍵 (類別)	是的
MapKeyToValue	將鍵還原為原始值	是的
MapKeyToVector	將索引鍵還原至其原始值的向量	是的
MapKeyToBinaryVector	將鍵還原為原始值的二進位向量	否
Hash	對輸入欄中的值進行雜湊	是的

文字轉換

轉換	定義	ONNX 可匯出
FeaturizeText	將文字資料行轉換為標準化 ngram 和 char-gram 計數的浮動陣列	否
TokenizeIntoWords	將一或多個文字資料行分割為個別字詞	是的
TokenizeIntoCharactersAsKeys	將一或多個文字欄分割為在一組主題之上浮動的個別字元。	是的
NormalizeText	變更大小寫，移除變音符號、標點符號及數字	是的
ProduceNgrams	將文字資料行轉換為 ngram 計數袋 (連續字詞序列的一個集合)	是的
ProduceWordBags	將文字列轉換為 ngram 計數向量的字詞集	是的
ProduceHashedNgrams	將文字欄位轉換為雜湊 ngram 計數的向量	否
ProduceHashedWordBags	將文字資料行轉換為一袋雜湊 ngram 計數	是的
RemoveDefaultStopWords	從輸入資料行針對指定語言移除預設停用字詞	是的
RemoveStopWords	從輸入資料行移除指定停用字詞	是的
LatentDirichletAllocation	將文件 (以浮點數向量表示) 轉換為一組主題上的浮點數向量	是的
ApplyWordEmbedding	使用預先定型的模型，將文字標記的向量轉換成句子向量	是的

影像轉換

轉換	定義	ONNX 可匯出
ConvertToGrayscale	將影像轉換為灰階	否
ConvertToImage	將像素的向量轉換為 ImageDataViewType	否
ExtractPixels	將來自輸入影像的像素轉換為數字向量	否
LoadImages	從資料夾將影像載入記憶體	否
LoadRawImageBytes	將原始位元組的影像載入新資料行中。	否
ResizeImages	調整影像大小	否
DnnFeaturizeImage	套用預先定型的深度神經網路（DNN）模型，將輸入影像轉換成特徵向量	否

類別資料轉換

轉換	定義	ONNX 可匯出
OneHotEncoding	將一或多個文字資料行轉換為 one-hot 編碼向量	是的
OneHotHashEncoding	將一或多個文字資料行轉換為以雜湊為基礎的 one-hot 編碼向量	否

時間序列資料轉換

轉換	定義	ONNX 可匯出
DetectAnomalyBySrCnn	使用光譜殘留 (SR) 演算法偵測輸入時間序列資料中的異常	否
DetectChangePointBySsa	使用單一頻譜分析 (SSA) 偵測時間序列資料中的變更點	否
DetectIidChangePoint	使用自適應核心密度估計和鞅分數，偵測獨立同分布 (IID) 時序資料中的變化點	否
ForecastBySsa	使用單一頻譜分析 (SSA) 預測時間序列資料	否
DetectSpikeBySsa	使用單一頻譜分析 (SSA) 偵測時間序列資料中的尖峰	否
DetectIidSpike	使用自適應核密度估計和鞅分數，偵測獨立同分布 (IID) 時間序列資料中的尖峰	否
DetectEntireAnomalyBySrCnn	使用 SRCNN 演算法偵測整個輸入資料的異常。	否
DetectSeasonality	使用傅立葉分析來偵測季節性。	否
LocalizeRootCause	使用決策樹演算法，從時間序列輸入中找出根本原因。	否
LocalizeRootCauses	從時間序列輸入中定位根本原因。	否

遺漏值

轉換	定義	ONNX 可匯出
IndicateMissingValues	建立一個新的布林值輸出欄位，當輸入欄位中的值缺失時，其值為 true。	是的
ReplaceMissingValues	建立一個新的輸出資料行，如果在輸入資料行中找不到值，則將值設為預設值，否則使用輸入值。	是的

特徵選取

轉換	定義	ONNX 可匯出
SelectFeaturesBasedOnCount	選取其非預設值大於某個閾值的特徵	是的
SelectFeaturesBasedOnMutualInformation	選取那些資料在標籤欄上最依賴的特徵	是的

特徵轉換

轉換	定義	ONNX 可匯出
ApproximatedKernelMap	將每個輸入向量對應至較低維度的功能空間，其中內部產品會近似核心函式，以便可以將功能當作線性演算法的輸入使用	否
ProjectToPrincipalComponents	套用主體元件分析演算法，以減少輸入特徵向量的維度

可解釋性轉換

轉換	定義	ONNX 可匯出
CalculateFeatureContribution	為特徵向量的每個元素計算貢獻分數	否

校正轉換

轉換	定義	ONNX 可匯出
Platt(String, String, String)	使用由訓練數據估計的參數進行羅吉斯迴歸，將二元分類器的原始得分轉化為類別機率。	是的
Platt(Double, Double, String)	使用羅吉斯回歸搭配固定參數，將二元分類器原始分數轉換成類別機率	是的
Naive	藉由將分數指派給 Bin，並根據各 Bin 間的分佈計算機率，將二元分類器原始分數轉換成類別機率	是的
Isotonic	透過將二元分類器的原始分數分配至箱子，將其轉換為類別機率，使用訓練資料來估計邊界的位置與箱子的大小。	否

深度學習變換

轉換	定義	ONNX 可匯出
ApplyOnnxModel	使用匯入的 ONNX 模型轉換輸入資料	否
LoadTensorFlowModel	使用匯入的 TensorFlow 模型轉換輸入資料	否

自訂轉換

轉換	定義	ONNX 可匯出
FilterByCustomPredicate	捨棄符合指定謂詞的資料列。	否
FilterByStatefulCustomPredicate	捨棄符合指定謂詞回傳 true 的資料列，但允許存在特定狀態的資料列。	否
CustomMapping	將現有資料行利用使用者定義的對應關係轉換為新的資料行	否
Expression	套用運算式以將資料行轉換成新的	否

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-02-24