Transformasi data digunakan untuk:
- Siapkan data untuk pelatihan model.
- Terapkan model yang diimpor dalam format TensorFlow atau ONNX.
- Data pasca-proses setelah diteruskan melalui model.
Transformasi dalam panduan ini mengembalikan kelas yang mengimplementasikan antarmuka IEstimator . Transformasi data dapat ditautkan bersama-sama. Setiap transformasi mengharapkan dan menghasilkan data dari jenis dan format tertentu, yang ditentukan dalam dokumentasi referensi tertaut.
Beberapa transformasi data memerlukan data pelatihan untuk menghitung parameternya. Misalnya: NormalizeMeanVariance transformator menghitung rata-rata dan varian data pelatihan selama Fit()
operasi, dan menggunakan parameter tersebut Transform()
dalam operasi.
Transformasi data lainnya tidak memerlukan data pelatihan. Misalnya: ConvertToGrayscale transformasi dapat melakukan Transform()
operasi tanpa melihat data pelatihan selama Fit()
operasi.
Pemetaan dan pengelompokan kolom
Transformasi |
Definisi |
ONNX Dapat Diekspor |
Concatenate |
Menggabungkan satu atau beberapa kolom input ke dalam kolom output baru |
Ya |
CopyColumns |
Menyalin dan mengganti nama satu atau beberapa kolom input |
Ya |
DropColumns |
Jatuhkan satu atau beberapa kolom input |
Ya |
SelectColumns |
Pilih satu atau beberapa kolom untuk disimpan dari data input |
Ya |
Normalisasi dan penskalaan
Transformasi |
Definisi |
ONNX Dapat Diekspor |
NormalizeMeanVariance |
Kurangi rata-rata (data pelatihan) dan bagi dengan varian (data pelatihan) |
Ya |
NormalizeLogMeanVariance |
Menormalkan berdasarkan logaritma data pelatihan |
Ya |
NormalizeLpNorm |
Skalakan vektor input dengan lp-norm mereka, di mana p adalah 1, 2 atau tak terbatas. Default ke norma l2 (Jarak Euclidean) |
Ya |
NormalizeGlobalContrast |
Skalakan setiap nilai dalam baris dengan mengurangi rata-rata data baris dan membagi dengan simpangan baku atau norma l2 (dari data baris), dan dikalikan dengan faktor skala yang dapat dikonfigurasi (default 2) |
Ya |
NormalizeBinning |
Tetapkan nilai input ke indeks bin dan bagi dengan jumlah bin untuk menghasilkan nilai float antara 0 dan 1. Batas bin dihitung untuk mendistribusikan data pelatihan secara merata di seluruh bin |
Ya |
NormalizeSupervisedBinning |
Menetapkan nilai input ke bin berdasarkan korelasinya dengan kolom label |
Ya |
NormalizeMinMax |
Menskalakan input dengan perbedaan antara nilai minimum dan maksimum dalam data pelatihan |
Ya |
NormalizeRobustScaling |
Skalakan setiap nilai menggunakan statistik yang kuat untuk outlier yang akan memusatkan data sekitar 0 dan menskalakan data sesuai dengan rentang kuantil. |
Ya |
Konversi antar jenis data
Transformasi |
Definisi |
ONNX Dapat Diekspor |
ConvertType |
Mengonversi jenis kolom input ke jenis baru |
Ya |
MapValue |
Memetakan nilai ke kunci (kategori) berdasarkan kamus pemetaan yang disediakan |
Tidak. |
MapValueToKey |
Memetakan nilai ke kunci (kategori) dengan membuat pemetaan dari data input |
Ya |
MapKeyToValue |
Mengonversi kunci kembali ke nilai aslinya |
Ya |
MapKeyToVector |
Mengonversi kunci kembali ke vektor nilai asli |
Ya |
MapKeyToBinaryVector |
Mengonversi kunci kembali ke vektor biner dari nilai asli |
Tidak. |
Hash |
Hash nilai di kolom input |
Ya |
Transformasi teks
Transformasi |
Definisi |
ONNX Dapat Diekspor |
FeaturizeText |
Mengubah kolom teks menjadi array float dari jumlah ngram dan char-gram yang dinormalisasi |
Tidak. |
TokenizeIntoWords |
Memisahkan satu atau beberapa kolom teks menjadi kata individual |
Ya |
TokenizeIntoCharactersAsKeys |
Membagi satu atau beberapa kolom teks menjadi karakter individual mengambang di atas sekumpulan topik |
Ya |
NormalizeText |
Ubah huruf besar/kecil, hapus tanda diakritik, tanda baca, dan angka |
Ya |
ProduceNgrams |
Mengubah kolom teks menjadi sekantong jumlah ngram (urutan kata berturut-turut) |
Ya |
ProduceWordBags |
Mengubah kolom teks menjadi sekantong jumlah vektor ngram |
Ya |
ProduceHashedNgrams |
Mengubah kolom teks menjadi vektor jumlah ngram yang di-hash |
Tidak. |
ProduceHashedWordBags |
Mengubah kolom teks menjadi sekantong jumlah ngram yang di-hash |
Ya |
RemoveDefaultStopWords |
Menghapus kata berhenti default untuk bahasa yang ditentukan dari kolom input |
Ya |
RemoveStopWords |
Menghapus kata berhenti yang ditentukan dari kolom input |
Ya |
LatentDirichletAllocation |
Mengubah dokumen (direpresentasikan sebagai vektor float) menjadi vektor float di atas satu set topik |
Ya |
ApplyWordEmbedding |
Mengonversi vektor token teks menjadi vektor kalimat menggunakan model yang telah dilatih sebelumnya |
Ya |
Transformasi |
Definisi |
ONNX Dapat Diekspor |
DetectAnomalyBySrCnn |
Mendeteksi anomali dalam data rangkaian waktu input menggunakan algoritma Spectral Residual (SR) |
Tidak. |
DetectChangePointBySsa |
Mendeteksi titik perubahan dalam data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
DetectIidChangePoint |
Mendeteksi titik perubahan dalam data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale |
Tidak. |
ForecastBySsa |
Memperkirakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
DetectSpikeBySsa |
Mendeteksi lonjakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
DetectIidSpike |
Mendeteksi lonjakan data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale |
Tidak. |
DetectEntireAnomalyBySrCnn |
Deteksi anomali untuk seluruh data input menggunakan algoritma SRCNN. |
Tidak. |
DetectSeasonality |
Deteksi musiman menggunakan analisis fourier. |
Tidak. |
LocalizeRootCause |
Melokalisasi akar penyebab dari input rangkaian waktu menggunakan algoritma pohon keputusan. |
Tidak. |
LocalizeRootCauses |
Melokalisasi akar penyebab dari input seri ikatan. |
Tidak. |
Nilai yang hilang
Transformasi |
Definisi |
ONNX Dapat Diekspor |
IndicateMissingValues |
Buat kolom output boolean baru, nilainya benar ketika nilai di kolom input hilang |
Ya |
ReplaceMissingValues |
Buat kolom output baru, nilai yang diatur ke nilai default jika nilai hilang dari kolom input, dan nilai input jika tidak |
Ya |
Pilihan fitur
Transformasi |
Definisi |
ONNX Dapat Diekspor |
ApproximatedKernelMap |
Petakan setiap vektor input ke ruang fitur dimensi yang lebih rendah, di mana produk dalam mempertanyakan fungsi kernel, sehingga fitur dapat digunakan sebagai input ke algoritma linier |
Tidak. |
ProjectToPrincipalComponents |
Kurangi dimensi vektor fitur input dengan menerapkan algoritma Analisis Komponen Utama |
|
Transformasi |
Definisi |
ONNX Dapat Diekspor |
Platt(String, String, String) |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter yang diperkirakan menggunakan data pelatihan |
Ya |
Platt(Double, Double, String) |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter tetap |
Ya |
Naive |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, dan menghitung probabilitas berdasarkan distribusi di antara bin |
Ya |
Isotonic |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, di mana posisi batas dan ukuran bin diperkirakan menggunakan data pelatihan |
Tidak. |
Transformasi |
Definisi |
ONNX Dapat Diekspor |
ApplyOnnxModel |
Mengubah data input dengan model ONNX yang diimpor |
Tidak. |
LoadTensorFlowModel |
Mengubah data input dengan model TensorFlow yang diimpor |
Tidak. |
Transformasi |
Definisi |
ONNX Dapat Diekspor |
FilterByCustomPredicate |
Menjatuhkan baris di mana predikat tertentu mengembalikan true. |
Tidak. |
FilterByStatefulCustomPredicate |
Menjatuhkan baris di mana predikat tertentu mengembalikan true, tetapi memungkinkan status tertentu. |
Tidak. |
CustomMapping |
Mengubah kolom yang sudah ada ke kolom baru dengan pemetaan yang ditentukan pengguna |
Tidak. |
Expression |
Menerapkan ekspresi untuk mengubah kolom menjadi kolom baru |
Tidak. |