Transformasi data digunakan untuk:
- Siapkan data untuk pelatihan model.
- Terapkan model yang diimpor dalam format TensorFlow atau ONNX.
- Data pasca-proses setelah diteruskan melalui model.
Transformasi dalam panduan ini mengembalikan kelas yang mengimplementasikan antarmuka IEstimator . Transformasi data dapat ditautkan bersama-sama. Setiap transformasi mengharapkan dan menghasilkan data dari jenis dan format tertentu, yang ditentukan dalam dokumentasi referensi tertaut.
Beberapa transformasi data memerlukan data pelatihan untuk menghitung parameternya. Misalnya: NormalizeMeanVariance transformator menghitung rata-rata dan varian data pelatihan selama Fit() operasi, dan menggunakan parameter tersebut Transform() dalam operasi.
Transformasi data lainnya tidak memerlukan data pelatihan. Misalnya: ConvertToGrayscale transformasi dapat melakukan Transform() operasi tanpa melihat data pelatihan selama Fit() operasi.
Pemetaan dan pengelompokan kolom
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| Concatenate |
Menggabungkan satu atau beberapa kolom input ke dalam kolom output baru |
Ya |
| CopyColumns |
Menyalin dan mengganti nama satu atau beberapa kolom input |
Ya |
| DropColumns |
Jatuhkan satu atau beberapa kolom input |
Ya |
| SelectColumns |
Pilih satu atau beberapa kolom untuk disimpan dari data input |
Ya |
Normalisasi dan penskalaan
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| NormalizeMeanVariance |
Kurangi rata-rata (data pelatihan) dan bagi dengan varian (data pelatihan) |
Ya |
| NormalizeLogMeanVariance |
Menormalkan berdasarkan logaritma data pelatihan |
Ya |
| NormalizeLpNorm |
Skalakan vektor input dengan lp-norm mereka, di mana p adalah 1, 2 atau tak terbatas. Default ke norma l2 (Jarak Euclidean) |
Ya |
| NormalizeGlobalContrast |
Skalakan setiap nilai dalam baris dengan mengurangi rata-rata data baris dan membagi dengan simpangan baku atau norma l2 (dari data baris), dan dikalikan dengan faktor skala yang dapat dikonfigurasi (default 2) |
Ya |
| NormalizeBinning |
Tetapkan nilai input ke indeks bin dan bagi dengan jumlah bin untuk menghasilkan nilai float antara 0 dan 1. Batas bin dihitung untuk mendistribusikan data pelatihan secara merata di seluruh bin |
Ya |
| NormalizeSupervisedBinning |
Menetapkan nilai input ke bin berdasarkan korelasinya dengan kolom label |
Ya |
| NormalizeMinMax |
Menskalakan input dengan perbedaan antara nilai minimum dan maksimum dalam data pelatihan |
Ya |
| NormalizeRobustScaling |
Skalakan setiap nilai menggunakan statistik yang kuat untuk outlier yang akan memusatkan data sekitar 0 dan menskalakan data sesuai dengan rentang kuantil. |
Ya |
Konversi antar jenis data
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| ConvertType |
Mengonversi jenis kolom input ke jenis baru |
Ya |
| MapValue |
Memetakan nilai ke kunci (kategori) berdasarkan kamus pemetaan yang disediakan |
Tidak. |
| MapValueToKey |
Memetakan nilai ke kunci (kategori) dengan membuat pemetaan dari data input |
Ya |
| MapKeyToValue |
Mengonversi kunci kembali ke nilai aslinya |
Ya |
| MapKeyToVector |
Mengonversi kunci kembali ke vektor nilai asli |
Ya |
| MapKeyToBinaryVector |
Mengonversi kunci kembali ke vektor biner dari nilai asli |
Tidak. |
| Hash |
Hash nilai di kolom input |
Ya |
Transformasi teks
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| FeaturizeText |
Mengubah kolom teks menjadi array float dari jumlah ngram dan char-gram yang dinormalisasi |
Tidak. |
| TokenizeIntoWords |
Memisahkan satu atau beberapa kolom teks menjadi kata individual |
Ya |
| TokenizeIntoCharactersAsKeys |
Membagi satu atau beberapa kolom teks menjadi karakter individual mengambang di atas sekumpulan topik |
Ya |
| NormalizeText |
Ubah huruf besar/kecil, hapus tanda diakritik, tanda baca, dan angka |
Ya |
| ProduceNgrams |
Mengubah kolom teks menjadi sekantong jumlah ngram (urutan kata berturut-turut) |
Ya |
| ProduceWordBags |
Mengubah kolom teks menjadi sekantong jumlah vektor ngram |
Ya |
| ProduceHashedNgrams |
Mengubah kolom teks menjadi vektor jumlah ngram yang di-hash |
Tidak. |
| ProduceHashedWordBags |
Mengubah kolom teks menjadi sekantong jumlah ngram yang di-hash |
Ya |
| RemoveDefaultStopWords |
Menghapus kata berhenti default untuk bahasa yang ditentukan dari kolom input |
Ya |
| RemoveStopWords |
Menghapus kata berhenti yang ditentukan dari kolom input |
Ya |
| LatentDirichletAllocation |
Mengubah dokumen (direpresentasikan sebagai vektor float) menjadi vektor float di atas satu set topik |
Ya |
| ApplyWordEmbedding |
Mengonversi vektor token teks menjadi vektor kalimat menggunakan model yang telah dilatih sebelumnya |
Ya |
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| DetectAnomalyBySrCnn |
Mendeteksi anomali dalam data rangkaian waktu input menggunakan algoritma Spectral Residual (SR) |
Tidak. |
| DetectChangePointBySsa |
Mendeteksi titik perubahan dalam data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
| DetectIidChangePoint |
Mendeteksi titik perubahan dalam data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale |
Tidak. |
| ForecastBySsa |
Memperkirakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
| DetectSpikeBySsa |
Mendeteksi lonjakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) |
Tidak. |
| DetectIidSpike |
Mendeteksi lonjakan data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale |
Tidak. |
| DetectEntireAnomalyBySrCnn |
Deteksi anomali untuk seluruh data input menggunakan algoritma SRCNN. |
Tidak. |
| DetectSeasonality |
Deteksi musiman menggunakan analisis fourier. |
Tidak. |
| LocalizeRootCause |
Melokalisasi akar penyebab dari input rangkaian waktu menggunakan algoritma pohon keputusan. |
Tidak. |
| LocalizeRootCauses |
Melokalisasi akar penyebab dari input seri ikatan. |
Tidak. |
Nilai yang hilang
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| IndicateMissingValues |
Buat kolom output boolean baru, nilainya benar ketika nilai di kolom input hilang |
Ya |
| ReplaceMissingValues |
Buat kolom output baru, nilai yang diatur ke nilai default jika nilai hilang dari kolom input, dan nilai input jika tidak |
Ya |
Pilihan fitur
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| ApproximatedKernelMap |
Petakan setiap vektor input ke ruang fitur dimensi yang lebih rendah, di mana produk dalam mempertanyakan fungsi kernel, sehingga fitur dapat digunakan sebagai input ke algoritma linier |
Tidak. |
| ProjectToPrincipalComponents |
Kurangi dimensi vektor fitur input dengan menerapkan algoritma Analisis Komponen Utama |
|
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| Platt(String, String, String) |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter yang diperkirakan menggunakan data pelatihan |
Ya |
| Platt(Double, Double, String) |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter tetap |
Ya |
| Naive |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, dan menghitung probabilitas berdasarkan distribusi di antara bin |
Ya |
| Isotonic |
Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, di mana posisi batas dan ukuran bin diperkirakan menggunakan data pelatihan |
Tidak. |
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| ApplyOnnxModel |
Mengubah data input dengan model ONNX yang diimpor |
Tidak. |
| LoadTensorFlowModel |
Mengubah data input dengan model TensorFlow yang diimpor |
Tidak. |
| Transformasi |
Definisi |
ONNX Dapat Diekspor |
| FilterByCustomPredicate |
Menjatuhkan baris di mana predikat tertentu mengembalikan true. |
Tidak. |
| FilterByStatefulCustomPredicate |
Menjatuhkan baris di mana predikat tertentu mengembalikan true, tetapi memungkinkan status tertentu. |
Tidak. |
| CustomMapping |
Mengubah kolom yang sudah ada ke kolom baru dengan pemetaan yang ditentukan pengguna |
Tidak. |
| Expression |
Menerapkan ekspresi untuk mengubah kolom menjadi kolom baru |
Tidak. |