Bagikan melalui


Transformasi data

Transformasi data digunakan untuk:

  • menyiapkan data untuk pelatihan model
  • menerapkan model yang diimpor dalam format TensorFlow atau ONNX
  • data pasca-proses setelah diteruskan melalui model

Transformasi dalam panduan ini mengembalikan kelas yang mengimplementasikan antarmuka IEstimator . Transformasi data dapat ditautkan bersama-sama. Setiap transformasi mengharapkan dan menghasilkan data dari jenis dan format tertentu, yang ditentukan dalam dokumentasi referensi tertaut.

Beberapa transformasi data memerlukan data pelatihan untuk menghitung parameternya. Misalnya: NormalizeMeanVariance transformator menghitung rata-rata dan varian data pelatihan selama Fit() operasi, dan menggunakan parameter tersebut Transform() dalam operasi.

Transformasi data lainnya tidak memerlukan data pelatihan. Misalnya: ConvertToGrayscale transformasi dapat melakukan Transform() operasi tanpa melihat data pelatihan selama Fit() operasi.

Pemetaan dan pengelompokan kolom

Transformasi Definisi ONNX Dapat Diekspor
Concatenate Menggabungkan satu atau beberapa kolom input ke dalam kolom output baru Ya
CopyColumns Menyalin dan mengganti nama satu atau beberapa kolom input Ya
DropColumns Jatuhkan satu atau beberapa kolom input Ya
SelectColumns Pilih satu atau beberapa kolom untuk disimpan dari data input Ya

Normalisasi dan penskalaan

Transformasi Definisi ONNX Dapat Diekspor
NormalizeMeanVariance Kurangi rata-rata (data pelatihan) dan bagi dengan varian (data pelatihan) Ya
NormalizeLogMeanVariance Menormalkan berdasarkan logaritma data pelatihan Ya
NormalizeLpNorm Skalakan vektor input dengan lp-norm mereka, di mana p adalah 1, 2 atau tak terbatas. Default ke norma l2 (Jarak Euclidean) Ya
NormalizeGlobalContrast Skalakan setiap nilai dalam baris dengan mengurangi rata-rata data baris dan membagi dengan simpangan baku atau norma l2 (dari data baris), dan dikalikan dengan faktor skala yang dapat dikonfigurasi (default 2) Ya
NormalizeBinning Tetapkan nilai input ke indeks bin dan bagi dengan jumlah bin untuk menghasilkan nilai float antara 0 dan 1. Batas bin dihitung untuk mendistribusikan data pelatihan secara merata di seluruh bin Ya
NormalizeSupervisedBinning Menetapkan nilai input ke bin berdasarkan korelasinya dengan kolom label Ya
NormalizeMinMax Menskalakan input dengan perbedaan antara nilai minimum dan maksimum dalam data pelatihan Ya
NormalizeRobustScaling Skalakan setiap nilai menggunakan statistik yang kuat untuk outlier yang akan memusatkan data sekitar 0 dan menskalakan data sesuai dengan rentang kuantil. Ya

Konversi antar jenis data

Transformasi Definisi ONNX Dapat Diekspor
ConvertType Mengonversi jenis kolom input ke jenis baru Ya
MapValue Memetakan nilai ke kunci (kategori) berdasarkan kamus pemetaan yang disediakan No
MapValueToKey Memetakan nilai ke kunci (kategori) dengan membuat pemetaan dari data input Ya
MapKeyToValue Mengonversi kunci kembali ke nilai aslinya Ya
MapKeyToVector Mengonversi kunci kembali ke vektor nilai asli Ya
MapKeyToBinaryVector Mengonversi kunci kembali ke vektor biner dari nilai asli No
Hash Hash nilai di kolom input Ya

Transformasi teks

Transformasi Definisi ONNX Dapat Diekspor
FeaturizeText Mengubah kolom teks menjadi array float dari jumlah ngram dan char-gram yang dinormalisasi No
TokenizeIntoWords Memisahkan satu atau beberapa kolom teks menjadi kata individual Ya
TokenizeIntoCharactersAsKeys Membagi satu atau beberapa kolom teks menjadi karakter individual mengambang di atas sekumpulan topik Ya
NormalizeText Ubah huruf besar/kecil, hapus tanda diakritik, tanda baca, dan angka Ya
ProduceNgrams Mengubah kolom teks menjadi sekantong jumlah ngram (urutan kata berturut-turut) Ya
ProduceWordBags Mengubah kolom teks menjadi sekantong jumlah vektor ngram Ya
ProduceHashedNgrams Mengubah kolom teks menjadi vektor jumlah ngram yang di-hash No
ProduceHashedWordBags Mengubah kolom teks menjadi sekantong jumlah ngram yang di-hash Ya
RemoveDefaultStopWords Menghapus kata berhenti default untuk bahasa yang ditentukan dari kolom input Ya
RemoveStopWords Menghapus kata berhenti yang ditentukan dari kolom input Ya
LatentDirichletAllocation Mengubah dokumen (direpresentasikan sebagai vektor float) menjadi vektor float di atas satu set topik Ya
ApplyWordEmbedding Mengonversi vektor token teks menjadi vektor kalimat menggunakan model yang telah dilatih sebelumnya Ya

Transformasi gambar

Transformasi Definisi ONNX Dapat Diekspor
ConvertToGrayscale Mengonversi gambar menjadi skala abu-abu No
ConvertToImage Mengonversi vektor piksel menjadi ImageDataViewType No
ExtractPixels Mengonversi piksel dari gambar input menjadi vektor angka No
LoadImages Memuat gambar dari folder ke dalam memori No
LoadRawImageBytes Memuat gambar byte mentah ke dalam kolom baru. No
ResizeImages Mengubah ukuran gambar No
DnnFeaturizeImage Menerapkan model jaringan neural dalam (DNN) yang telah dilatih sebelumnya untuk mengubah gambar input menjadi vektor fitur No

Transformasi data kategoris

Transformasi Definisi ONNX Dapat Diekspor
OneHotEncoding Mengonversi satu atau beberapa kolom teks menjadi vektor berkode satu panas Ya
OneHotHashEncoding Mengonversi satu atau beberapa kolom teks menjadi vektor yang dikodekan satu panas berbasis hash No

Transformasi data rangkaian waktu

Transformasi Definisi ONNX Dapat Diekspor
DetectAnomalyBySrCnn Mendeteksi anomali dalam data rangkaian waktu input menggunakan algoritma Spectral Residual (SR) No
DetectChangePointBySsa Mendeteksi titik perubahan dalam data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) No
DetectIidChangePoint Mendeteksi titik perubahan dalam data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale No
ForecastBySsa Memperkirakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) No
DetectSpikeBySsa Mendeteksi lonjakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) No
DetectIidSpike Mendeteksi lonjakan data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale No
DetectEntireAnomalyBySrCnn Deteksi anomali untuk seluruh data input menggunakan algoritma SRCNN. No
DetectSeasonality Deteksi musiman menggunakan analisis fourier. No
LocalizeRootCause Melokalisasi akar penyebab dari input rangkaian waktu menggunakan algoritma pohon keputusan. No
LocalizeRootCauses Melokalisasi akar penyebab dari input seri ikatan. No

Nilai yang hilang

Transformasi Definisi ONNX Dapat Diekspor
IndicateMissingValues Buat kolom output boolean baru, nilainya benar ketika nilai di kolom input hilang Ya
ReplaceMissingValues Buat kolom output baru, nilai yang diatur ke nilai default jika nilai hilang dari kolom input, dan nilai input jika tidak Ya

Pilihan fitur

Transformasi Definisi ONNX Dapat Diekspor
SelectFeaturesBasedOnCount Pilih fitur yang nilai non-defaultnya lebih besar dari ambang batas Ya
SelectFeaturesBasedOnMutualInformation Pilih fitur yang paling bergantung pada data dalam kolom label Ya

Transformasi fitur

Transformasi Definisi ONNX Dapat Diekspor
ApproximatedKernelMap Petakan setiap vektor input ke ruang fitur dimensi yang lebih rendah, di mana produk dalam mempertanyakan fungsi kernel, sehingga fitur dapat digunakan sebagai input ke algoritma linier No
ProjectToPrincipalComponents Kurangi dimensi vektor fitur input dengan menerapkan algoritma Analisis Komponen Utama

Transformasi keterjelaskan

Transformasi Definisi ONNX Dapat Diekspor
CalculateFeatureContribution Menghitung skor kontribusi untuk setiap elemen vektor fitur No

Transformasi kalibrasi

Transformasi Definisi ONNX Dapat Diekspor
Platt(String, String, String) Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter yang diperkirakan menggunakan data pelatihan Ya
Platt(Double, Double, String) Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter tetap Ya
Naive Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, dan menghitung probabilitas berdasarkan distribusi di antara bin Ya
Isotonic Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, di mana posisi batas dan ukuran bin diperkirakan menggunakan data pelatihan No

Transformasi pembelajaran mendalam

Transformasi Definisi ONNX Dapat Diekspor
ApplyOnnxModel Mengubah data input dengan model ONNX yang diimpor No
LoadTensorFlowModel Mengubah data input dengan model TensorFlow yang diimpor No

Transformasi khusus

Transformasi Definisi ONNX Dapat Diekspor
FilterByCustomPredicate Menjatuhkan baris di mana predikat tertentu mengembalikan true. No
FilterByStatefulCustomPredicate Menjatuhkan baris di mana predikat tertentu mengembalikan true, tetapi memungkinkan status tertentu. No
CustomMapping Mengubah kolom yang sudah ada ke kolom baru dengan pemetaan yang ditentukan pengguna No
Expression Menerapkan ekspresi untuk mengubah kolom menjadi kolom baru No