Bagikan melalui


Transformasi data

Transformasi data digunakan untuk:

  • Siapkan data untuk pelatihan model.
  • Terapkan model yang diimpor dalam format TensorFlow atau ONNX.
  • Data pasca-proses setelah diteruskan melalui model.

Transformasi dalam panduan ini mengembalikan kelas yang mengimplementasikan antarmuka IEstimator . Transformasi data dapat ditautkan bersama-sama. Setiap transformasi mengharapkan dan menghasilkan data dari jenis dan format tertentu, yang ditentukan dalam dokumentasi referensi tertaut.

Beberapa transformasi data memerlukan data pelatihan untuk menghitung parameternya. Misalnya: NormalizeMeanVariance transformator menghitung rata-rata dan varian data pelatihan selama Fit() operasi, dan menggunakan parameter tersebut Transform() dalam operasi.

Transformasi data lainnya tidak memerlukan data pelatihan. Misalnya: ConvertToGrayscale transformasi dapat melakukan Transform() operasi tanpa melihat data pelatihan selama Fit() operasi.

Pemetaan dan pengelompokan kolom

Transformasi Definisi ONNX Dapat Diekspor
Concatenate Menggabungkan satu atau beberapa kolom input ke dalam kolom output baru Ya
CopyColumns Menyalin dan mengganti nama satu atau beberapa kolom input Ya
DropColumns Jatuhkan satu atau beberapa kolom input Ya
SelectColumns Pilih satu atau beberapa kolom untuk disimpan dari data input Ya

Normalisasi dan penskalaan

Transformasi Definisi ONNX Dapat Diekspor
NormalizeMeanVariance Kurangi rata-rata (data pelatihan) dan bagi dengan varian (data pelatihan) Ya
NormalizeLogMeanVariance Menormalkan berdasarkan logaritma data pelatihan Ya
NormalizeLpNorm Skalakan vektor input dengan lp-norm mereka, di mana p adalah 1, 2 atau tak terbatas. Default ke norma l2 (Jarak Euclidean) Ya
NormalizeGlobalContrast Skalakan setiap nilai dalam baris dengan mengurangi rata-rata data baris dan membagi dengan simpangan baku atau norma l2 (dari data baris), dan dikalikan dengan faktor skala yang dapat dikonfigurasi (default 2) Ya
NormalizeBinning Tetapkan nilai input ke indeks bin dan bagi dengan jumlah bin untuk menghasilkan nilai float antara 0 dan 1. Batas bin dihitung untuk mendistribusikan data pelatihan secara merata di seluruh bin Ya
NormalizeSupervisedBinning Menetapkan nilai input ke bin berdasarkan korelasinya dengan kolom label Ya
NormalizeMinMax Menskalakan input dengan perbedaan antara nilai minimum dan maksimum dalam data pelatihan Ya
NormalizeRobustScaling Skalakan setiap nilai menggunakan statistik yang kuat untuk outlier yang akan memusatkan data sekitar 0 dan menskalakan data sesuai dengan rentang kuantil. Ya

Konversi antar jenis data

Transformasi Definisi ONNX Dapat Diekspor
ConvertType Mengonversi jenis kolom input ke jenis baru Ya
MapValue Memetakan nilai ke kunci (kategori) berdasarkan kamus pemetaan yang disediakan Tidak.
MapValueToKey Memetakan nilai ke kunci (kategori) dengan membuat pemetaan dari data input Ya
MapKeyToValue Mengonversi kunci kembali ke nilai aslinya Ya
MapKeyToVector Mengonversi kunci kembali ke vektor nilai asli Ya
MapKeyToBinaryVector Mengonversi kunci kembali ke vektor biner dari nilai asli Tidak.
Hash Hash nilai di kolom input Ya

Transformasi teks

Transformasi Definisi ONNX Dapat Diekspor
FeaturizeText Mengubah kolom teks menjadi array float dari jumlah ngram dan char-gram yang dinormalisasi Tidak.
TokenizeIntoWords Memisahkan satu atau beberapa kolom teks menjadi kata individual Ya
TokenizeIntoCharactersAsKeys Membagi satu atau beberapa kolom teks menjadi karakter individual mengambang di atas sekumpulan topik Ya
NormalizeText Ubah huruf besar/kecil, hapus tanda diakritik, tanda baca, dan angka Ya
ProduceNgrams Mengubah kolom teks menjadi sekantong jumlah ngram (urutan kata berturut-turut) Ya
ProduceWordBags Mengubah kolom teks menjadi sekantong jumlah vektor ngram Ya
ProduceHashedNgrams Mengubah kolom teks menjadi vektor jumlah ngram yang di-hash Tidak.
ProduceHashedWordBags Mengubah kolom teks menjadi sekantong jumlah ngram yang di-hash Ya
RemoveDefaultStopWords Menghapus kata berhenti default untuk bahasa yang ditentukan dari kolom input Ya
RemoveStopWords Menghapus kata berhenti yang ditentukan dari kolom input Ya
LatentDirichletAllocation Mengubah dokumen (direpresentasikan sebagai vektor float) menjadi vektor float di atas satu set topik Ya
ApplyWordEmbedding Mengonversi vektor token teks menjadi vektor kalimat menggunakan model yang telah dilatih sebelumnya Ya

Transformasi gambar

Transformasi Definisi ONNX Dapat Diekspor
ConvertToGrayscale Mengonversi gambar menjadi skala abu-abu Tidak.
ConvertToImage Mengonversi vektor piksel menjadi ImageDataViewType Tidak.
ExtractPixels Mengonversi piksel dari gambar input menjadi vektor angka Tidak.
LoadImages Memuat gambar dari folder ke dalam memori Tidak.
LoadRawImageBytes Memuat gambar byte mentah ke dalam kolom baru. Tidak.
ResizeImages Mengubah ukuran gambar Tidak.
DnnFeaturizeImage Menerapkan model jaringan neural dalam (DNN) yang telah dilatih sebelumnya untuk mengubah gambar input menjadi vektor fitur Tidak.

Transformasi data kategoris

Transformasi Definisi ONNX Dapat Diekspor
OneHotEncoding Mengonversi satu atau beberapa kolom teks menjadi vektor berkode satu panas Ya
OneHotHashEncoding Mengonversi satu atau beberapa kolom teks menjadi vektor yang dikodekan satu panas berbasis hash Tidak.

Transformasi data rangkaian waktu

Transformasi Definisi ONNX Dapat Diekspor
DetectAnomalyBySrCnn Mendeteksi anomali dalam data rangkaian waktu input menggunakan algoritma Spectral Residual (SR) Tidak.
DetectChangePointBySsa Mendeteksi titik perubahan dalam data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) Tidak.
DetectIidChangePoint Mendeteksi titik perubahan dalam data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale Tidak.
ForecastBySsa Memperkirakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) Tidak.
DetectSpikeBySsa Mendeteksi lonjakan data rangkaian waktu menggunakan analisis spektrum tunggal (SSA) Tidak.
DetectIidSpike Mendeteksi lonjakan data rangkaian waktu independen dan identik terdistribusi (IID) menggunakan estimasi kepadatan kernel adaptif dan skor martingale Tidak.
DetectEntireAnomalyBySrCnn Deteksi anomali untuk seluruh data input menggunakan algoritma SRCNN. Tidak.
DetectSeasonality Deteksi musiman menggunakan analisis fourier. Tidak.
LocalizeRootCause Melokalisasi akar penyebab dari input rangkaian waktu menggunakan algoritma pohon keputusan. Tidak.
LocalizeRootCauses Melokalisasi akar penyebab dari input seri ikatan. Tidak.

Nilai yang hilang

Transformasi Definisi ONNX Dapat Diekspor
IndicateMissingValues Buat kolom output boolean baru, nilainya benar ketika nilai di kolom input hilang Ya
ReplaceMissingValues Buat kolom output baru, nilai yang diatur ke nilai default jika nilai hilang dari kolom input, dan nilai input jika tidak Ya

Pilihan fitur

Transformasi Definisi ONNX Dapat Diekspor
SelectFeaturesBasedOnCount Pilih fitur yang nilai non-defaultnya lebih besar dari ambang batas Ya
SelectFeaturesBasedOnMutualInformation Pilih fitur yang paling bergantung pada data dalam kolom label Ya

Transformasi fitur

Transformasi Definisi ONNX Dapat Diekspor
ApproximatedKernelMap Petakan setiap vektor input ke ruang fitur dimensi yang lebih rendah, di mana produk dalam mempertanyakan fungsi kernel, sehingga fitur dapat digunakan sebagai input ke algoritma linier Tidak.
ProjectToPrincipalComponents Kurangi dimensi vektor fitur input dengan menerapkan algoritma Analisis Komponen Utama

Transformasi keterjelaskan

Transformasi Definisi ONNX Dapat Diekspor
CalculateFeatureContribution Menghitung skor kontribusi untuk setiap elemen vektor fitur Tidak.

Transformasi kalibrasi

Transformasi Definisi ONNX Dapat Diekspor
Platt(String, String, String) Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter yang diperkirakan menggunakan data pelatihan Ya
Platt(Double, Double, String) Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas menggunakan regresi logistik dengan parameter tetap Ya
Naive Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, dan menghitung probabilitas berdasarkan distribusi di antara bin Ya
Isotonic Mengubah skor mentah pengklasifikasi biner menjadi probabilitas kelas dengan menetapkan skor ke bin, di mana posisi batas dan ukuran bin diperkirakan menggunakan data pelatihan Tidak.

Transformasi pembelajaran mendalam

Transformasi Definisi ONNX Dapat Diekspor
ApplyOnnxModel Mengubah data input dengan model ONNX yang diimpor Tidak.
LoadTensorFlowModel Mengubah data input dengan model TensorFlow yang diimpor Tidak.

Transformasi khusus

Transformasi Definisi ONNX Dapat Diekspor
FilterByCustomPredicate Menjatuhkan baris di mana predikat tertentu mengembalikan true. Tidak.
FilterByStatefulCustomPredicate Menjatuhkan baris di mana predikat tertentu mengembalikan true, tetapi memungkinkan status tertentu. Tidak.
CustomMapping Mengubah kolom yang sudah ada ke kolom baru dengan pemetaan yang ditentukan pengguna Tidak.
Expression Menerapkan ekspresi untuk mengubah kolom menjadi kolom baru Tidak.