Преобразования данных

Преобразования данных используются, чтобы:

Подготовка данных для обучения модели.
Примените импортированную модель в формате TensorFlow или ONNX.
Обработать данные после их прохождения через модель.

В этом руководстве рассматриваются преобразования, которые возвращают классы, реализующие интерфейс IEstimator. Преобразования данных можно соединять в цепочки. Каждое преобразование принимает и выводит данные определенных типов и форматов, которые указаны в связанной справочной документации.

Некоторым преобразованиям данных требуются данные для обучения, чтобы вычислять их параметры. Например, преобразователь NormalizeMeanVariance позволяет вычислить среднее значение и дисперсию данных для обучения при выполнении операции Fit() и использует эти параметры в операции Transform().

Другим преобразованиям данных не требуются данные для обучения. Например, преобразование ConvertToGrayscale позволяет выполнять операцию Transform() без использования предоставленных данных для обучения во время операции Fit().

Сопоставление и группирование столбцов

Преобразование	Определение	Экспортируемый в формате ONNX
Concatenate	Объединение одного или нескольких входных столбцов в новый выходной столбец	Да
CopyColumns	Копирование и переименование одного или нескольких входных столбцов	Да
DropColumns	Удаление одного или нескольких входных столбцов	Да
SelectColumns	Выберите один или несколько столбцов, которые необходимо оставить из входных данных	Да

Нормализация и масштабирование

Преобразование	Определение	Экспортируемый в формате ONNX
NormalizeMeanVariance	Вычтите среднее значение (обучающих данных) и разделите на дисперсию (обучающих данных).	Да
NormalizeLogMeanVariance	Нормализовать на основе логарифма обучающих данных	Да
NormalizeLpNorm	Масштабируйте входные векторы по их lp-норме, где p равно 1, 2 или бесконечности. По умолчанию используется норма L2 (евклидова метрика)	Да
NormalizeGlobalContrast	Масштабирование каждого значения в строке путем вычитания среднего значения данных в строке и деления либо на стандартное отклонение, либо на норму l2 (данных в строке) и умножения на настраиваемый коэффициент масштабирования (значение по умолчанию — 2)	Да
NormalizeBinning	Назначьте входное значение индексу корзины и разделите на количество корзин, чтобы получить дробное значение от 0 до 1. Границы ячеек вычисляются для равномерного распределения между ними данных для обучения	Да
NormalizeSupervisedBinning	Назначьте входное значение для ячейки в зависимости от корреляции со столбцом меток	Да
NormalizeMinMax	Масштабирование входных значений на основе разницы между минимальным и максимальным значениями в данных для обучения	Да
NormalizeRobustScaling	Масштабируйте каждое значение, используя статистику, устойчивую к выбросам, которая центрирует данные вокруг 0 и масштабирует данные в соответствии с диапазоном квантилей.	Да

Преобразования между типами данных

Преобразовать	Определение	Экспортируемый в формат ONNX
ConvertType	Преобразование типа входного столбца в новый тип	Да
MapValue	Сопоставление значений с ключами (категориями) на основе предоставленного словаря сопоставлений	нет
MapValueToKey	Сопоставление значений с ключами (категориями) путем создания сопоставлений на основе входных данных	Да
MapKeyToValue	Обратное преобразование ключей в исходные значения	Да
MapKeyToVector	Обратное преобразование ключей в векторы исходных значений	Да
MapKeyToBinaryVector	Обратное преобразование ключей в двоичный вектор исходных значений	нет
Hash	Хэширование значения во входном столбце	Да

Преобразования текста

Преобразовать	Определение	Экспортируемый в ONNX
FeaturizeText	Преобразовать текстовый столбец в массив вещественных чисел, содержащий подсчеты нормализованных n-грамм и символьных n-грамм	нет
TokenizeIntoWords	Разбиение одного или нескольких текстовых столбцов на отдельные слова	Да
TokenizeIntoCharactersAsKeys	Разделение одного или нескольких текстовых столбцов на отдельные символы в пределах набора тем.	Да
NormalizeText	Измените регистр, удалите диакритические знаки, знаки препинания и цифры	Да
ProduceNgrams	Преобразование текстового столбца в контейнер n-грамм (ряд последовательных слов)	Да
ProduceWordBags	Преобразуйте текстовый столбец в мешок со счетами векторов n-грамм	Да
ProduceHashedNgrams	Преобразование текстового столбца в вектор с подсчетами хэшированных n-грамм.	нет
ProduceHashedWordBags	Преобразование текстового столбца в мешок счетчиков хэшированных n-грамм	Да
RemoveDefaultStopWords	Удаление стоп-слов по умолчанию для указанного языка из входных столбцов	Да
RemoveStopWords	Удаление указанного стоп-слова из входных столбцов	Да
LatentDirichletAllocation	Преобразование документа (в виде вектора значений с плавающей запятой) в вектор значений с плавающей запятой на основе набора тем	Да
ApplyWordEmbedding	Преобразование векторов текстовых маркеров в векторы предложений с помощью предварительно обученной модели	Да

Преобразование изображений

Преобразование	Определение	Экспортируемый в формат ONNX
ConvertToGrayscale	Преобразование изображения в оттенки серого	нет
ConvertToImage	Преобразование вектора пикселей в ImageDataViewType	нет
ExtractPixels	Преобразование пикселей из входного изображения в вектор чисел	нет
LoadImages	Загрузка изображений из папки в память	нет
LoadRawImageBytes	Загружает изображения необработанных байтов в новый столбец.	нет
ResizeImages	Изменение размеров изображений	нет
DnnFeaturizeImage	Применяет предварительно обученную модель глубокой нейронной сети (DNN) для преобразования входного изображения в вектор признаков	нет

Преобразование категориальных данных

Преобразование	Определение	Экспортируемый в формате ONNX
OneHotEncoding	Преобразование одного или нескольких текстовых столбцов в векторы с использованием one-hot кодировки	Да
OneHotHashEncoding	Преобразование одного или нескольких текстовых столбцов в хэшированные векторы однократного кодирования.	нет