microsoftml.rx_predict: оценка по модели машинного обучения Майкрософт

Использование

microsoftml.rx_predict(model,
    data: typing.Union[revoscalepy.datasource.RxDataSource.RxDataSource,
    pandas.core.frame.DataFrame],
    output_data: typing.Union[revoscalepy.datasource.RxDataSource.RxDataSource,
    str] = None, write_model_vars: bool = False,
    extra_vars_to_write: list = None, suffix: str = None,
    overwrite: bool = False, data_threads: int = None,
    blocks_per_read: int = None, report_progress: int = None,
    verbose: int = 1,
    compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None,
    **kargs)

Описание

Отчеты по оценкам для каждого экземпляра выводятся в кадре данных или в источнике данных revoscalepy с помощью обученной модели Машинного обучения Майкрософт с источником arevoscalepydata.

Сведения

По умолчанию в выходные данные включаются следующие элементы: оценка по трем переменным для двоичных классификаторов: PredictedLabel, Score и Probability; оценка для oneClassSvm и классификаторов регрессии; PredictedLabel для классификаторов с несколькими классами, а также переменная для каждой категории, перед которой идет оценка.

Аргументы

для базы данных модели

Объект сведений о модели, возвращаемый из модели microsoftml. Например, объект, возвращаемый из rx_fast_trees или rx_logistic_regression.

.

Объект источника данных revoscalepy, кадр данных или путь к файлу .xdf.

output_data

Выходной текст или имя XDF-файла или источника данных RxDataSource с возможностями записи, в котором необходимо сохранить преобразованные данные. Если указано значение None, то возвращается кадр данных. Значение по умолчанию — None.

write_model_vars

Если указано значение True, переменные в модели записываются в набор выходных данных в дополнение к переменным оценки. Если переменные из входного набора данных преобразуются в модель, то в модель также включаются и преобразованные переменные. Значение по умолчанию — False.

extra_vars_to_write

None или символьный вектор имен дополнительных переменных из входных данных для включения в output_data. Если write_model_vars имеет значение True, также включаются переменные модели. Значение по умолчанию — None.

суффикс

Строка символов, указывающая суффикс для добавления к созданным переменным оценки, или None, если суффикс отсутствует. Значение по умолчанию — None.

перезапись

Если указано значение True, существующий output_data перезаписывается; если указано значение False, существующий output_data не перезаписывается. Значение по умолчанию — False.

data_threads

Целое число, указывающее требуемую степень параллелизма в конвейере данных. Если указано значение None, количество используемых потоков определяется внутренне. Значение по умолчанию — None.

blocks_per_read

Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.

report_progress

Целочисленное значение, указывающее уровень информирования по ходу обработки строки:

0 — информирование не осуществляется.
1 — выводится и обновляется число обработанных записей.
2 — выводятся данные об обработанных записях и времени обработки.
3 — выводятся данные об обработанных записях и все данные о времени обработки.

Значение по умолчанию — 1.

verbose

Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1 до 4 позволяют увеличить объем информации. Значение по умолчанию — 1.

compute_context

Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения revoscalepy.RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений revoscalepy.RxInSqlServer.

kargs

Дополнительные аргументы, отправляемые в подсистему вычислений.

Возвращаемое значение

Кадр данных или объект revoscalepy.RxDataSource, представляющий созданные выходные данные. По умолчанию выходные данные оценки двоичных классификаторов включают три переменные: PredictedLabel, Score и Probability; rx_oneclass_svm и регрессия включают одну переменную: Score, а классификаторы с несколькими классами включают PredictedLabel и переменную для каждой категории, перед которой идет Score. Если указан suffix, он добавляется в конец этих имен выходных переменных.

См. также

rx_featurize, revoscalepy.rx_data_step, revoscalepy.rx_import.

Пример двоичной классификации

'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_fast_linear, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

infert = get_dataset("infert")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)

forest_model = rx_fast_linear(
    formula=" isCase ~ age + parity + education + spontaneous + induced ",
    data=data_train)
    
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(forest_model, data=data_test,
                     extra_vars_to_write=["isCase", "Score"])
                     
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))

Выходные данные:

Automatically adding a MinMax normalization transform, use 'norm=Warn' or 'norm=No' to turn this behavior off.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Using 2 threads to train.
Automatically choosing a check frequency of 2.
Auto-tuning parameters: maxIterations = 8064.
Auto-tuning parameters: L2 = 2.666837E-05.
Auto-tuning parameters: L1Threshold (L1/L2) = 0.
Using best model from iteration 590.
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.6058289
Elapsed time: 00:00:00.0084728
Beginning processing data.
Rows Read: 62, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0302359
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds 
  isCase PredictedLabel     Score  Probability
0  False           True  0.576775     0.640325
1  False          False -2.929549     0.050712
2   True          False -2.370090     0.085482
3  False          False -1.700105     0.154452
4  False          False -0.110981     0.472283

Пример регрессии

'''
Regression.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset

airquality = get_dataset("airquality")

import sklearn
if sklearn.__version__ < "0.18":
    from sklearn.cross_validation import train_test_split
else:
    from sklearn.model_selection import train_test_split

airquality = airquality.as_df()


######################################################################
# Estimate a regression fast forest
# Use the built-in data set 'airquality' to create test and train data

df = airquality[airquality.Ozone.notnull()]
df["Ozone"] = df.Ozone.astype(float)

data_train, data_test, y_train, y_test = train_test_split(df, df.Ozone)

airFormula = " Ozone ~ Solar_R + Wind + Temp "

# Regression Fast Forest for train data
ff_reg = rx_fast_trees(airFormula, method="regression", data=data_train)

# Put score and model variables in data frame
score_df = rx_predict(ff_reg, data=data_test, write_model_vars=True)
print(score_df.head())

# Plot actual versus predicted values with smoothed line
# Supported in the next version.
# rx_line_plot(" Score ~ Ozone ", type=["p", "smooth"], data=score_df)