Ескертпе
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Жүйеге кіруді немесе каталогтарды өзгертуді байқап көруге болады.
Бұл бетке кіру үшін қатынас шегін айқындау қажет. Каталогтарды өзгертуді байқап көруге болады.
Использование
microsoftml.rx_predict(model,
data: typing.Union[revoscalepy.datasource.RxDataSource.RxDataSource,
pandas.core.frame.DataFrame],
output_data: typing.Union[revoscalepy.datasource.RxDataSource.RxDataSource,
str] = None, write_model_vars: bool = False,
extra_vars_to_write: list = None, suffix: str = None,
overwrite: bool = False, data_threads: int = None,
blocks_per_read: int = None, report_progress: int = None,
verbose: int = 1,
compute_context: revoscalepy.computecontext.RxComputeContext.RxComputeContext = None,
**kargs)
Описание
Отчеты по оценкам для каждого экземпляра выводятся в кадре данных или в источнике данных revoscalepy с помощью обученной модели Машинного обучения Майкрософт с источником arevoscalepydata.
Сведения
По умолчанию в выходные данные включаются следующие элементы: оценка по трем переменным для двоичных классификаторов: PredictedLabel, Score и Probability; оценка для oneClassSvm и классификаторов регрессии; PredictedLabel для классификаторов с несколькими классами, а также переменная для каждой категории, перед которой идет оценка.
Аргументы
для базы данных модели
Объект сведений о модели, возвращаемый из модели microsoftml.
Например, объект, возвращаемый из rx_fast_trees или rx_logistic_regression.
.
Объект источника данных revoscalepy, кадр данных или путь к файлу .xdf.
output_data
Выходной текст или имя XDF-файла или источника данных RxDataSource с возможностями записи, в котором необходимо сохранить преобразованные данные. Если указано значение None, то возвращается кадр данных. Значение по умолчанию — None.
write_model_vars
Если указано значение True, переменные в модели записываются в набор выходных данных в дополнение к переменным оценки.
Если переменные из входного набора данных преобразуются в модель, то в модель также включаются и преобразованные переменные. Значение по умолчанию — False.
extra_vars_to_write
None или символьный вектор имен дополнительных переменных из входных данных для включения в output_data. Если write_model_vars имеет значение True, также включаются переменные модели. Значение по умолчанию — None.
суффикс
Строка символов, указывающая суффикс для добавления к созданным переменным оценки, или None, если суффикс отсутствует. Значение по умолчанию — None.
перезапись
Если указано значение True, существующий output_data перезаписывается; если указано значение False, существующий output_data не перезаписывается. Значение по умолчанию — False.
data_threads
Целое число, указывающее требуемую степень параллелизма в конвейере данных. Если указано значение None, количество используемых потоков определяется внутренне. Значение по умолчанию — None.
blocks_per_read
Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.
report_progress
Целочисленное значение, указывающее уровень информирования по ходу обработки строки:
0— информирование не осуществляется.1— выводится и обновляется число обработанных записей.2— выводятся данные об обработанных записях и времени обработки.3— выводятся данные об обработанных записях и все данные о времени обработки.
Значение по умолчанию — 1.
verbose
Целочисленное значение, указывающее требуемый объем выходных данных.
Если задано значение 0, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1 до 4 позволяют увеличить объем информации.
Значение по умолчанию — 1.
compute_context
Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения revoscalepy.RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений revoscalepy.RxInSqlServer.
kargs
Дополнительные аргументы, отправляемые в подсистему вычислений.
Возвращаемое значение
Кадр данных или объект revoscalepy.RxDataSource, представляющий созданные выходные данные. По умолчанию выходные данные оценки двоичных классификаторов включают три переменные: PredictedLabel, Score и Probability; rx_oneclass_svm и регрессия включают одну переменную: Score, а классификаторы с несколькими классами включают PredictedLabel и переменную для каждой категории, перед которой идет Score. Если указан suffix, он добавляется в конец этих имен выходных переменных.
См. также
rx_featurize, revoscalepy.rx_data_step, revoscalepy.rx_import.
Пример двоичной классификации
'''
Binary Classification.
'''
import numpy
import pandas
from microsoftml import rx_fast_linear, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset
infert = get_dataset("infert")
import sklearn
if sklearn.__version__ < "0.18":
from sklearn.cross_validation import train_test_split
else:
from sklearn.model_selection import train_test_split
infertdf = infert.as_df()
infertdf["isCase"] = infertdf.case == 1
data_train, data_test, y_train, y_test = train_test_split(infertdf, infertdf.isCase)
forest_model = rx_fast_linear(
formula=" isCase ~ age + parity + education + spontaneous + induced ",
data=data_train)
# RuntimeError: The type (RxTextData) for file is not supported.
score_ds = rx_predict(forest_model, data=data_test,
extra_vars_to_write=["isCase", "Score"])
# Print the first five rows
print(rx_data_step(score_ds, number_rows_read=5))
Выходные данные:
Automatically adding a MinMax normalization transform, use 'norm=Warn' or 'norm=No' to turn this behavior off.
Beginning processing data.
Rows Read: 186, Read Time: 0, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Beginning processing data.
Rows Read: 186, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Using 2 threads to train.
Automatically choosing a check frequency of 2.
Auto-tuning parameters: maxIterations = 8064.
Auto-tuning parameters: L2 = 2.666837E-05.
Auto-tuning parameters: L1Threshold (L1/L2) = 0.
Using best model from iteration 590.
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.6058289
Elapsed time: 00:00:00.0084728
Beginning processing data.
Rows Read: 62, Read Time: 0, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0302359
Finished writing 62 rows.
Writing completed.
Rows Read: 5, Total Rows Processed: 5, Total Chunk Time: 0.001 seconds
isCase PredictedLabel Score Probability
0 False True 0.576775 0.640325
1 False False -2.929549 0.050712
2 True False -2.370090 0.085482
3 False False -1.700105 0.154452
4 False False -0.110981 0.472283
Пример регрессии
'''
Regression.
'''
import numpy
import pandas
from microsoftml import rx_fast_trees, rx_predict
from revoscalepy.etl.RxDataStep import rx_data_step
from microsoftml.datasets.datasets import get_dataset
airquality = get_dataset("airquality")
import sklearn
if sklearn.__version__ < "0.18":
from sklearn.cross_validation import train_test_split
else:
from sklearn.model_selection import train_test_split
airquality = airquality.as_df()
######################################################################
# Estimate a regression fast forest
# Use the built-in data set 'airquality' to create test and train data
df = airquality[airquality.Ozone.notnull()]
df["Ozone"] = df.Ozone.astype(float)
data_train, data_test, y_train, y_test = train_test_split(df, df.Ozone)
airFormula = " Ozone ~ Solar_R + Wind + Temp "
# Regression Fast Forest for train data
ff_reg = rx_fast_trees(airFormula, method="regression", data=data_train)
# Put score and model variables in data frame
score_df = rx_predict(ff_reg, data=data_test, write_model_vars=True)
print(score_df.head())
# Plot actual versus predicted values with smoothed line
# Supported in the next version.
# rx_line_plot(" Score ~ Ozone ", type=["p", "smooth"], data=score_df)
Выходные данные:
'unbalanced_sets' ignored for method 'regression'
Not adding a normalizer.
Making per-feature arrays
Changing data from row-wise to column-wise
Beginning processing data.
Rows Read: 87, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Warning: Skipped 4 instances with missing features during training
Processed 83 instances
Binning and forming Feature objects
Reserved memory for tree learner: 22620 bytes
Starting to train ...
Not training a calibrator because it is not needed.
Elapsed time: 00:00:00.0390764
Elapsed time: 00:00:00.0080750
Beginning processing data.
Rows Read: 29, Read Time: 0.001, Transform Time: 0
Beginning processing data.
Elapsed time: 00:00:00.0221875
Finished writing 29 rows.
Writing completed.
Solar_R Wind Temp Score
0 290.0 9.2 66.0 33.195541
1 259.0 15.5 77.0 20.906796
2 276.0 5.1 88.0 76.594643
3 139.0 10.3 81.0 31.668842
4 236.0 14.9 81.0 43.590839