Автологирование в Microsoft Fabric

Synapse Обработка и анализ данных в Microsoft Fabric включает автоматическое ведение журнала, что значительно сокращает объем кода, необходимый для автоматического регистрации параметров, метрик и элементов модели машинного обучения во время обучения. Эта функция расширяет возможности автологирования MLflow и глубоко интегрирована в Обработка и анализ данных Synapse в microsoft Fabric. С помощью автологирования разработчики и специалисты по обработке и анализу данных могут легко отслеживать и сравнивать производительность различных моделей и экспериментов без необходимости отслеживания вручную.

Конфигурации

Автологирование работает путем автоматического записи значений входных параметров, выходных метрик и выходных элементов модели машинного обучения при обучении. Затем эти сведения записываются в рабочую область Microsoft Fabric, где ее можно получить и визуализировать с помощью API MLflow или соответствующих элементов эксперимента и моделей в рабочей области Microsoft Fabric.

Конфигурация по умолчанию для перехватчика notebook mlflow.autolog() — это:


mlflow.autolog(
    log_input_examples=False,
    log_model_signatures=True,
    log_models=True,
    disable=False,
    exclusive=True,
    disable_for_unsupported_versions=True,
    silent=True)

При запуске записной книжки Synapse Обработка и анализ данных Microsoft Fabric вызывает mlflow.autolog(), чтобы мгновенно включить отслеживание и загрузить соответствующие зависимости. При обучении моделей в записной книжке эта информация об модели автоматически отслеживается с помощью MLflow. Эта конфигурация выполняется автоматически при запуске import mlflow.

Поддерживаемые платформы

Автологирование поддерживает широкий спектр платформ машинного обучения, включая TensorFlow, PyTorch, Scikit-learn и XGBoost. Он может записывать различные метрики, включая точность, потерю и оценку F1, а также пользовательские метрики, определенные пользователем. Дополнительные сведения о определенных свойствах платформы, которые записываются, см . в документации по MLflow.

Настройка поведения ведения журналов

Чтобы настроить поведение ведения журнала, можно использовать конфигурацию mlflow.autolog(). Эта конфигурация предоставляет параметры для включения ведения журнала моделей, сбора входных примеров, настройки предупреждений или даже включения ведения журнала для пользовательского содержимого.

Отслеживание дополнительного содержимого

Вы можете обновить конфигурацию автологирования, чтобы отслеживать дополнительные метрики, параметры, файлы и метаданные с помощью запусков, созданных с помощью MLflow.

Для этого:

  1. Обновите вызов mlflow.autolog() и задайте егоexclusive=False.

        mlflow.autolog(
        log_input_examples=False,
        log_model_signatures=True,
        log_models=True,
        disable=False,
        exclusive=False, # Update this property to enable custom logging
        disable_for_unsupported_versions=True,
        silent=True
    )
    
  2. Используйте API отслеживания MLflow для регистрации дополнительных параметров и метрик. Это позволяет записывать пользовательские метрики и параметры, а также использовать автологирование для записи дополнительных свойств.

    Например:

    import mlflow
    mlflow.autolog(exclusive=False)
    
    with mlflow.start_run():
      mlflow.log_param("parameter name", "example value")
      # <add model training code here>
      mlflow.log_metric("metric name", 20)
    

Отключение автоматического журнала Microsoft Fabric

Автоматическая запись Microsoft Fabric может быть отключена для определенного сеанса записной книжки или для всех записных книжек с помощью параметра рабочей области.

Примечание.

Если автоматическое ведение журнала отключено, пользователи должны вручную записывать собственные параметры и метрики с помощью API MLflow.

Отключение автоматической записи для сеанса записной книжки

Чтобы отключить автоматическую запись Microsoft Fabric в сеансе записной книжки, можно вызвать mlflow.autolog() и задать.disable=True

Например:

import mlflow
mlflow.autolog(disable=True)

Отключение автоматической записи для рабочей области

Администраторы рабочей области могут включать или отключать автологирование Microsoft Fabric для всех сеансов в рабочей области.

Для этого:

  1. Перейдите к рабочей области Synapse Обработка и анализ данных и выберите Параметры рабочей области.

    Screenshot of the Data science item page.

  2. На вкладке Инжиниринг данных/Science выберите вычисление Spark. Здесь вы найдете параметр для включения или отключения synapse Обработка и анализ данных автоматического логирования.

    Screenshot of the Data science Workspace setting for autologging.