Поделиться через


Коммерческий аспект в жизненном цикле командного процесса обработки и анализа данных

В этой статье описаны цели, задачи и конечные результаты, связанные с этапом коммерческого аспекта процесса обработки и анализа данных группы (TDSP). Этот процесс предоставляет рекомендуемый жизненный цикл, который ваша команда может использовать для структуры проектов обработки и анализа данных. Жизненный цикл описывает основные этапы, которые выполняет ваша команда, часто итеративно:

  • Коммерческий аспект.
  • Получение и анализ данных.
  • Моделирование
  • Развертывание
  • Прием клиентом.

Ниже приведено визуальное представление жизненного цикла TDSP:

Схема, на которую показаны этапы жизненного цикла TDSP.

Цели

Целями этапа бизнес-понимания являются следующие задачи:

  • Укажите ключевые переменные, которые служат целевыми объектами модели. И укажите метрики целевых объектов, которые определяют успешность проекта.

  • Определить релевантные источники данных, к которым уже есть или требуется доступ.

Как выполнить задачи

Этап бизнес-понимания имеет две основные задачи:

  • Определение целей. Совместно с клиентом и другими заинтересованными сторонами нужно проанализировать и определить бизнес-задачи. Сформулируйте вопросы, которые определяют бизнес-цели и которые можно решить с помощью методов обработки и анализа данных.

  • Определение источников данных. Найдите релевантные данные, которые помогут ответить на вопросы, определяющие цели проекта.

Определение целей

  1. Основная цель этого этапа — определить ключевые бизнес-переменные, необходимые для анализа. Эти переменные называются целевыми объектами модели, а метрики, связанные с ними, используются для определения успеха проекта. Например, целевой объект может быть прогнозом продаж или вероятностью мошенничества заказа.

  2. Чтобы определить цели проекта, задать и уточнить острые вопросы, которые являются актуальными, конкретными и однозначно. Обработка и анализ данных — это работа с именами и числами для получения ответов на такие вопросы. Обычно обработка и анализ данных наряду с машинным обучением применяется, чтобы отвечать на вопросы следующих пяти типов:

    • Сколько? (регрессия)
    • Какая категория? (классификация)
    • Какая группа? (кластеризация)
    • Это необычно? (обнаружение аномалий)
    • Какой вариант следует выбрать? (рекомендация)

    Определите, какие из этих вопросов следует задавать и как отвечать на них, что может помочь достичь ваших бизнес-целей.

  3. Чтобы определить группу проектов, укажите роли и обязанности своих членов. Разработайте обобщенный поэтапный план, который вы будете уточнять по мере получения дополнительных сведений.

  4. Необходимо определить метрики успеха. Например, к концу трехмесячного проекта может потребоваться выполнить прогноз оттока клиентов с точностью x %. На основе этих данных можно составить рекламные предложения для минимизации оттока. Метрики должны соответствовать концепции SMART:

    • Определенный
    • Measurable (измеримые);
    • Achievable (достижимые);
    • Relevant (релевантные);
    • Time-bound (с привязкой ко времени).

Определение источников данных

Определите источники данных, содержащие известные примеры ответов на ваши вопросы. Вот что нужно искать.

  • Релевантные данные для постановки вопроса. Есть ли у вас меры, описывающие целевой объект, или характеристики, имеющие к нему отношение?
  • Данные, которые представляют точную меру целевых показателей модели или интересующую нас характеристику.

Например, существующая система может не иметь данных, необходимых для решения проблемы и достижения цели проекта. В этой ситуации может потребоваться найти внешние источники данных или обновить системы для сбора новых данных.

Интеграция с MLflow

На этапе бизнес-понимания ваша команда не использует средства MLflow, но она может косвенно воспользоваться возможностями документации и отслеживания экспериментов MLflow. Эти функции могут предоставлять аналитические сведения и исторический контекст для согласования проекта с бизнес-целями.

Artifacts

На этом этапе ваша команда предоставляет следующее:

  • Документ о уставе. Учредительный документ динамичен. Вы обновляете документ по всему проекту при внесении новых открытий и по мере изменения бизнес-требований. Ключ состоит в том, чтобы итерировать этот документ. Добавьте дополнительные сведения по мере выполнения процесса обнаружения. Сообщите клиенту и другим заинтересованным лицам о изменениях и причинах их возникновения.

  • Источники данных. Для управления источниками данных можно использовать Машинное обучение Azure. Мы рекомендуем использовать эту службу Azure для активных и особенно крупных проектов, так как она интегрируется с MLflow.

  • Словари данных. В этом документе приведены описания данных, которые предоставляет клиент. Эти описания содержат сведения о схеме (типы данных, сведения о правилах проверки, если таковые имеются) и диаграммы отношений сущностей, если таковые имеются. Ваша команда должна задокументировать некоторые или все эти сведения.

Одноранговая литература

Исследователи публикуют исследования о TDSP в одноранговой литературе. Ссылки предоставляют возможность исследовать другие приложения или аналогичные идеи TDSP, включая этап жизненного цикла бизнес-понимания.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Автор субъекта:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

В этих статьях описаны другие этапы жизненного цикла TDSP: