Коммерческий аспект в жизненном цикле командного процесса обработки и анализа данных
В этой статье описаны цели, задачи и конечные результаты, связанные с этапом коммерческого аспекта процесса обработки и анализа данных группы (TDSP). Этот процесс предоставляет рекомендуемый жизненный цикл, который ваша команда может использовать для структуры проектов обработки и анализа данных. Жизненный цикл описывает основные этапы, которые выполняет ваша команда, часто итеративно:
- Коммерческий аспект.
- Получение и анализ данных.
- Моделирование
- Развертывание
- Прием клиентом.
Ниже приведено визуальное представление жизненного цикла TDSP:
Цели
Целями этапа бизнес-понимания являются следующие задачи:
Укажите ключевые переменные, которые служат целевыми объектами модели. И укажите метрики целевых объектов, которые определяют успешность проекта.
Определить релевантные источники данных, к которым уже есть или требуется доступ.
Как выполнить задачи
Этап бизнес-понимания имеет две основные задачи:
Определение целей. Совместно с клиентом и другими заинтересованными сторонами нужно проанализировать и определить бизнес-задачи. Сформулируйте вопросы, которые определяют бизнес-цели и которые можно решить с помощью методов обработки и анализа данных.
Определение источников данных. Найдите релевантные данные, которые помогут ответить на вопросы, определяющие цели проекта.
Определение целей
Основная цель этого этапа — определить ключевые бизнес-переменные, необходимые для анализа. Эти переменные называются целевыми объектами модели, а метрики, связанные с ними, используются для определения успеха проекта. Например, целевой объект может быть прогнозом продаж или вероятностью мошенничества заказа.
Чтобы определить цели проекта, задать и уточнить острые вопросы, которые являются актуальными, конкретными и однозначно. Обработка и анализ данных — это работа с именами и числами для получения ответов на такие вопросы. Обычно обработка и анализ данных наряду с машинным обучением применяется, чтобы отвечать на вопросы следующих пяти типов:
- Сколько? (регрессия)
- Какая категория? (классификация)
- Какая группа? (кластеризация)
- Это необычно? (обнаружение аномалий)
- Какой вариант следует выбрать? (рекомендация)
Определите, какие из этих вопросов следует задавать и как отвечать на них, что может помочь достичь ваших бизнес-целей.
Чтобы определить группу проектов, укажите роли и обязанности своих членов. Разработайте обобщенный поэтапный план, который вы будете уточнять по мере получения дополнительных сведений.
Необходимо определить метрики успеха. Например, к концу трехмесячного проекта может потребоваться выполнить прогноз оттока клиентов с точностью x %. На основе этих данных можно составить рекламные предложения для минимизации оттока. Метрики должны соответствовать концепции SMART:
- Определенный
- Measurable (измеримые);
- Achievable (достижимые);
- Relevant (релевантные);
- Time-bound (с привязкой ко времени).
Определение источников данных
Определите источники данных, содержащие известные примеры ответов на ваши вопросы. Вот что нужно искать.
- Релевантные данные для постановки вопроса. Есть ли у вас меры, описывающие целевой объект, или характеристики, имеющие к нему отношение?
- Данные, которые представляют точную меру целевых показателей модели или интересующую нас характеристику.
Например, существующая система может не иметь данных, необходимых для решения проблемы и достижения цели проекта. В этой ситуации может потребоваться найти внешние источники данных или обновить системы для сбора новых данных.
Интеграция с MLflow
На этапе бизнес-понимания ваша команда не использует средства MLflow, но она может косвенно воспользоваться возможностями документации и отслеживания экспериментов MLflow. Эти функции могут предоставлять аналитические сведения и исторический контекст для согласования проекта с бизнес-целями.
Artifacts
На этом этапе ваша команда предоставляет следующее:
Документ о уставе. Учредительный документ динамичен. Вы обновляете документ по всему проекту при внесении новых открытий и по мере изменения бизнес-требований. Ключ состоит в том, чтобы итерировать этот документ. Добавьте дополнительные сведения по мере выполнения процесса обнаружения. Сообщите клиенту и другим заинтересованным лицам о изменениях и причинах их возникновения.
Источники данных. Для управления источниками данных можно использовать Машинное обучение Azure. Мы рекомендуем использовать эту службу Azure для активных и особенно крупных проектов, так как она интегрируется с MLflow.
Словари данных. В этом документе приведены описания данных, которые предоставляет клиент. Эти описания содержат сведения о схеме (типы данных, сведения о правилах проверки, если таковые имеются) и диаграммы отношений сущностей, если таковые имеются. Ваша команда должна задокументировать некоторые или все эти сведения.
Одноранговая литература
Исследователи публикуют исследования о TDSP в одноранговой литературе. Ссылки предоставляют возможность исследовать другие приложения или аналогичные идеи TDSP, включая этап жизненного цикла бизнес-понимания.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Автор субъекта:
- Марк Табладильо | Старший архитектор облачных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Связанные ресурсы
В этих статьях описаны другие этапы жизненного цикла TDSP: