Поделиться через


Зачем нужны конвейеры данных?

Azure DevOps Services

Конвейеры данных можно использовать для:

  • Прием данных из различных источников данных
  • Обработка и преобразование данных
  • Сохранение обработанных данных в промежуточном расположении для использования другими пользователями

Общие сведения о конвейере данных

Конвейеры данных на предприятии могут превратиться в более сложные сценарии с несколькими исходными системами и поддержкой различных подчиненных приложений.

Конвейеры данных предоставляют следующие возможности:

  • Согласованность. Конвейеры данных преобразуют данные в согласованный формат для пользователей.
  • Сокращение ошибок: автоматизированные конвейеры данных устраняют ошибки человека при работе с данными
  • Эффективность. Специалисты по обработке данных экономят время, затрачиваемое на преобразование обработки данных. Экономия времени позволяет сосредоточиться на основной функции работы — получать аналитические сведения из данных и помогать бизнесу принимать более обоснованные решения.

Что такое CI/CD?

Непрерывная интеграция и непрерывная поставка (CI/CD) — это подход к разработке программного обеспечения, при котором все разработчики совместно работают над общим репозиторием кода, а по мере внесения изменений происходит автоматизированный процесс сборки для обнаружения проблем с кодом. Результатом является более быстрый жизненный цикл разработки и более низкая частота ошибок.

Что такое конвейер данных CI/CD и почему он имеет значение для обработки и анализа данных?

Создание моделей машинного обучения похоже на традиционную разработку программного обеспечения в том смысле, что специалисту по обработке и анализу данных необходимо писать код для обучения и оценки моделей машинного обучения.

В отличие от традиционной разработки программного обеспечения, в которой продукт основан на коде, модели машинного обучения для обработки и анализа данных основаны как на коде (алгоритме, гиперпараметров), так и на данных, используемых для обучения модели. Именно поэтому большинство специалистов по обработке и анализу данных скажут вам, что они тратят 80 % времени на подготовку данных, очистку и проектирование признаков.

Чтобы еще больше усложнить этот вопрос, чтобы обеспечить качество моделей машинного обучения, используются такие методы, как A/B-тестирование. При A/B-тестировании одновременно может использоваться несколько моделей машинного обучения. Обычно для сравнения используется одна модель управления и одна или несколько моделей обработки, что позволяет сравнивать и поддерживать производительность модели. Наличие нескольких моделей добавляет еще один уровень сложности для CI/CD моделей машинного обучения.

Наличие конвейера данных CI/CD имеет решающее значение для команды обработки и анализа данных для своевременной и качественной доставки моделей машинного обучения для бизнеса.

Дальнейшие действия