Зачем нужны конвейеры данных?
Azure DevOps Services
Конвейеры данных можно использовать для:
- Прием данных из различных источников данных
- Обработка и преобразование данных
- Сохранение обработанных данных в промежуточном расположении для использования другими пользователями
Конвейеры данных на предприятии могут превратиться в более сложные сценарии с несколькими исходными системами и поддержкой различных подчиненных приложений.
Конвейеры данных предоставляют следующие возможности:
- Согласованность. Конвейеры данных преобразуют данные в согласованный формат для пользователей.
- Сокращение ошибок: автоматизированные конвейеры данных устраняют ошибки человека при работе с данными
- Эффективность. Специалисты по обработке данных экономят время, затрачиваемое на преобразование обработки данных. Экономия времени позволяет сосредоточиться на основной функции работы — получать аналитические сведения из данных и помогать бизнесу принимать более обоснованные решения.
Что такое CI/CD?
Непрерывная интеграция и непрерывная поставка (CI/CD) — это подход к разработке программного обеспечения, при котором все разработчики совместно работают над общим репозиторием кода, а по мере внесения изменений происходит автоматизированный процесс сборки для обнаружения проблем с кодом. Результатом является более быстрый жизненный цикл разработки и более низкая частота ошибок.
Что такое конвейер данных CI/CD и почему он имеет значение для обработки и анализа данных?
Создание моделей машинного обучения похоже на традиционную разработку программного обеспечения в том смысле, что специалисту по обработке и анализу данных необходимо писать код для обучения и оценки моделей машинного обучения.
В отличие от традиционной разработки программного обеспечения, в которой продукт основан на коде, модели машинного обучения для обработки и анализа данных основаны как на коде (алгоритме, гиперпараметров), так и на данных, используемых для обучения модели. Именно поэтому большинство специалистов по обработке и анализу данных скажут вам, что они тратят 80 % времени на подготовку данных, очистку и проектирование признаков.
Чтобы еще больше усложнить этот вопрос, чтобы обеспечить качество моделей машинного обучения, используются такие методы, как A/B-тестирование. При A/B-тестировании одновременно может использоваться несколько моделей машинного обучения. Обычно для сравнения используется одна модель управления и одна или несколько моделей обработки, что позволяет сравнивать и поддерживать производительность модели. Наличие нескольких моделей добавляет еще один уровень сложности для CI/CD моделей машинного обучения.
Наличие конвейера данных CI/CD имеет решающее значение для команды обработки и анализа данных для своевременной и качественной доставки моделей машинного обучения для бизнеса.
Дальнейшие действия
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по