Porquê pipelines de dados?

Artigo
07/20/2023

Azure DevOps Services

Pode utilizar pipelines de dados para:

Ingerir dados de várias origens de dados
Processar e transformar os dados
Guardar os dados processados numa localização de teste para que outras pessoas consumam

Descrição geral do pipeline de dados

Os pipelines de dados na empresa podem evoluir para cenários mais complicados com vários sistemas de origem e suportar várias aplicações a jusante.

Os pipelines de dados fornecem:

Consistência: os pipelines de dados transformam os dados num formato consistente para os utilizadores consumirem
Redução de erros: Os pipelines de dados automatizados eliminam erros humanos ao manipular dados
Eficiência: os profissionais de dados poupam tempo gasto na transformação do processamento de dados. Poupar tempo permite,em seguida, focar-se na função principal da tarefa – obter as informações dos dados e ajudar a empresa a tomar melhores decisões

O que é a CI/CD?

A integração contínua e a entrega contínua (CI/CD) são uma abordagem de desenvolvimento de software em que todos os programadores trabalham em conjunto num repositório partilhado de código – e à medida que são feitas alterações, existe um processo de compilação automatizado para detetar problemas de código. O resultado é um ciclo de vida de desenvolvimento mais rápido e uma taxa de erro mais baixa.

O que é um pipeline de dados CI/CD e por que motivo é importante para a ciência de dados?

A criação de modelos de machine learning é semelhante ao desenvolvimento de software tradicional no sentido em que o cientista de dados precisa de escrever código para preparar e classificar modelos de machine learning.

Ao contrário do desenvolvimento de software tradicional em que o produto se baseia no código, os modelos de machine learning de ciência de dados baseiam-se tanto no código (algoritmo, nos parâmetros hyper) como nos dados utilizados para preparar o modelo. É por isso que a maioria dos cientistas de dados lhe dirá que passam 80% do tempo a fazer preparação de dados, limpeza e engenharia de funcionalidades.

Para complicar ainda mais a questão – para garantir a qualidade dos modelos de machine learning, são utilizadas técnicas como os testes A/B. Com os testes A/B, podem ser utilizados vários modelos de machine learning em simultâneo. Normalmente, existe um modelo de controlo e um ou mais modelos de tratamento para comparação, para que o desempenho do modelo possa ser comparado e mantido. Ter vários modelos adiciona outra camada de complexidade para a CI/CD dos modelos de machine learning.

Ter um pipeline de dados CI/CD é crucial para que a equipa de ciência de dados forneça os modelos de machine learning à empresa de forma oportuna e de qualidade.

Passos seguintes

Criar um pipeline de dados com o Azure

Porquê pipelines de dados?

O que é a CI/CD?

O que é um pipeline de dados CI/CD e por que motivo é importante para a ciência de dados?

Passos seguintes

Comentários

Comentários

Recursos adicionais