Porquê pipelines de dados?
Azure DevOps Services
Pode utilizar pipelines de dados para:
- Ingerir dados de várias origens de dados
- Processar e transformar os dados
- Guardar os dados processados numa localização de teste para que outras pessoas consumam
Os pipelines de dados na empresa podem evoluir para cenários mais complicados com vários sistemas de origem e suportar várias aplicações a jusante.
Os pipelines de dados fornecem:
- Consistência: os pipelines de dados transformam os dados num formato consistente para os utilizadores consumirem
- Redução de erros: Os pipelines de dados automatizados eliminam erros humanos ao manipular dados
- Eficiência: os profissionais de dados poupam tempo gasto na transformação do processamento de dados. Poupar tempo permite,em seguida, focar-se na função principal da tarefa – obter as informações dos dados e ajudar a empresa a tomar melhores decisões
O que é a CI/CD?
A integração contínua e a entrega contínua (CI/CD) são uma abordagem de desenvolvimento de software em que todos os programadores trabalham em conjunto num repositório partilhado de código – e à medida que são feitas alterações, existe um processo de compilação automatizado para detetar problemas de código. O resultado é um ciclo de vida de desenvolvimento mais rápido e uma taxa de erro mais baixa.
O que é um pipeline de dados CI/CD e por que motivo é importante para a ciência de dados?
A criação de modelos de machine learning é semelhante ao desenvolvimento de software tradicional no sentido em que o cientista de dados precisa de escrever código para preparar e classificar modelos de machine learning.
Ao contrário do desenvolvimento de software tradicional em que o produto se baseia no código, os modelos de machine learning de ciência de dados baseiam-se tanto no código (algoritmo, nos parâmetros hyper) como nos dados utilizados para preparar o modelo. É por isso que a maioria dos cientistas de dados lhe dirá que passam 80% do tempo a fazer preparação de dados, limpeza e engenharia de funcionalidades.
Para complicar ainda mais a questão – para garantir a qualidade dos modelos de machine learning, são utilizadas técnicas como os testes A/B. Com os testes A/B, podem ser utilizados vários modelos de machine learning em simultâneo. Normalmente, existe um modelo de controlo e um ou mais modelos de tratamento para comparação, para que o desempenho do modelo possa ser comparado e mantido. Ter vários modelos adiciona outra camada de complexidade para a CI/CD dos modelos de machine learning.
Ter um pipeline de dados CI/CD é crucial para que a equipa de ciência de dados forneça os modelos de machine learning à empresa de forma oportuna e de qualidade.
Passos seguintes
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários