Migrar aplicativos de dados para o Azure Databricks

Este artigo fornece uma introdução à migração de aplicativos de dados existentes para o Azure Databricks. O Azure Databricks fornece uma abordagem unificada que permite trabalhar com dados de muitos sistemas de origem em uma única plataforma.

Para obter uma visão geral dos recursos da plataforma, consulte O que é o Azure Databricks?.

Para obter informações sobre como migrar entre versões do Databricks Runtime, confira o guia de migração do Databricks Runtime.

Migrar trabalhos de ETL para o Azure Databricks

Você pode migrar trabalhos do Apache Spark usados para extrair, transformar e carregar dados de implementações nativas de nuvem ou local para o Azure Databricks com apenas algumas etapas. Consulte Adaptar o código do Apache Spark existente para o Azure Databricks.

O Azure Databricks estende a funcionalidade do Spark SQL com integrações de código aberto pré-configuradas, integrações de parceiros e ofertas de produtos empresariais. Se as cargas de trabalho de ETL forem gravadas no SQL ou no Hive, você poderá migrar para o Azure Databricks com refatoração mínima. Saiba mais sobre a Análise de SQL do Azure Databricks:

Para obter instruções específicas sobre como migrar de vários sistemas de origem para o Azure Databricks, consulte Migrar pipelines de ETL para o Azure Databricks.

Substituir seu data warehouse corporativo por um lakehouse

O Azure Databricks fornece o melhor valor e desempenho quando as cargas de trabalho se alinham em relação aos dados armazenados no lakehouse. Muitas pilhas de dados empresariais incluem um data lake e um data warehouse corporativo, e as organizações criam fluxos de trabalho ETL complexos para tentar manter esses sistemas e dados em sincronia. O lakehouse permite que você use os mesmos dados, armazenados no data lake, entre consultas e sistemas que geralmente dependem de um data warehouse separado. Para obter mais informações sobre o lakehouse, consulte O que é o data lakehouse?. Para saber mais sobre o armazenamento de dados no Databricks, confira O que é o armazenamento de dados no Azure Databricks?.

A migração de um data warehouse para o lakehouse geralmente envolve a redução da complexidade de sua arquitetura de dados e fluxos de trabalho, mas há algumas ressalvas e melhores práticas para ter em mente ao concluir esse trabalho. Consulte Migrar seu data warehouse para o Databricks lakehouse.

Unificar suas cargas de trabalho de ML, ciência de dados e análise

Como o lakehouse fornece acesso otimizado a arquivos de dados baseados em nuvem por meio de consultas de tabela ou caminhos de arquivo, você pode fazer ML, ciência de dados e análise em uma única cópia de seus dados. O Azure Databricks facilita a movimentação de cargas de trabalho de ferramentas proprietárias e de código aberto e mantém versões atualizadas de muitas das bibliotecas de código aberto usadas por analistas e cientistas de dados.

As cargas de trabalho do Pandas em notebooks Jupyter podem ser sincronizadas e executadas usando as pastas Git do Databricks. O Azure Databricks fornece suporte nativo para pandas em todas as versões do Databricks Runtime, e configura muitas bibliotecas populares de ML e aprendizado profundo no Databricks Runtime para Machine Learning. Se você sincronizar suas cargas de trabalho locais usando Git e arquivos de workspace em pastas Git, poderá usar os mesmos caminhos relativos para dados e bibliotecas personalizadas presentes no seu ambiente local.

Observação

Por padrão, o Azure Databricks mantém as extensões .ipynb para notebooks Jupyter sincronizados com pastas Git do Databricks, mas converte automaticamente notebooks Jupyter em notebooks Databricks quando importados com a interface do usuário. Os notebooks do Databricks são salvos com uma extensão .py e, portanto, podem viver lado a lado com notebooks Jupyter em um repositório Git.