Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo fornece uma introdução à migração de aplicativos de dados existentes para o Azure Databricks. O Azure Databricks fornece uma abordagem unificada que permite trabalhar com dados de vários sistemas de origem em uma única plataforma.
Para obter uma visão geral dos recursos da plataforma, consulte O que é o Azure Databricks?.
Migrar trabalhos de ETL para o Azure Databricks
Você pode migrar trabalhos do Apache Spark usados para extrair, transformar e carregar dados de implementações locais ou nativas da nuvem para o Azure Databricks com apenas algumas etapas. Consulte Adaptar seu código Apache Spark existente para o Azure Databricks.
O Azure Databricks estende a funcionalidade do Spark SQL com integrações de código aberto pré-configuradas, integrações de parceiros e ofertas de produtos empresariais. Se suas cargas de trabalho de ETL forem escritas em SQL ou Hive, você poderá migrar para o Azure Databricks com refatoração mínima. Saiba mais sobre as ofertas SQL do Azure Databricks:
- Armazenamento de dados no Azure Databricks
- Oleodutos declarativos Lakeflow Spark
- O que é o Databricks Partner Connect?
Para obter instruções específicas sobre como migrar de vários sistemas de origem para o Azure Databricks, consulte Migrar pipelines de ETL para o Azure Databricks.
Substitua o seu "data warehouse" corporativo por um "lakehouse"
O Azure Databricks proporciona valor e desempenho ideais quando as cargas de trabalho se alinham aos dados armazenados no lakehouse. Muitas pilhas de dados corporativos incluem um data lake e um data warehouse corporativo, e as organizações criam fluxos de trabalho ETL complexos para tentar manter esses sistemas e dados sincronizados. O lakehouse permite que você use os mesmos dados, armazenados no data lake, em consultas e sistemas que geralmente dependem de um data warehouse separado. Para mais informações sobre o 'lakehouse', consulte O que é um 'lakehouse' de dados?. Para obter mais informações sobre armazenamento de dados no Databricks, consulte Arquitetura de armazenamento de dados.
A migração de um data warehouse corporativo para o lakehouse geralmente envolve a redução da complexidade da arquitetura de dados e dos fluxos de trabalho, mas há algumas ressalvas e práticas recomendadas a serem lembradas ao concluir esse trabalho. Consulte A migração do seu data warehouse para o lakehouse Databricks.
Unifique suas cargas de trabalho de ML, ciência de dados e análise
Como o lakehouse fornece acesso otimizado a arquivos de dados baseados em nuvem por meio de consultas de tabela ou caminhos de arquivos, você pode fazer ML, ciência de dados e análises em uma única cópia de seus dados. O Azure Databricks facilita a movimentação de cargas de trabalho de ferramentas de código aberto e proprietárias e mantém versões atualizadas de muitas das bibliotecas de código aberto usadas por analistas e cientistas de dados.
As cargas de trabalho do Pandas nos notebooks Jupyter podem ser sincronizadas e executadas usando as pastas do Databricks Git. O Azure Databricks fornece suporte nativo para pandas em todas as versões do Databricks Runtime e configura muitas bibliotecas populares de ML e aprendizagem profunda no Databricks Runtime for Machine Learning. Se sincronizares as tuas tarefas locais usando o Git e arquivos de espaço de trabalho em pastas do Git, poderás usar os mesmos caminhos relativos para dados e bibliotecas personalizadas presentes no teu ambiente local.
Nota
Por padrão, o Azure Databricks mantém .ipynb extensões para notebooks Jupyter sincronizados com pastas Git Databricks, mas converte automaticamente notebooks Jupyter em notebooks Databricks quando importados com a interface do usuário. Os notebooks Databricks são salvos com uma .py extensão, e assim podem coexistir lado a lado com os notebooks Jupyter num repositório Git.