Melhores práticas para computação sem servidor
Este artigo apresenta recomendações de melhores práticas para usar a computação sem servidor em seus notebooks e trabalhos.
Ao seguir essas recomendações, você aumentará a produtividade, a eficiência de custos e a confiabilidade de suas cargas de trabalho no Azure Databricks.
Migração de cargas de trabalho para a computação sem servidor
Para proteger o isolamento do código do usuário, a computação sem servidor utiliza o modo de acesso compartilhado seguro do Azure Databricks. Por esse motivo, algumas cargas de trabalho exigirão alterações de código para continuar funcionando na computação sem servidor. Para obter uma lista de recursos sem suporte, consulte Limitações da computação sem servidor.
Algumas cargas de trabalho são mais fáceis de migrar do que outras. As cargas de trabalho que atendem aos seguintes requisitos serão as mais fáceis de migrar:
- Os dados que estão sendo acessados devem ser armazenados no Catálogo do Unity.
- A carga de trabalho deve ser compatível com o modo de computação de acesso compartilhado.
- A carga de trabalho deve ser compatível com o Databricks Runtime 14.3 ou superior.
Para testar se uma carga de trabalho funcionará na computação sem servidor, execute-a em um recurso de computação sem servidor com o modo de acesso Compartilhado e um Databricks Runtime 14.3 ou superior. Se a execução for bem-sucedida, a carga de trabalho estará pronta para a migração.
Devido à importância dessa alteração e à lista atual de limitações, muitas cargas de trabalho não serão migradas de forma contínua. Em vez de recodificar tudo, o Azure Databricks recomenda priorizar a compatibilidade da computação sem servidor à medida que você cria cargas de trabalho.
Ingestão de dados de sistemas externos
Como a computação sem servidor não dá suporte à instalação de arquivos JAR, você não pode usar um driver JDBC ou ODBC para ingerir dados de uma fonte de dados externa.
As estratégias alternativas que você pode usar para ingestão incluem:
Blocos de construção baseados em SQL, como COPY INTO e tabelas de streaming.
O Carregador Automático, para processar de maneira incremental e eficiente novos arquivos de dados à medida que chegam no armazenamento em nuvem. Confira O que é o Carregador Automático?.
Soluções de parceiros de ingestão de dados. Consulte Conectar-se a parceiros de ingestão usando o Partner Connect.
A interface do usuário Adicionar dados, para carregar os arquivos diretamente. Consulte Carregar arquivos no Azure Databricks.
Alternativas de ingestão
Ao usar a computação sem servidor, você também pode usar os seguintes recursos para consultar seus dados sem movê-los.
- Se você quiser limitar a duplicação de dados ou garantir que está consultando os dados mais recentes possíveis, o Databricks recomenda o uso do Delta Sharing. Confira O que é o Compartilhamento Delta?.
- Se você quiser fazer relatórios ad hoc e trabalhos de prova de conceito, o Databricks recomenda tentar a escolha certa, que pode ser a Federação Lakehouse. A Federação Lakehouse permite a sincronização de bancos de dados inteiros com o Azure Databricks a partir de sistemas externos e é regida pelo Catálogo do Unity. Confira O que é Federação do Lakehouse?.
Experimente um ou ambos os recursos e veja se eles satisfazem seus requisitos de desempenho de consulta.
Monitorar o custo da computação sem servidor
Há vários recursos que você pode usar para monitorar o custo da computação sem servidor:
Use tabelas do sistema para criar painéis, configurar alertas e executar consultas ad hoc. Confira Monitorar o custo da computação sem servidor.
Configurar alertas de orçamento em sua conta. Confira Usar orçamentos para monitorar os gastos da conta.
Importar um painel de uso pré-configurado. Confira Importar um painel de uso.