Conectar-se às fontes de dados

Este artigo fornece recomendações opinativas sobre como administradores e outros usuários avançados podem configurar conexões entre o Azure Databricks e fontes de dados. Se você estiver tentando determinar se tem acesso a dados de leitura de um sistema externo, comece examinando os dados aos quais você tem acesso em seu workspace. Consulte Descobrir dados.

Você pode conectar sua conta do Azure Databricks a fontes de dados, como armazenamento de objetos de nuvem, sistemas de gerenciamento de banco de dados relacional, serviços de streaming de dados e plataformas corporativas, como CRMs. Os privilégios específicos necessários para configurar conexões dependem da fonte de dados, de como as permissões no workspace do Azure Databricks são configuradas, das permissões necessárias para interagir com os dados na origem, do modelo de governança de dados e do método preferido para se conectar.

A maioria dos métodos exige privilégios elevados na fonte de dados e no workspace do Azure Databricks para configurar as permissões necessárias para integrar sistemas. Os usuários sem essas permissões devem solicitar ajuda. Confira Solicitar acesso a fontes de dados.

Configurar conexões de armazenamento de objetos

O armazenamento de objetos de nuvem fornece a base para armazenar a maioria dos dados no Azure Databricks. Para saber mais sobre o armazenamento de objetos de nuvem e onde o Azure Databricks armazena dados, consulte Onde o Azure Databricks grava dados?.

O Databricks recomenda o uso do Catálogo Unity para configurar o acesso ao armazenamento de objetos na nuvem. O Catálogo do Unity fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos de nuvem. Consulte Conectar-se ao armazenamento de objetos de nuvem usando o Catálogo do Unity.

Os clientes que não usam o Catálogo do Unity devem configurar conexões usando métodos herdados. Consulte Configurar o acesso ao armazenamento de objetos de nuvem para o Azure Databricks.

Para configurar a rede para armazenamento de objetos em nuvem, veja Rede.

Configurar conexões com sistemas de dados externos

O Databricks recomenda várias opções para configurar conexões com sistemas de dados externos, dependendo de suas necessidades. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção Descrição
Federação do Lakehouse Fornece acesso somente leitura aos dados em sistemas de dados corporativos. As conexões são configuradas por meio do Catálogo do Unity no nível do catálogo ou do esquema, sincronizando várias tabelas com uma única configuração. Veja O que é o da Federação Lakehouse.
Conexão com o parceiro Aproveita as soluções de parceiros de tecnologia para se conectar a fontes de dados externas e automatizar a ingestão de dados no lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do Lakehouse de sistemas externos. Consulte O que é o Databricks Partner Connect?
Drivers O Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Conectar a sistemas externos.
JDBC Vários drivers incluídos para sistemas externos se baseiam no suporte nativo do JDBC e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte Consultar bancos de dados usando o JDBC.

Conectar-se a fontes de dados de streaming

O Azure Databricks fornece conectores otimizados para vários sistemas de dados de streaming.

Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carreguem essas credenciais no Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, pois você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de streaming dão suporte à passagem de credenciais usando opções ao definir consultas de streaming. Consulte Configurar fontes de dados de streaming.

Solicitar acesso a fontes de dados

Em muitas organizações, a maioria dos usuários não tem privilégios suficientes no Azure Databricks ou em fontes de dados externas para configurar conexões de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados usando um dos padrões descritos nos artigos vinculados desta página. Se sua organização tiver um processo bem definido para solicitar acesso aos dados, o Databricks recomenda seguir esse processo.

Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento poderá ajudá-lo:

  1. Use o Gerenciador de Catálogos para exibir as tabelas e os volumes que você pode acessar. Consulte O que é o Explorador de Catálogos?.
  2. Pergunte aos seus colegas ou gerentes sobre as fontes de dados que eles podem acessar.
    • A maioria das organizações usa grupos sincronizados de seu provedor de identidade [por exemplo: Okta ou Microsoft Entra ID (antigo Azure Active Directory)] para gerenciar permissões para usuários do workspace. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa de acesso, faça com que um administrador do workspace o adicione ao grupo correto para conceder acesso.
    • Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colega de trabalho, esse indivíduo deverá ter permissões para conceder acesso aos dados.
  3. Algumas organizações configuram permissões de acesso a dados por meio de configurações em clusters de computação e SQL warehouses.
    • O acesso a fontes de dados pode variar de acordo com a computação.
    • Você pode exibir o criador de computação na guia Computação. Entre em contato com o criador para perguntar sobre fontes de dados que devem estar acessíveis.