Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste artigo, você aprenderá a usar o driver ODBC do Databricks para conectar o Azure Databricks à linguagem Python ou R. Depois de estabelecer a conexão, você pode acessar os dados no Azure Databricks dos clientes Python ou R. Você também pode usar os clientes para analisar ainda mais os dados.
Pré-requisitos
Você deve ter um workspace do Azure Databricks, um cluster Spark e dados de exemplo associados ao cluster.
Baixe o driver ODBC do Databricks na página de download do driver do Databricks. Instale a versão de 64 bits do driver.
Configure um token de acesso pessoal no Databricks. Para obter instruções, consulte o gerenciamento de tokens.
Configurar um DSN
Um DSN (nome de fonte de dados) contém as informações sobre uma fonte de dados específica. Um driver ODBC precisa desse DSN para se conectar a uma fonte de dados. Nesta seção, você configurará um DSN que pode ser usado com o driver ODBC do Databricks para se conectar ao Azure Databricks de clientes como Python ou R.
No workspace do Azure Databricks, navegue até o cluster do Databricks.
Na guia Configuração , clique na guia JDBC/ODBC e copie os valores para Nome do Host do Servidor e Caminho HTTP. Você precisa desses valores para concluir as etapas neste artigo.
No computador, inicie o aplicativo de fontes de dados ODBC de 64 bits.
Na guia DSN do Usuário , clique em Adicionar. Na caixa de diálogo Criar Nova Fonte de Dados , selecione o Driver ODBC do Simba Spark e clique em Concluir.
Na caixa de diálogo Simba Spark ODBC Driver , forneça os seguintes valores:
A tabela a seguir fornece informações sobre os valores a serem fornecidos na caixa de diálogo.
Campo Value Nome da fonte de dados Forneça um nome para a fonte de dados. Host(s) Forneça o valor copiado do workspace do Databricks para o nome do host do servidor. Porto Inserir 443. Autenticação>Mecanismo Selecione Nome de usuário e senha. Nome de usuário Insira o token. Senha Insira o valor do token copiado do workspace do Databricks. Execute as etapas adicionais a seguir na caixa de diálogo de configuração do DSN.
- Clique em Opções HTTP. Na caixa de diálogo que é aberta, cole o valor do caminho HTTP copiado do workspace do Databricks. Clique em OK.
- Clique em Opções SSL. Na caixa de diálogo que é aberta, marque a caixa de seleção Habilitar SSL . Clique em OK.
- Clique em Testar para testar a conexão com o Azure Databricks. Clique em OK para salvar a configuração.
- Na caixa de diálogo Administrador da Fonte de Dados ODBC , clique em OK.
Agora você tem seu DSN configurado. Nas próximas seções, você usará esse DSN para se conectar ao Azure Databricks do Python ou do R.
Conectar-se a partir do R
Observação
Esta seção fornece informações sobre como integrar um cliente do R Studio em execução em sua área de trabalho ao Azure Databricks. Para obter instruções sobre como usar o R Studio no próprio cluster do Azure Databricks, consulte o R Studio no Azure Databricks.
Nesta seção, você usará um IDE de linguagem R para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, você deve ter o seguinte instalado no computador.
- Um IDE para a linguagem R. Este artigo usa o RStudio para Área de Trabalho. Você pode instalá-lo no download do R Studio.
- Se você usar o RStudio para Área de Trabalho como seu IDE, instale também o Microsoft R Client de https://aka.ms/rclient/.
Abra o RStudio e execute as seguintes etapas:
- Faça referência ao pacote
RODBC. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente. - Estabeleça uma conexão usando o DSN.
- Execute uma consulta SQL nos dados no Azure Databricks. No snippet a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
- Execute algumas operações na consulta para verificar a saída.
O snippet de código a seguir executa estas tarefas:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Conectar a partir do Python
Nesta seção, você usará um IDE do Python (como IDLE) para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, conclua os seguintes pré-requisitos:
Instale o Python daqui. A instalação do Python nesse link também instala o IDLE.
Em um prompt de comando no computador, instale o pacote
pyodbc. Execute o comando a seguir:pip install pyodbc
Abra o IDLE e execute as seguintes etapas:
- Importe o pacote
pyodbc. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente. - Estabeleça uma conexão usando o DSN criado anteriormente.
- Execute uma consulta SQL usando a conexão que você criou. No snippet a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
- Execute operações na consulta para verificar a saída.
O snippet de código a seguir executa estas tarefas:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Próximas etapas
- Para saber mais sobre fontes de onde você pode importar dados para o Azure Databricks, consulte fontes de dados do Azure Databricks.