Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Neste artigo, você aprenderá a usar o driver ODBC Databricks para conectar o Azure Databricks com a linguagem Python ou R. Depois de estabelecer a conexão, você pode acessar os dados no Azure Databricks dos clientes Python ou R. Você também pode usar as aplicações para analisar mais aprofundadamente os dados.
Pré-requisitos
Você deve ter um espaço de trabalho do Azure Databricks, um cluster do Spark e dados de exemplo associados ao cluster. Se ainda não tiveres esses pré-requisitos, completa o tutorial rápido em Introdução.
Baixe o driver ODBC Databricks da página de download de drivers do Databricks . Instale a versão de 64 bits do driver.
Configure um token de acesso pessoal no Databricks. Para obter instruções, consulte Gerenciamento de token.
Configurar um DSN
Um nome de fonte de dados (DSN) contém as informações sobre uma fonte de dados específica. Um driver ODBC precisa desse DSN para se conectar a uma fonte de dados. Nesta seção, você configura um DSN que pode ser usado com o driver ODBC do Databricks para se conectar ao Azure Databricks a partir de clientes como Python ou R.
No espaço de trabalho do Azure Databricks, navegue até ao cluster do Databricks.
Na guia Configuration, clique na guia JDBC/ODBC e copie os valores de Server Hostname e HTTP Path. Você precisa desses valores para concluir as etapas neste artigo.
No computador, inicie ODBC Data Sources aplicativo de 64 bits.
Na guia DSN do Utilizador, clique em Adicionar. Na caixa de diálogo Criar Nova Fonte de Dados, selecione o Simba Spark ODBC Drivere, em seguida, clique em Finalizar.
Na caixa de diálogo Simba Spark ODBC Driver, forneça os seguintes valores:
A tabela a seguir fornece informações sobre os valores a serem fornecidos na caixa de diálogo.
Campo Valor Nome da fonte de dados Forneça um nome para a fonte de dados. Anfitrião(s) Forneça o valor copiado do espaço de trabalho Databricks para nome de host do servidor. Porto Insira 443. Autenticação>Mecanismo Selecione Nome de utilizador e palavra-passe. Nome de utilizador Insira token. Senha Insira o valor do token copiado do espaço de trabalho Databricks. Execute as seguintes etapas adicionais na caixa de diálogo Configuração do DSN.
- Clique em Opções HTTP. Na caixa de diálogo que se abre, cole o valor do Caminho HTTP que foi copiado do espaço de trabalho Databricks. Clique em OK.
- Clique Opções de SSL. Na caixa de diálogo que se abre, marque a caixa de seleção Ativar SSL. Clique em OK.
- Clique em Teste para testar a ligação com o Azure Databricks. Clique em OK para salvar a configuração.
- Na caixa de diálogo do Administrador de Fontes de Dados ODBC , clique em OK.
Agora você tem seu DSN configurado. Nas próximas seções, você usa esse DSN para se conectar ao Azure Databricks do Python ou R.
Conectar a partir do R
Observação
Esta seção fornece informações sobre como integrar um cliente R Studio em execução em sua área de trabalho com o Azure Databricks. Para obter instruções sobre como usar o R Studio no próprio cluster do Azure Databricks, consulte R Studio no Azure Databricks.
Nesta seção, você usa um IDE de idioma R para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, você deve ter o seguinte instalado no computador.
- Um IDE para a linguagem R. Este artigo usa o RStudio for Desktop. Você pode instalá-lo a partir da página de download do R Studio .
- Se você usa o RStudio for Desktop como seu IDE, instale também o Microsoft R Client a partir do https://aka.ms/rclient/.
Abra o RStudio e siga os seguintes passos:
- Faça referência ao pacote
RODBC
. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente. - Estabeleça uma conexão usando o DSN.
- Execute uma consulta SQL nos dados no Azure Databricks. No trecho a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
- Execute algumas operações na consulta para verificar a saída.
O trecho de código a seguir executa essas tarefas:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Conecte-se a partir do Python
Nesta seção, você usa um IDE Python (como IDLE) para fazer referência aos dados disponíveis no Azure Databricks. Antes de começar, preencha os seguintes pré-requisitos:
Instale o Python a partir do aqui. A instalação do Python a partir deste link também instala o IDLE.
A partir de um prompt de comando no computador, instale o pacote
pyodbc
. Execute o seguinte comando:pip install pyodbc
Abra o IDLE e siga os seguintes passos:
- Importe o pacote
pyodbc
. Isso permite que você se conecte ao Azure Databricks usando o DSN criado anteriormente. - Estabeleça uma conexão usando o DSN criado anteriormente.
- Execute uma consulta SQL usando a conexão que você criou. No trecho a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
- Execute operações na consulta para verificar a saída.
O trecho de código a seguir executa essas tarefas:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Próximos passos
- Para saber mais sobre fontes de onde você pode importar dados para o Azure Databricks, consulte Fontes de dados para o Azure Databricks.