Sincronizar o Apache Spark para Azure Synapse definições de tabelas externas no conjunto de SQL sem servidor
O conjunto de SQL sem servidor pode sincronizar automaticamente os metadados do Apache Spark. Será criada uma base de dados do conjunto de SQL sem servidor para cada base de dados existente em conjuntos do Apache Spark sem servidor.
Para cada tabela externa do Spark baseada no Parquet ou CSV e localizada no Armazenamento do Azure, é criada uma tabela externa numa base de dados do conjunto de SQL sem servidor. Como tal, pode encerrar os conjuntos do Spark e continuar a consultar tabelas externas do Spark a partir do conjunto de SQL sem servidor.
Quando uma tabela é particionada no Spark, os ficheiros no armazenamento são organizados por pastas. O conjunto de SQL sem servidor utilizará metadados de partição e apenas visará pastas e ficheiros relevantes para a consulta.
A sincronização de metadados é configurada automaticamente para cada conjunto do Apache Spark sem servidor aprovisionado na área de trabalho Azure Synapse. Pode começar a consultar tabelas externas do Spark instantaneamente.
Cada tabela externa do Spark Parquet ou CSV localizada no Armazenamento do Azure é representada por uma tabela externa num esquema dbo que corresponde a uma base de dados do conjunto de SQL sem servidor.
Para consultas de tabela externa do Spark, execute uma consulta que tenha como destino um [spark_table] externo. Antes de executar o exemplo seguinte, certifique-se de que tem acesso correto à conta de armazenamento onde os ficheiros estão localizados.
SELECT * FROM [db].dbo.[spark_table]
Mapeamento de tipos de dados do Apache Spark para tipos de dados SQL
Para obter mais informações sobre como mapear tipos de dados do Apache Spark para tipos de dados SQL, veja tabelas de metadados partilhados do Azure Synapse Analytics.
Passos seguintes
Avance para o artigo Controlo de Acesso armazenamento para saber mais sobre o controlo de acesso ao armazenamento.