Sincronización de Apache Spark para las definiciones de tablas externas de Azure Synapse en un grupo de SQL sin servidor
El grupo de SQL sin servidor puede sincronizar automáticamente los metadatos desde Apache Spark. Se creará una base de datos de grupo de SQL sin servidor para cada base de datos que exista en los grupos de Apache Spark sin servidor.
Para cada tabla externa de Spark con formato Parquet o CSV, y ubicada en Azure Storage, se crea una tabla externa en una base de datos del grupo de SQL sin servidor. Gracias a ello, puede apagar los grupos de Spark y seguir consultando las tablas externas de Spark desde el grupo de SQL sin servidor.
Cuando se crean particiones de una en Spark, los archivos del almacenamiento se organizan por carpetas. El grupo de SQL sin servidor usará los metadatos de la partición y solo se dirigirá a los archivos y carpetas pertinentes para la consulta.
La sincronización de metadatos se configura automáticamente para cada grupo de Apache Spark sin servidor aprovisionado en el área de trabajo de Azure Synapse. Puede empezar a realizar consultas en las tablas externas de Spark al instante.
Cada tabla externa en formato Parquet o CSV de Spark ubicada en Azure Storage se representa con una tabla externa en un esquema dbo que corresponde a una base de datos del grupo de SQL sin servidor.
En el caso de las consultas de las tablas externas de Spark, ejecute una consulta cuyo destino sea un [spark_table] externo. Antes de ejecutar el ejemplo siguiente, asegúrese de que tiene un acceso correcto a la cuenta de almacenamiento en la que se encuentran los archivos.
SELECT * FROM [db].dbo.[spark_table]
Asignación de tipos de datos de Apache Spark a tipos de datos de SQL
Para más información sobre cómo asignar tipos de datos de Apache Spark a tipos de datos de SQL, consulte Tablas de metadatos compartidos de Azure Synapse Analytics.
Pasos siguientes
Vaya al artículo Control de acceso a almacenamiento para más información sobre el control de acceso al almacenamiento.