Synkronisera Apache Spark för Azure Synapse externa tabelldefinitioner i en serverlös SQL-pool

Serverlös SQL-pool kan automatiskt synkronisera metadata från Apache Spark. En serverlös SQL-pooldatabas skapas för varje databas som finns i serverlösa Apache Spark-pooler.

För varje extern Spark-tabell som baseras på Parquet eller CSV och finns i Azure Storage skapas en extern tabell i en serverlös SQL-pooldatabas. Därför kan du stänga av Dina Spark-pooler och fortfarande köra frågor mot externa Spark-tabeller från en serverlös SQL-pool.

När en tabell partitioneras i Spark ordnas filer i lagringen efter mappar. Serverlös SQL-pool använder partitionsmetadata och riktar endast relevanta mappar och filer till din fråga.

Metadatasynkronisering konfigureras automatiskt för varje serverlös Apache Spark-pool som etableras i Azure Synapse arbetsytan. Du kan börja köra frågor mot externa Spark-tabeller direkt.

Varje extern Spark Parquet- eller CSV-tabell som finns i Azure Storage representeras med en extern tabell i ett dbo-schema som motsvarar en serverlös SQL-pooldatabas.

Kör en fråga som riktar sig mot en extern [spark_table] för externa Spark-tabellfrågor. Innan du kör följande exempel kontrollerar du att du har rätt åtkomst till lagringskontot där filerna finns.

SELECT * FROM [db].dbo.[spark_table]

Apache Spark-datatyper till SQL-datatypers mappning

Mer information om hur du mappar Apache Spark-datatyper till SQL-datatyper finns i Azure Synapse Analytics delade metadatatabeller.

Nästa steg

Gå vidare till artikeln Storage Access Control om du vill veta mer om åtkomstkontroll för lagring.