Inledning
Apache Spark är en kraftfull plattform för att utföra datarensnings- och transformeringsuppgifter på stora mängder data. Genom att använda Spark-dataramobjektet kan du enkelt läsa in data från filer i en datasjö och utföra komplexa ändringar. Du kan sedan spara transformerade data tillbaka till datasjön för nedströmsbearbetning eller inmatning till ett informationslager.
Azure Synapse Analytics tillhandahåller Apache Spark-pooler som du kan använda för att köra Spark-arbetsbelastningar för att transformera data som en del av en arbetsbelastning för datainmatning och förberedelse. Du kan använda notebook-filer som stöds internt för att skriva och köra kod på en Spark-pool för att förbereda data för analys. Du kan sedan använda andra Azure Synapse Analytics-funktioner, till exempel SQL-pooler, för att arbeta med transformerade data.