Введение
Apache Spark предоставляет мощную платформу для выполнения задач очистки и преобразования данных на больших объемах данных. С помощью объекта кадра данных Spark можно легко загружать данные из файлов в озере данных и выполнять сложные изменения. Затем можно сохранить преобразованные данные обратно в озеро данных для последующей обработки или приема данных в хранилище данных.
Azure Synapse Analytics предоставляет пулы Apache Spark, которые можно использовать для запуска рабочих нагрузок Spark для преобразования данных в рамках рабочей нагрузки приема и подготовки данных. Для подготовки данных к анализу можно использовать собственные поддерживаемые записные книжки для записи и запуска кода в пуле Spark. Затем вы можете использовать другие возможности Azure Synapse Analytics, такие как пулы SQL для работы с преобразованными данными.