Основные сведения об Apache Spark для разработчиков U-SQL

Важно!

Поддержка Azure Data Lake Analytics прекращена 29 февраля 2024 г. Дополнительные сведения см. в этом объявлении.

Для аналитики данных ваша организация может использовать Azure Synapse Analytics или Microsoft Fabric.

Корпорация Майкрософт поддерживает несколько служб аналитики, таких как Azure Databricks, Azure HDInsight и Azure Data Lake Analytics. Мы слышим от разработчиков, что они явно предпочитают решения с открытым исходным кодом при создании конвейеров аналитики. Чтобы помочь разработчикам U-SQL понять Apache Spark и способы преобразования сценариев U-SQL в Apache Spark, мы создали это руководство.

Он включает в себя действия, которые можно предпринять, и несколько альтернативных вариантов.

Шаги по преобразованию U-SQL в Apache Spark

  1. Преобразуйте конвейеры оркестровки вашей работы.

    Если вы используете Фабрика данных Azure для оркестрации скриптов azure Data Lake Analytics, необходимо настроить их для оркестрации новых программ Spark.

  2. Узнайте о различиях между управлением данными в U-SQL и Spark.

    Если вы хотите переместить данные из Azure Data Lake Storage 1-го поколения в Azure Data Lake Storage 2-го поколения, необходимо скопировать данные файла и данные каталога. Azure Data Lake Analytics поддерживает только Azure Data Lake Storage 1-го поколения. Дополнительные сведения см. в статье Общие сведения о форматах данных Spark.

  3. Преобразуйте скрипты U-SQL в Spark.

    Перед преобразованием скриптов U-SQL необходимо выбрать службу аналитики. Вот некоторые из доступных вычислительных сервисов.

    • Фабрика данных Azure DataFlow. Сопоставление потоков данных — это визуально разработанные преобразования данных, которые позволяют инженерам данных разрабатывать графическую логику преобразования данных без написания кода. Хотя они не подходят для выполнения сложного пользовательского кода, они могут легко представлять традиционные преобразования потока данных в стиле SQL
    • Azure HDInsight Hive. Apache Hive в HDInsight подходит для операций извлечения, преобразования и загрузки (ETL). Это означает, что вы собираетесь перевести скрипты U-SQL в Apache Hive.
    • Обработчики Apache Spark, такие как Azure HDInsight Spark или Azure Databricks . Это означает, что вы собираетесь перевести скрипты U-SQL в Spark. Дополнительные сведения см. в разделе Общие сведения о форматах данных Spark

Внимание!

И Azure Databricks, и Azure HDInsight Spark являются кластерными службами, а не бессерверными заданиями, такими как Azure Data Lake Analytics. Вам нужно будет подумать о том, как подготовить кластеры, чтобы получить соответствующее соотношение цены и производительности, и как управлять их сроком службы, чтобы минимизировать ваши затраты. Вам нужно будет подумать о том, как подготовить кластеры для получения соответствующего соотношения цены и срока службы и как управлять их сроком службы с целью минимизации ваших затрат. Дополнительные сведения см. в разделах Общие сведения о форматах данных Spark, Основные понятия кода Apache Spark для разработчиков U-SQL, .NET для Apache Spark.

Дальнейшие действия