Compartir a través de


Descripción de Apache Spark para desarrolladores de U-SQL

Importante

Azure Data Lake Analytics retiró el 29 de febrero de 2024. Más información sobre este anuncio.

Para el análisis de datos, su organización puede usar Azure Synapse Analytics o Microsoft Fabric.

Microsoft admite varios servicios de Analytics, como Azure Databricks, Azure HDInsight y Azure Data Lake Analytics. Los desarrolladores nos comentan que tienen una preferencia clara por las soluciones de código abierto cuando crean canalizaciones de análisis. Creamos esta guía para ayudar a los desarrolladores de U-SQL a comprender Apache Spark y para que sepa cómo se pueden transformar los scripts de U-SQL a Apache Spark.

Incluye los pasos que puede realizar y varias alternativas.

Pasos para transformar U-SQL en Apache Spark

  1. Transforme las canalizaciones de orquestación de trabajos.

    Si usa Azure Data Factory para orquestar los scripts de Azure Data Lake Analytics, debe ajustarlos para organizar los nuevos programas de Spark.

  2. Comprenda las diferencias entre el modo en que U-SQL y Spark administran los datos.

    Si desea mover los datos de Azure Data Lake Storage Gen1 a Azure Data Lake Storage Gen2, debe copiar los datos del archivo y los datos mantenidos por el catálogo. Azure Data Lake Analytics solo admite Azure Data Lake Storage Gen1. Para más información, consulte Descripción de los formatos de datos de Spark.

  3. Transforme los scripts de U-SQL a Spark.

    Antes de transformar los scripts de U-SQL, debe elegir un servicio de análisis. Algunos de los servicios de proceso disponibles son:

    • Flujos de datos de Azure Data Factory Los flujos de datos de asignación son transformaciones de datos diseñadas de manera visual que permiten a los ingenieros de datos desarrollar una lógica de transformación de datos gráficos sin necesidad de escribir código. Aunque no son adecuados para ejecutar código de usuario complejo, pueden representar fácilmente transformaciones de flujo de datos similares a SQL tradicional.
    • Hive de Azure HDInsight Apache Hive en HDInsight es adecuado para las operaciones de extracción, transformación y carga (ETL). Esto significa que va a traducir los scripts de U-SQL a Apache Hive.
    • Motores de Apache Spark como Azure HDInsight Spark o Azure Databricks Esto significa que va a traducir los scripts de U-SQL a Spark. Para más información, consulte Descripción de los formatos de datos de Spark.

Precaución

Tanto Azure Databricks como Azure HDInsight Spark son servicios de clúster y no trabajos sin servidor como Azure Data Lake Analytics. Tendrá que tener en cuenta cómo aprovisionar los clústeres para obtener la relación de costo/rendimiento adecuada y cómo administrar su duración para minimizar los costos. Estos servicios tienen características de rendimiento distintas con el código de usuario escrito en .NET, por lo que tendrá que escribir contenedores o reescribir el código en un lenguaje compatible. Para más información, consulte Descripción de los formatos de datos de Spark, Descripción de los conceptos de código de Apache Spark para desarrolladores de U-SQL, .NET para Apache Spark.

Pasos siguientes