Noções básicas do Apache Spark para desenvolvedores do U-SQL

Importante

O Azure Data Lake Analytics desativado em 29 de fevereiro de 2024. Saiba mais nesse comunicado.

Para análise de dados, sua organização pode usar o Azure Synapse Analytics ou o Microsoft Fabric.

A Microsoft dá suporte a vários serviços de Análise, como o Azure Databricks, o Azure HDInsight e o Azure Data Lake Analytics. Os desenvolvedores comentaram com a Microsoft que têm uma clara preferência por soluções de software livre à medida que criam pipelines de análise. As diretrizes a seguir ajudam os desenvolvedores de U-SQL a entender o Apache Spark e como transformar scripts U-SQL para ele.

Ele inclui as etapas que você pode executar e várias alternativas.

Etapas para transformar U-SQL em Apache Spark

  1. Transforme seus pipelines de orquestração de trabalho.

    Se você usar Azure Data Factory para orquestrar seus scripts de Data Lake Analytics do Azure, precisará ajustá-los para orquestrar os novos programas do Spark.

  2. Entenda as diferenças entre como o U-SQL e o Spark gerenciam dados.

    Se você quiser mover seus dados do Azure Data Lake Storage Gen1 para Azure Data Lake Storage Gen2, será necessário copiar os dados do arquivo e os dados mantidos pelo catálogo. O Data Lake Analytics do Azure dá suporte apenas ao Azure Data Lake Storage Gen1. Para obter mais informações, consulte Noções básicas sobre formatos de dados do Spark.

  3. Transformar os scripts U-SQL em Spark.

    Antes de transformar seus scripts U-SQL, você precisa escolher um serviço de análise. Veja a seguir alguns dos serviços de computação disponíveis:

    • Fluxo de dados do Azure Data Factory Os fluxos de dados de mapeamento são transformações de dados visualmente projetadas que permitem que os engenheiros de dados desenvolvam uma lógica de transformação de dados gráfica sem criar códigos. Embora não sejam adequados para a execução de códigos de usuário complexos, eles podem representar facilmente transformações de fluxo de dados como o SQL
    • Azure HDInsight Hive O Apache Hive no HDInsight é adequado para operações de extração, transformação e carregamento (ETL). Isso significa que você vai traduzir seus scripts U-SQL para o Apache Hive.
    • Mecanismos do Apache Spark, como o Azure HDInsight Spark ou o Azure Databricks , isso significa que você vai traduzir seus scripts U-SQL para o Spark. Para obter mais informações, consulte Entender formatos de dados do Spark.

Cuidado

Tanto o Azure Databricks quanto o Azure HDInsight Spark são serviços de cluster e não trabalhos sem servidor como o Azure Data Lake Analytics. Você precisará considerar como provisionar os clusters para obter a taxa de custo/desempenho apropriada e como gerenciar o tempo de vida deles para minimizar os custos. Esses serviços têm características de desempenho diferentes com o código do usuário escrito em .NET, portanto, será preciso gravar wrappers ou reescrever seu código em uma linguagem com suporte. Para obter mais informações, consulte Noções básicas sobre formatos de dados do Spark, Noções básicas sobre os conceitos de código do Apache Spark para desenvolvedores do U-SQL, .NET para Apache Spark

Próximas etapas