Informacje o platformie Apache Spark dla deweloperów języka U-SQL

Ważne

Usługa Azure Data Lake Analytics wycofana 29 lutego 2024 r. Dowiedz się więcej z tego ogłoszenia.

Na potrzeby analizy danych organizacja może używać usługi Azure Synapse Analytics lub Microsoft Fabric.

Firma Microsoft obsługuje kilka usług analitycznych, takich jak Azure Databricks, Azure HDInsight i Azure Data Lake Analytics. Słyszymy od deweloperów, że mają jasne preferencje dotyczące rozwiązań typu open source podczas tworzenia potoków analitycznych. Aby pomóc deweloperom języka U-SQL zrozumieć platformę Apache Spark i jak można przekształcić skrypty U-SQL na platformę Apache Spark, utworzyliśmy te wskazówki.

Zawiera on kroki, które można wykonać, i kilka alternatyw.

Kroki przekształcania języka U-SQL na platformę Apache Spark

  1. Przekształć potoki aranżacji zadań.

    Jeśli używasz Azure Data Factory do organizowania skryptów usługi Azure Data Lake Analytics, musisz dostosować je do orkiestracji nowych programów Spark.

  2. Poznaj różnice między sposobem zarządzania danymi za pomocą języka U-SQL i platformy Spark.

    Jeśli chcesz przenieść dane z usługi Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2, musisz skopiować zarówno dane pliku, jak i dane przechowywane w wykazie. Usługa Azure Data Lake Analytics obsługuje tylko Azure Data Lake Storage Gen1. Aby uzyskać więcej informacji, zobacz Omówienie formatów danych platformy Spark.

  3. Przekształć skrypty U-SQL na platformę Spark.

    Przed przekształceniem skryptów U-SQL należy wybrać usługę analizy. Oto niektóre z dostępnych usług obliczeniowych:

    • Azure Data Factory przepływy danych mapowania przepływu danych są wizualnie zaprojektowane przekształcenia danych, które umożliwiają inżynierom danych opracowywanie graficznej logiki przekształcania danych bez konieczności pisania kodu. Chociaż nie nadaje się do wykonywania złożonego kodu użytkownika, mogą łatwo reprezentować tradycyjne przekształcenia przepływu danych przypominające sql
    • Azure HDInsight Hive Usługa Apache Hive w usłudze HDInsight jest odpowiednia do operacji wyodrębniania, przekształcania i ładowania (ETL). Oznacza to, że zamierzasz przetłumaczyć skrypty U-SQL na apache Hive.
    • Aparaty Apache Spark, takie jak Azure HDInsight Spark lub Azure Databricks , oznacza to, że zamierzasz przetłumaczyć skrypty U-SQL na platformę Spark. Aby uzyskać więcej informacji, zobacz Omówienie formatów danych platformy Spark

Przestroga

Usługi Azure Databricks i Azure HDInsight Spark to usługi klastra, a nie zadania bezserwerowe, takie jak Azure Data Lake Analytics. Należy wziąć pod uwagę sposób aprowizacji klastrów, aby uzyskać odpowiedni współczynnik kosztów/wydajności oraz jak zarządzać ich okresem istnienia, aby zminimalizować koszty. Te usługi mają różne cechy wydajności kodu użytkownika napisanego na platformie .NET, dlatego konieczne będzie napisanie otoki lub ponowne napisanie kodu w obsługiwanym języku. Aby uzyskać więcej informacji, zobacz Understand Spark data formats (Omówienie formatów danych platformy Spark), Understand Apache Spark code concepts for U-SQL developers (Pojęcia dotyczące kodu platformy Apache Spark dla deweloperów języka U-SQL), .NET for Apache Spark

Następne kroki