Erweitern von U-SQL-Skripts mit Python-Code in Azure Data Lake Analytics

Artikel
12/20/2023

Wichtig

Azure Data Lake Analytics am 29. Februar 2024 eingestellt. In dieser Ankündigung erhalten Sie weitere Informationen.

Für Datenanalysen kann Ihr organization Azure Synapse Analytics oder Microsoft Fabric verwenden.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass die Python-Erweiterungen in Ihrem Azure Data Lake Analytics-Konto installiert sind.

Navigieren Sie im Azure-Portal zu Ihrem Data Lake Analytics-Konto.
Wählen Sie im linken Menü unter ERSTE SCHRITTEdie Option Beispielskripts aus.
Wählen Sie U-SQL-Erweiterungen installieren und dann OK aus.

Übersicht

Mit Python-Erweiterungen für U-SQL können Entwickler Python-Code per Massively Parallel Processing ausführen. Im folgenden Beispiel werden die grundlegenden Schritte veranschaulicht:

Verwenden der REFERENCE ASSEMBLY-Anweisung zum Aktivieren von Python-Erweiterungen für das U-SQL-Skript
Verwenden des REDUCE-Vorgangs zum Partitionieren der Eingabedaten für einen Schlüssel
Die Python-Erweiterungen für U-SQL enthalten einen integrierten Reducer (Extension.Python.Reducer), mit dem Python-Code auf jedem Vertex ausgeführt wird, der dem Reducer zugewiesen ist.
Das U-SQL-Skript enthält den eingebetteten Python-Code mit der Funktion „usqlml_main“, für die ein Pandas-DataFrame als Eingabe akzeptiert und ein Pandas-DataFrame als Ausgabe zurückgegeben wird.

REFERENCE ASSEMBLY [ExtPython];
DECLARE @myScript = @"
def get_mentions(tweet):
    return ';'.join( ( w[1:] for w in tweet.split() if w[0]=='@' ) )
def usqlml_main(df):
    del df['time']
    del df['author']
    df['mentions'] = df.tweet.apply(get_mentions)
    del df['tweet']
    return df
";
@t  =
    SELECT * FROM
       (VALUES
           ("D1","T1","A1","@foo Hello World @bar"),
           ("D2","T2","A2","@baz Hello World @beer")
       ) AS date, time, author, tweet );
@m  =
    REDUCE @t ON date
    PRODUCE date string, mentions string
    USING new Extension.Python.Reducer(pyScript:@myScript);
OUTPUT @m
    TO "/tweetmentions.csv"
    USING Outputters.Csv();

Integration von Python in U-SQL

Datentypen

Zeichenfolgen- und numerische Spalten von U-SQL werden unverändert zwischen Pandas und U-SQL konvertiert
U-SQL-NULL-Werte werden in und aus „NA“-Pandas-Werten konvertiert

Schemas

Indexvektoren in Pandas werden in U-SQL nicht unterstützt. Alle Eingabedatenrahmen in der Python-Funktion haben stets einen numerischen 64-Bit-Index von 0 bis zur Anzahl der Zeilen minus 1.
U-SQL-Datasets dürfen keine doppelten Spaltennamen aufweisen
U-SQL-Datasets Spaltennamen, die keine Zeichenfolgen sind.

Python-Versionen

Nur Python 3.5.1 (für Windows kompiliert) wird unterstützt.

Python-Standardmodule

Alle Python-Standardmodule sind enthalten.

Weitere Python-Module

Neben den Python-Standardbibliotheken sind noch weitere häufig verwendete Python-Bibliotheken enthalten:

pandas
numpy
numexpr

Ausnahmemeldungen

Derzeit wird eine Ausnahme in Python-Code als generischer Scheitelpunktfehler angezeigt. In Zukunft wird mit U-SQL-Auftragsfehlermeldungen die Python-Ausnahmemeldung angezeigt.

Einschränkungen der Ein- und Ausgabegröße

Jedem Scheitelpunkt ist eine begrenzte Menge an Arbeitsspeicher zugewiesen. Derzeit beträgt der Grenzwert 6 GB pro AU. Da die Eingabe- und Ausgabedatenrahmen im Python-Code im Arbeitsspeicher vorhanden sein müssen, darf die Gesamtgröße für die Eingabe und Ausgabe 6 GB nicht überschreiten.