Freigeben über


Verwenden von ai.fix_grammar mit PySpark

Die ai.fix_grammar Funktion verwendet generative KI, um die Rechtschreibung, Grammatik und Interpunktion von Eingabetext mit einer einzigen Codezeile zu korrigieren.

Hinweis

Überblick

Die ai.fix_grammar Funktion ist für Spark DataFrames verfügbar. Sie müssen den Namen einer vorhandenen Eingabespalte als Parameter angeben.

Die Funktion gibt einen neuen DataFrame zurück, der korrigierten Text für jede Eingabetextzeile enthält, die in einer Ausgabespalte gespeichert ist.

Syntax

df.ai.fix_grammar(input_col="input", output_col="corrections")

Die Parameter

Name Description
input_col
Erforderlich
Eine Zeichenfolge , die den Namen einer vorhandenen Spalte mit Eingabetextwerten enthält, die für Rechtschreibung, Grammatik und Interpunktion korrigiert werden sollen.
output_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um korrigierten Text für jede Zeile des Eingabetexts zu speichern. Wenn Sie diesen Parameter nicht festlegen, wird für die Ausgabespalte ein Standardname generiert.
error_col
Wahlfrei
Eine Zeichenfolge , die den Namen einer neuen Spalte enthält, um alle OpenAI-Fehler zu speichern, die aus der Verarbeitung jeder Zeile von Eingabetext resultieren. Wenn Sie diesen Parameter nicht festlegen, wird für die Fehlerspalte ein Standardname generiert. Wenn keine Fehler für eine Zeile mit Eingabe vorhanden sind, ist der Wert in dieser Spalte null.

Rückkehr

Die Funktion gibt einen Spark DataFrame zurück, der eine neue Spalte enthält, die korrigierten Text für jede Textzeile in der Eingabespalte enthält. Wenn der Eingabetext lautet null, lautet nulldas Ergebnis .

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

results = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(results)

Diese Beispielcodezelle stellt die folgende Ausgabe bereit:

Screenshot eines Datenrahmens mit einer Spalte