Condividi tramite


Usare ai.fix_grammar con PySpark

La ai.fix_grammar funzione usa l'intelligenza artificiale generativa per correggere l'ortografia, la grammatica e la punteggiatura del testo di input, con una singola riga di codice.

Annotazioni

Informazioni generali

La ai.fix_grammar funzione è disponibile per i dataframe Spark. È necessario specificare il nome di una colonna di input esistente come parametro.

La funzione restituisce un nuovo dataframe che include testo corretto per ogni riga di testo di input, archiviata in una colonna di output.

Sintassi

df.ai.fix_grammar(input_col="input", output_col="corrections")

Parametri

Nome Description
input_col
Obbligatorio
Stringa contenente il nome di una colonna esistente con valori di testo di input da correggere per ortografia, grammatica e punteggiatura.
output_col
Opzionale
Stringa contenente il nome di una nuova colonna in cui archiviare il testo corretto per ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di output.
error_col
Opzionale
Stringa contenente il nome di una nuova colonna per archiviare eventuali errori OpenAI risultanti dall'elaborazione di ogni riga di testo di input. Se non si imposta questo parametro, viene generato un nome predefinito per la colonna di errore. Se non sono presenti errori per una riga di input, il valore in questa colonna è null.

Restituzioni

La funzione restituisce un dataframe Spark che include una nuova colonna contenente testo corretto per ogni riga di testo nella colonna di input. Se il testo di input è null, il risultato è null.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

results = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(results)

Questa cella di codice di esempio fornisce l'output seguente:

Screenshot che mostra una cornice di dati con una colonna