Поделиться через


Использование ai.fix_grammar с PySpark

Функция ai.fix_grammar использует генерированный ИИ для исправления орфографии, грамматики и препинания входного текста с помощью одной строки кода.

Замечание

Обзор

Функция ai.fix_grammar доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра.

Функция возвращает новый кадр данных, включающий исправленный текст для каждой входной текстовой строки, хранящейся в выходном столбце.

Синтаксис

df.ai.fix_grammar(input_col="input", output_col="corrections")

Параметры

Имя Description
input_col
Обязательно
Строка, содержащая имя существующего столбца с входными текстовыми значениями для исправления орфографии, грамматики и препинания.
output_col
Необязательно
Строка, содержащая имя нового столбца для хранения исправленного текста для каждой строки входного текста. Если этот параметр не задан, имя по умолчанию создается для выходного столбца.
error_col
Необязательно
Строка , содержащая имя нового столбца для сохранения любых ошибок OpenAI, возникших в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если для строки входных данных нет ошибок, то в этом столбце будет указано значение null.

Возвраты

Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий исправленный текст для каждой строки текста в входном столбце. Если входной текст null, результат null.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

results = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(results)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана: кадр данных с столбцом