Поделиться через


Использование ai.classify с PySpark

Функция ai.classify использует генерированный ИИ для классификации входного текста в соответствии с настраиваемыми метками, которые вы выбрали, с одной строкой кода.

Замечание

Обзор

Функция ai.classify доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра, а также список меток классификации.

Функция возвращает новый кадр данных с метками, которые соответствуют каждой строке входного текста, хранящейся в выходном столбце.

Синтаксис

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Параметры

Имя Description
labels
Обязательно
Массивстрок, представляющий набор меток классификации для сопоставления с текстовыми значениями в входном столбце.
input_col
Обязательно
Строка, содержащая имя существующего столбца с входными текстовыми значениями для классификации в соответствии с пользовательскими метками.
output_col
Необязательно
Строка, содержащая имя нового столбца, в котором требуется сохранить метку классификации для каждой входной текстовой строки. Если этот параметр не задан, для выходного столбца создается имя по умолчанию.
error_col
Необязательно
Строка , содержащая имя нового столбца. Новый столбец сохраняет любые ошибки OpenAI, возникающие при обработке каждой строки входного текста. Если этот параметр не задан, для столбца ошибок создается имя по умолчанию. Если для строки входных данных нет ошибок, то в этом столбце будет указано значение null.

Возвраты

Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий метки классификации, соответствующие каждой входной текстовой строке. Если текстовое значение не может быть классифицировано, ему присваивается метка null.

Example

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана: кадр данных с столбцами descriptions и category. В столбце