Поделиться через


Использование ai.analyze_sentiment с PySpark

Функция ai.analyze_sentiment использует генерированный ИИ для обнаружения эмоционального состояния входного текста с одной строкой кода. Он может определить, является ли эмоциональное состояние входных данных положительным, отрицательным, смешанным или нейтральным. Он также может обнаружить эмоциональное состояние в соответствии с указанными метками. Если функция не может определить тональность, она оставляет выходные данные пустыми.

Замечание

Обзор

Функция ai.analyze_sentiment доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра.

Функция возвращает новый DataFrame с метками тональности для каждой входной текстовой строки, которые хранятся в выходном столбце.

Синтаксис

# Default sentiment labels
df.ai.analyze_sentiment(input_col="input", output_col="sentiment")

# Custom sentiment labels
df.ai.analyze_sentiment(input_col="input", output_col="sentiment", labels=["happy", "angry", "indifferent"])

Параметры

Имя Description
input_col
Обязательно
Строка, содержащая имя существующего столбца с входными текстовыми значениями для анализа тональности.
output_col
Необязательно
Строка , содержащая имя нового столбца для хранения метки тональности для каждой строки входного текста. Если этот параметр не задан, имя по умолчанию создается для выходного столбца.
labels
Необязательно
Одна или несколько строк , представляющих набор меток тональности для сопоставления с входными текстовыми значениями.
error_col
Необязательно
Строка , содержащая имя нового столбца для сохранения любых ошибок OpenAI, возникших в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если во входной строке нет ошибок, то значение в этом столбце будет равно null.

Возвраты

Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий метки тональности, соответствующие каждой строке текста в входном столбце. Метки тональности по умолчанию включают positive, negative, neutral или mixed. Если указаны пользовательские метки, вместо этого используются эти метки. Если не удается определить тональность, возвращаемое значение null.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("The cleaning spray permanently stained my beautiful kitchen counter. Never again!",),
        ("I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",),
        ("I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",),
        ("The umbrella is OK, I guess.",)
    ], ["reviews"])

sentiment = df.ai.analyze_sentiment(input_col="reviews", output_col="sentiment")
display(sentiment)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана: кадр данных с столбцами