Поделиться через


Используйте ai.summarize с PySpark

Функция ai.summarize использует генерированный ИИ для создания сводок входного текста с одной строкой кода. Функция может суммировать значения из одного столбца кадра данных или значений во всех столбцах.

Замечание

Обзор

Функция ai.summarize доступна также для Spark DataFrame. Если указать имя существующего входного столбца в качестве параметра, функция суммирует каждое значение из этого столбца отдельно. В противном случае функция суммирует значения во всех столбцах таблицы данных построчно.

Функция возвращает новый кадр данных с сводными данными для каждой входной текстовой строки, из одного столбца или всех столбцов, хранящихся в выходном столбце.

Синтаксис

df.ai.summarize(input_col="text", output_col="summaries")

Параметры

Имя Description
input_col
Необязательно
Строка , содержащая имя существующего столбца с входными текстовыми значениями для суммирования. Если этот параметр не задан, функция суммирует значения во всех столбцах в кадре данных вместо значений из определенного столбца.
instructions
Необязательно
Строка, содержащая больше контекста для модели ИИ, например указание длины выходных данных, тон или многое другое. Более точные инструкции будут давать лучшие результаты.
error_col
Необязательно
Строка , содержащая имя нового столбца для хранения любых ошибок OpenAI, возникающих в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если во входной строке нет ошибок, то значение в этом столбце будет равно null.
output_col
Необязательно
Строка , содержащая имя нового столбца для хранения сводок для каждой входной текстовой строки. Если этот параметр не задан, имя по умолчанию создается для выходного столбца.

Возвраты

Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий сводный текст для каждой входной текстовой строки. Если входной текст null, результат null. Если входной столбец не указан, функция суммирует значения во всех столбцах в кадре данных.

Example

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана, на котором показан фрейм данных. Столбец