Используйте ai.summarize с PySpark

Функция ai.summarize использует генерированный ИИ для создания сводок входного текста с одной строкой кода. Функция может суммировать значения из одного столбца кадра данных или значений во всех столбцах.

Замечание

В этой статье описывается использование ai.summarize с PySpark. Сведения об использовании ai.summarize с pandas см. в этой статье.
См. другие функции ИИ в этой статье.
Узнайте, как настроить конфигурацию функций ИИ.

Обзор

Функция ai.summarize доступна также для Spark DataFrame. Если указать имя существующего входного столбца в качестве параметра, функция суммирует каждое значение из этого столбца отдельно. В противном случае функция суммирует значения во всех столбцах таблицы данных построчно.

Функция возвращает новый кадр данных с сводными данными для каждой входной текстовой строки, из одного столбца или всех столбцов, хранящихся в выходном столбце.

df.ai.summarize(input_col="text", output_col="summaries")

df.ai.summarize(output_col="summaries")

Параметры

Имя	Description
`input_col` Необязательно	Строка , содержащая имя существующего столбца с входными текстовыми значениями для суммирования. Если этот параметр не задан, функция суммирует значения во всех столбцах в кадре данных вместо значений из определенного столбца.
`instructions` Необязательно	Строка, содержащая больше контекста для модели ИИ, например указание длины выходных данных, тон или многое другое. Более точные инструкции будут давать лучшие результаты.
`error_col` Необязательно	Строка , содержащая имя нового столбца для хранения любых ошибок OpenAI, возникающих в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если во входной строке нет ошибок, то значение в этом столбце будет равно `null`.
`output_col` Необязательно	Строка , содержащая имя нового столбца для хранения сводок для каждой входной текстовой строки. Если этот параметр не задан, имя по умолчанию создается для выходного столбца.

Возвраты

Функция возвращает кадр данных Spark , содержащий новый столбец, содержащий сводный текст для каждой входной текстовой строки. Если входной текст null, результат null. Если входной столбец не указан, функция суммирует значения во всех столбцах в кадре данных.

Example

Суммирование значений из одного столбца
Суммирование значений во всех столбцах

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

В этом примере ячейка кода предоставляет следующие выходные данные:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(output_col="summaries")
display(summaries)

В этом примере ячейка кода предоставляет следующие выходные данные:

Используйте ai.summarize с Pandas.
Определите тональность, используя ai.analyze_sentiment.
Классифицируйте текст с помощью ai.classify.
Создайте векторные представления с помощью ai.embed.
Извлечение сущностей с ai_extract.
Исправьте грамматику с ai.fix_grammar.
Отвечайте на пользовательские запросы с помощью ai.generate_response.
Вычислите сходство с ai.similarity.
Перевод текста с помощью ai.translate.
Дополнительные сведения о полном наборе функций ИИ.
Настройка конфигурации функций ИИ.
Мы упустили какую-то функцию, которая вам нужна? Предложите это на форуме "Фабрика идей".

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-21