Используйте ai.extract с PySpark

Функция ai.extract использует созданный ИИ для сканирования входного текста и извлечения определенных типов информации, определенной метками, которые вы выбираете (например, расположения или имена). Он использует только одну строку кода.

Замечание

В этой статье описывается использование ai.extract с PySpark. Сведения об использовании ai.extract с pandas см. в этой статье.
См. другие функции ИИ в этой статье.
Узнайте, как настроить конфигурацию функций ИИ.

Обзор

Функция ai.extract доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра, а также список типов сущностей для извлечения из каждой строки текста.

Функция возвращает новый кадр данных с отдельным столбцом для каждого указанного типа сущности, содержащего извлеченные значения для каждой входной строки.

Синтаксис

df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")

Параметры

Имя	Description
`labels` Обязательно	Массив строк, представляющий набор типов сущностей для извлечения из текстовых значений в входном столбце.
`input_col` Обязательно	Строка, содержащая имя существующего столбца с входными текстовыми значениями для проверки пользовательских сущностей.
`aifunc.ExtractLabel` Необязательно	Одно или несколько определений меток, описывающих поля для извлечения. Дополнительные сведения см. в таблице параметров ExtractLabel.
`error_col` Необязательно	Строка , содержащая имя нового столбца для хранения любых ошибок OpenAI, возникающих в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если во входной строке нет ошибок, то значение в этом столбце будет равно `null`.

Извлечение параметровLabel

Имя	Description
`label` Обязательно	Строка, представляющая сущность для извлечения из входных текстовых значений.
`description` Необязательно	Строка, добавляющая дополнительный контекст для модели ИИ. Он может включать требования, контекст или инструкции для ИИ, которые следует учитывать при выполнении извлечения.
`max_items` Необязательно	Значение int , указывающее максимальное количество элементов, извлекаемых для этой метки.
`type` Необязательно	Тип схемы JSON для извлеченного значения. Поддерживаемые типы для этого класса: `string`, `number`, `integer`, `boolean`и `objectarray`.
`properties` Необязательно	Дополнительные свойства схемы JSON для типа в виде словаря. Он может включать поддерживаемые свойства, такие как "items" для массивов, "свойства" для объектов, "перечисление" для типов перечисления и многое другое. См. пример использования в этой статье.
`raw_col` Необязательно	Строка, задающая имя столбца для исходного ответа LLM. Необработанный ответ содержит список словарных пар для каждой метки сущности, включая "причина" и "extraction_text".

Возвраты

Функция возвращает кадр данных Spark с новым столбцом для каждого указанного типа сущности. Столбец или столбцы содержат сущности, извлеченные для каждой строки входного текста. Если функция идентифицирует несколько совпадений для сущности, она возвращает только одно из этих совпадений. Если совпадение не найдено, результат — null.

Тип возвращаемого значения по умолчанию — это список строк для каждой метки. Если пользователи решили указать другой тип в aifunc.ExtractLabel конфигурации, например type=integer, выходные данные будут списком int python. Если пользователи указывают "max_items=1" в aifunc.ExtractLabel конфигурации, то для этой метки возвращается только один элемент типа.

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

В этом примере ячейка кода предоставляет следующие выходные данные:

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Alex Rivera, a 24-year-old midfielder from Barcelona, scored 12 goals last season, with an impressive 5 goals in one game.",),
        ("Jordan Smith, a 29-year-old striker from Manchester, scored exactly 1 goal in every game, for a total of 34 goals.",)
    ], ["bio"])

df = df.ai.extract(
        aifunc.ExtractLabel(
            label = "goals", 
            description = "total goals only", 
            max_items = 1, 
            type = "integer"
        ), 
        input_col="bio"
    )
display(df)

В этом примере ячейка кода предоставляет следующие выходные данные:

Используйте ai.extract с pandas.
Определение тональности с использованием ai.analyze_sentiment.
Классифицируйте текст с помощью ai.classify.
Создайте векторные представления с помощью ai.embed.
Исправьте грамматику с ai.fix_grammar.
Отвечайте на настраиваемые запросы пользователей с ai.generate_response.
Вычислите сходство с ai.similarity.
Резюмируйте текст с ai.summarize.
Перевод текста с помощью ai.translate.
Дополнительные сведения о полном наборе функций ИИ.
Настройка конфигурации функций ИИ.
Мы упустили какую-то функцию, которая вам нужна? Предложите это на форуме "Фабрика идей".

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-21