Воспользуйтесь ai.extract с pandas

Функция ai.extract использует созданный ИИ для сканирования входного текста и извлечения определенных типов информации, определенной метками, которые вы выбираете (например, расположения или имена). Он использует только одну строку кода.

Замечание

В этой статье описывается использование ai.extract с pandas. Сведения об использовании ai.extract с PySpark см. в этой статье.
См. другие функции ИИ в этой статье.
Узнайте, как настроить конфигурацию функций ИИ.

Обзор

Функция ai.extract расширяет класс серии pandas. Чтобы извлечь пользовательские типы сущностей из каждой строки входных данных, вызовите функцию в текстовом столбце dataFrame pandas .

В отличие от других функций ИИ, ai.extract возвращает кадр данных pandas, а не ряд, с отдельным столбцом для каждого указанного типа сущности, содержащего извлеченные значения для каждой входной строки.

Синтаксис

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

Параметры

Имя	Description
`labels` Обязательно	Одна или несколько строк , представляющих набор типов сущностей для извлечения из входных текстовых значений.
`aifunc.ExtractLabel` Необязательно	Одно или несколько определений меток, описывающих поля для извлечения. Дополнительные сведения см. в таблице параметров ExtractLabel.

Извлечение параметровLabel

Имя	Description
`label` Обязательно	Строка, представляющая сущность для извлечения из входных текстовых значений.
`description` Необязательно	Строка, добавляющая дополнительный контекст для модели ИИ. Он может включать требования, контекст или инструкции для ИИ, которые следует учитывать при выполнении извлечения.
`max_items` Необязательно	Значение int , указывающее максимальное количество элементов, извлекаемых для этой метки.
`type` Необязательно	Тип схемы JSON для извлеченного значения. Поддерживаемые типы для этого класса: `string`, `number`, `integer`, `boolean`и `objectarray`.
`properties` Необязательно	Дополнительные свойства схемы JSON для типа в виде словаря. Он может включать поддерживаемые свойства, такие как "items" для массивов, "свойства" для объектов, "перечисление" для типов перечисления и многое другое. См. пример использования в этой статье.
`raw_col` Необязательно	Строка, задающая имя столбца для исходного ответа LLM. Необработанный ответ содержит список словарных пар для каждой метки сущности, включая "причина" и "extraction_text".

Возвраты

Функция возвращает кадр данных pandas с столбцом для каждого указанного типа сущности. Столбец или столбцы содержат сущности, извлеченные для каждой строки входного текста. Если функция идентифицирует несколько совпадений для сущности, она возвращает только одно из этих совпадений. Если совпадение не найдено, результат — null.

Тип возвращаемого значения по умолчанию — это список строк для каждой метки. Если пользователи решили указать другой тип в aifunc.ExtractLabel конфигурации, например type=integer, выходные данные будут списком int python. Если пользователи указывают "max_items=1" в aifunc.ExtractLabel конфигурации, то для этой метки возвращается только один элемент типа.

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

В этом примере ячейка кода предоставляет следующие выходные данные:

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "Alex Rivera, a 24-year-old midfielder from Barcelona, scored 12 goals last season, with an impressive 5 goals in one game.",
        "Jordan Smith, a 29-year-old striker from Manchester, scored exactly 1 goal in every game, for a total of 34 goals."
    ], columns=["bio"])

df["goals"] = df["bio"].ai.extract(
    aifunc.ExtractLabel(
        label = "goals", 
        description = "total goals only", 
        max_items = 1, 
        type = "integer"
    )
)
display(df)

В этом примере ячейка кода предоставляет следующие выходные данные:

Используйте ai.extract с PySpark.
Определение тональности с использованием ai.analyze_sentiment.
Классифицируйте текст с помощью ai.classify.
Создайте векторные представления с помощью ai.embed.
Исправьте грамматику с ai.fix_grammar.
Отвечайте на настраиваемые запросы пользователей с ai.generate_response.
Вычислите сходство с ai.similarity.
Резюмируйте текст с ai.summarize.
Перевод текста с помощью ai.translate.
Дополнительные сведения о полном наборе функций ИИ.
Настройка конфигурации функций ИИ.
Мы упустили какую-то функцию, которая вам нужна? Предложите это на форуме "Фабрика идей".

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-21