Поделиться через


Воспользуйтесь ai.extract с pandas

Функция ai.extract использует созданный ИИ для сканирования входного текста и извлечения определенных типов информации, определенной метками, которые вы выбираете (например, расположения или имена). Он использует только одну строку кода.

Замечание

Обзор

Функция ai.extract расширяет класс серии pandas. Чтобы извлечь пользовательские типы сущностей из каждой строки входных данных, вызовите функцию в текстовом столбце dataFrame pandas .

В отличие от других функций ИИ, ai.extract возвращает кадр данных pandas, а не ряд, с отдельным столбцом для каждого указанного типа сущности, содержащего извлеченные значения для каждой входной строки.

Синтаксис

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

Параметры

Имя Description
labels
Обязательно
Одна или несколько строк , представляющих набор типов сущностей для извлечения из входных текстовых значений.
aifunc.ExtractLabel
Необязательно
Одно или несколько определений меток, описывающих поля для извлечения. Дополнительные сведения см. в таблице параметров ExtractLabel.

Извлечение параметровLabel

Имя Description
label
Обязательно
Строка, представляющая сущность для извлечения из входных текстовых значений.
description
Необязательно
Строка, добавляющая дополнительный контекст для модели ИИ. Он может включать требования, контекст или инструкции для ИИ, которые следует учитывать при выполнении извлечения.
max_items
Необязательно
Значение int , указывающее максимальное количество элементов, извлекаемых для этой метки.
type
Необязательно
Тип схемы JSON для извлеченного значения. Поддерживаемые типы для этого класса: string, number, integer, booleanи objectarray.
properties
Необязательно
Дополнительные свойства схемы JSON для типа в виде словаря. Он может включать поддерживаемые свойства, такие как "items" для массивов, "свойства" для объектов, "перечисление" для типов перечисления и многое другое. См. пример использования в этой статье.
raw_col
Необязательно
Строка, задающая имя столбца для исходного ответа LLM. Необработанный ответ содержит список словарных пар для каждой метки сущности, включая "причина" и "extraction_text".

Возвраты

Функция возвращает кадр данных pandas с столбцом для каждого указанного типа сущности. Столбец или столбцы содержат сущности, извлеченные для каждой строки входного текста. Если функция идентифицирует несколько совпадений для сущности, она возвращает только одно из этих совпадений. Если совпадение не найдено, результат — null.

Тип возвращаемого значения по умолчанию — это список строк для каждой метки. Если пользователи решили указать другой тип в aifunc.ExtractLabel конфигурации, например type=integer, выходные данные будут списком int python. Если пользователи указывают "max_items=1" в aifunc.ExtractLabel конфигурации, то для этой метки возвращается только один элемент типа.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

В этом примере ячейка кода предоставляет следующие выходные данные:

Снимок экрана: новый кадр данных с столбцами