Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Функция ai.extract использует созданный ИИ для сканирования входного текста и извлечения определенных типов информации, определенной метками, которые вы выбираете (например, расположения или имена). Он использует только одну строку кода.
Замечание
- В этой статье описывается использование ai.extract с PySpark. Сведения об использовании ai.extract с pandas см. в этой статье.
- См. другие функции ИИ в этой статье.
- Узнайте, как настроить конфигурацию функций ИИ.
Обзор
Функция ai.extract доступна для кадров данных Spark. Необходимо указать имя существующего входного столбца в качестве параметра, а также список типов сущностей для извлечения из каждой строки текста.
Функция возвращает новый кадр данных с отдельным столбцом для каждого указанного типа сущности, содержащего извлеченные значения для каждой входной строки.
Синтаксис
df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")
Параметры
| Имя | Description |
|---|---|
labels Обязательно |
Массивстрок, представляющий набор типов сущностей для извлечения из текстовых значений в входном столбце. |
input_col Обязательно |
Строка, содержащая имя существующего столбца с входными текстовыми значениями для проверки пользовательских сущностей. |
aifunc.ExtractLabel Необязательно |
Одно или несколько определений меток, описывающих поля для извлечения. Дополнительные сведения см. в таблице параметров ExtractLabel. |
error_col Необязательно |
Строка , содержащая имя нового столбца для хранения любых ошибок OpenAI, возникающих в результате обработки каждой строки входного текста. Если этот параметр не задан, для столбца ошибок генерируется имя по умолчанию. Если во входной строке нет ошибок, то значение в этом столбце будет равно null. |
Извлечение параметровLabel
| Имя | Description |
|---|---|
label Обязательно |
Строка, представляющая сущность для извлечения из входных текстовых значений. |
description Необязательно |
Строка, добавляющая дополнительный контекст для модели ИИ. Он может включать требования, контекст или инструкции для ИИ, которые следует учитывать при выполнении извлечения. |
max_items Необязательно |
Значение int , указывающее максимальное количество элементов, извлекаемых для этой метки. |
type Необязательно |
Тип схемы JSON для извлеченного значения. Поддерживаемые типы для этого класса: string, number, integer, booleanи objectarray. |
properties Необязательно |
Дополнительные свойства схемы JSON для типа в виде словаря. Он может включать поддерживаемые свойства, такие как "items" для массивов, "свойства" для объектов, "перечисление" для типов перечисления и многое другое. См. пример использования в этой статье. |
raw_col Необязательно |
Строка, задающая имя столбца для исходного ответа LLM. Необработанный ответ содержит список словарных пар для каждой метки сущности, включая "причина" и "extraction_text". |
Возвраты
Функция возвращает кадр данных Spark с новым столбцом для каждого указанного типа сущности. Столбец или столбцы содержат сущности, извлеченные для каждой строки входного текста. Если функция идентифицирует несколько совпадений для сущности, она возвращает только одно из этих совпадений. Если совпадение не найдено, результат — null.
Тип возвращаемого значения по умолчанию — это список строк для каждой метки. Если пользователи решили указать другой тип в aifunc.ExtractLabel конфигурации, например type=integer, выходные данные будут списком int python. Если пользователи указывают "max_items=1" в aifunc.ExtractLabel конфигурации, то для этой метки возвращается только один элемент типа.
Example
# This code uses AI. Always review output for mistakes.
df = spark.createDataFrame([
("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
], ["descriptions"])
df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)
В этом примере ячейка кода предоставляет следующие выходные данные:
Связанный контент
Используйте ai.extract с pandas.
Определение тональности с использованием ai.analyze_sentiment.
Классифицируйте текст с помощью ai.classify.
Создайте векторные представления с помощью ai.embed.
Исправьте грамматику с ai.fix_grammar.
Отвечайте на настраиваемые запросы пользователей с ai.generate_response.
Вычислите сходство с ai.similarity.
Резюмируйте текст с ai.summarize.
Перевод текста с помощью ai.translate.
Дополнительные сведения о полном наборе функций ИИ.
Настройка конфигурации функций ИИ.
Мы упустили какую-то функцию, которая вам нужна? Предложите это на форуме "Фабрика идей".