该 ai.extract 函数使用生成 AI 扫描输入文本并提取所选标签指定的特定类型信息(例如位置或名称)。 它只使用一行代码。
注释
概述
ai.extract 函数扩展了 pandas Series 类。 若要从每行输入中提取自定义实体类型,请对 pandas DataFrame 文本列调用函数。
与其他 AI 函数不同, ai.extract 返回 pandas DataFrame,而不是序列,每个指定实体类型都有一个单独的列,其中包含每个输入行的提取值。
Syntax
df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")
参数
| Name | Description |
|---|---|
labels 必选 |
一个或多个 字符串 ,表示要从输入文本值中提取的实体类型集。 |
aifunc.ExtractLabel 可选 |
描述要提取的字段的一个或多个标签定义。 有关详细信息,请参阅 ExtractLabel 参数 表。 |
ExtractLabel 参数
| Name | Description |
|---|---|
label 必选 |
一个 字符串 ,表示要从输入文本值中提取的实体。 |
description 可选 |
为 AI 模型添加额外上下文的 字符串 。 AI 在执行提取时可以考虑的内容包括要求、上下文或说明。 |
max_items 可选 |
一个 int ,指定要为此标签提取的最大项数。 |
type 可选 |
提取值的 JSON 架构类型。 此类支持的类型包括string、、numberinteger、boolean和objectarray。 |
properties 可选 |
类型作为字典的更多 JSON 架构属性。 它可以包括支持的特性,例如数组的“items”、对象的“properties”、枚举类型的“enum”等。 请参阅 本文中的示例用法。 |
raw_col 可选 |
一个 字符串 ,用于设置原始 LLM 响应的列名称。 原始响应为每个实体标签提供字典对列表,包括“reason”和“extraction_text”。 |
退货
该函数返回一个 pandas DataFrame ,其中包含每个指定实体类型的列。 列包含从每行输入文本中提取的实体。 如果函数标识实体的多个匹配项,则它只返回其中一个匹配项。 如果未找到匹配项,则结果为 null。
默认返回类型是每个标签的字符串列表。 如果用户选择在配置中 aifunc.ExtractLabel 指定其他类型,例如“type=integer”,则输出将是 python int 的列表。如果用户在 aifunc.ExtractLabel 配置中指定“max_items=1”,则只为该标签返回该类型的一个元素。
Example
# This code uses AI. Always review output for mistakes.
df = pd.DataFrame([
"MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
"Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
], columns=["descriptions"])
df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)
此示例代码单元提供以下输出:
相关内容
使用 ai.analyze_sentiment检测情绪。
使用 ai.classify 对文本进行分类。
使用 ai.embed 生成矢量嵌入。
使用 ai.fix_grammar修复语法。
使用 ai.generate_response回答自定义用户提示。
使用ai.summarize功能汇总文本。
使用 ai.translate 翻译文本。
详细了解 完整的 AI 函数集。
自定义 AI 函数的配置。
我们错过了所需的功能吗? 在面料创意论坛上提出建议。