Sdílet prostřednictvím


Použijte ai.extract s modulem pandas

Funkce ai.extract využívá generativní AI k prohledávání vstupního textu a extrakci konkrétních typů informací označených štítky vybranými uživatelem (například místa nebo jména). Používá pouze jeden řádek kódu.

Poznámka:

Přehled

Funkce ai.extract rozšiřuje třídu pandas Series. Pokud chcete extrahovat vlastní typy entit z každého řádku vstupu, zavolejte funkci v textovém sloupci datového rámce pandas .

Na rozdíl od ostatních funkcí ai.extract umělé inteligence vrátí datový rámec pandas místo řady se samostatným sloupcem pro každý zadaný typ entity, který obsahuje extrahované hodnoty pro každý vstupní řádek.

Syntaxe

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

Parametry

Název Description
labels
Povinné
Jeden nebo více řetězců , které představují sadu typů entit, které se mají extrahovat ze vstupních textových hodnot.
aifunc.ExtractLabel
Volitelný
Jedna nebo více definic popisků popisujících pole, která se mají extrahovat. Další informace najdete v tabulce ExtractLabel Parameters.

Parametry ExtractLabel

Název Description
label
Povinné
Řetězec, který představuje entitu, která se má extrahovat ze vstupních textových hodnot.
description
Volitelný
Řetězec, který přidá další kontext pro model AI. Může zahrnovat požadavky, kontext nebo pokyny, které AI při extrakci zvažují.
max_items
Volitelný
Hodnota int, která určuje maximální počet položek k vyextrahování pro toto označení.
type
Volitelný
Typ schématu JSON pro extrahovaná hodnota Mezi podporované typy pro tuto třídu patří string, , numberinteger, boolean, , objecta array.
properties
Volitelný
Další vlastnosti schématu JSON pro typ jako slovník Může obsahovat podporované vlastnosti, jako jsou "items" pro pole, "properties" pro objekty, "výčt" pro typy výčtů a další. Podívejte se na příklad použití v tomto článku.
raw_col
Volitelný
Řetězec, který nastaví název sloupce pro nezpracovanou odpověď LLM. ** Surová odpověď poskytuje seznam párů slovníků pro každý štítek entity, včetně "reason" a "extraction_text".

Návraty

Funkce vrátí datový rámec pandas se sloupcem pro každý zadaný typ entity. Sloupec nebo sloupce obsahují entity extrahované pro každý řádek vstupního textu. Pokud funkce identifikuje více než jednu shodu pro entitu, vrátí pouze jednu z těchto shod. Pokud se nenajde žádná shoda, výsledek je null.

Výchozí návratový typ je seznam řetězců pro každý popisek. Pokud se uživatelé rozhodnou zadat jiný typ v aifunc.ExtractLabel konfiguraci, například type=integer, bude výstup seznamem python int. Pokud uživatelé v aifunc.ExtractLabel konfiguraci zadají "max_items=1", vrátí se pro tento popisek pouze jeden prvek typu.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Tato ukázková buňka kódu poskytuje následující výstup:

Snímek obrazovky znázorňující nový datový rámec se sloupci