Del via


Bruk ai.extract med pandaer

Funksjonen ai.extract bruker generativ AI til å skanne inndatatekst og trekke ut bestemte typer informasjon angitt av etiketter du velger (for eksempel steder eller navn). Den bruker bare en enkelt kodelinje.

Note

Oversikt

Funksjonen ai.extractutvider pandas Series-klassen . Hvis du vil trekke ut egendefinerte enhetstyper fra hver rad med inndata, kaller du funksjonen i en pandas DataFrame-tekstkolonne .

I motsetning til andre AI-funksjoner returnerer ai.extract en pandas DataFrame, i stedet for en serie, med en egen kolonne for hver angitte enhetstype som inneholder utpakkede verdier for hver inndatarad.

Syntaks

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

Parametere

Name Beskrivelse
labels
Obligatorisk
Én eller flere strenger som representerer settet med enhetstyper som skal trekkes ut fra inndatatekstverdiene.
aifunc.ExtractLabel
Valgfritt
En eller flere merkedefinisjoner som beskriver feltene som skal trekkes ut. For mer informasjon, se tabellen ExtractLabel Parameters.

ExtractLabel-parametere

Name Beskrivelse
label
Obligatorisk
En streng som representerer entiteten som skal trekkes ut fra inndata-tekstverdiene.
description
Valgfritt
En streng som gir ekstra kontekst til AI-modellen. Den kan inkludere krav, kontekst eller instruksjoner som AI-en bør vurdere under utvinningen.
max_items
Valgfritt
En int som spesifiserer maksimalt antall elementer som skal trekkes ut for denne etiketten.
type
Valgfritt
JSON-skjematype for den ekstraherte verdien. Støttede typer for denne klassen inkluderer string, , , integer, booleanobject, og arraynumber.
properties
Valgfritt
Flere JSON-skjemaegenskaper for typen som ordbok. Det kan inkludere støttede egenskaper som "items" for arrays, "properties" for objects, "enum" for enum-typer og mer. Se eksempel på bruk i denne artikkelen.
raw_col
Valgfritt
En streng som setter kolonnenavnet for det rå LLM-svaret. Det rå svaret gir en liste over ordbokpar for hver entitetsetikett, inkludert "reason" og "extraction_text".

Returnerer

Funksjonen returnerer en pandas DataFrame- med en kolonne for hver angitte enhetstype. Kolonnen eller kolonnene inneholder enhetene som er trukket ut for hver rad med inndatatekst. Hvis funksjonen identifiserer mer enn ett treff for en enhet, returnerer den bare ett av disse treffene. Hvis ingen treff blir funnet, blir resultatet null.

Standard returtype er en liste over strenger for hver etikett. Hvis brukere velger å spesifisere en annen type i konfigurasjonen aifunc.ExtractLabel , for eksempel "type=integer", vil utdataene være en liste over python-int. Hvis brukere spesifiserer "max_items=1" i konfigurasjonen aifunc.ExtractLabel , returneres kun ett element av typen for den etiketten.

Eksempel

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde som viser en ny dataramme med kolonnene «navn», «yrke» og «by», som inneholder dataene som er hentet ut fra den opprinnelige datarammen.