Del via


Bruk ai.summarize med PySpark

Funksjonen ai.summarize bruker generativ AI til å produsere sammendrag av inndatatekst, med en enkelt kodelinje. Funksjonen kan enten oppsummere verdier fra én kolonne i en DataFrame eller verdier på tvers av alle kolonnene.

Note

Oversikt

Funksjonen ai.summarize er også tilgjengelig for Spark DataFrames. Hvis du angir navnet på en eksisterende inndatakolonne som en parameter, oppsummerer funksjonen hver verdi fra denne kolonnen alene. Ellers oppsummerer funksjonen verdier på tvers av alle kolonnene i DataFrame, rad for rad.

Funksjonen returnerer en ny DataFrame med sammendrag for hver inndatatekstrad, fra én kolonne eller på tvers av alle kolonnene, lagret i en utdatakolonne.

Syntaks

df.ai.summarize(input_col="text", output_col="summaries")

Parametere

Name Beskrivelse
input_col
Valgfritt
En streng som inneholder navnet på en eksisterende kolonne med inndatatekstverdier som skal oppsummeres. Hvis du ikke angir denne parameteren, oppsummerer funksjonen verdier på tvers av alle kolonner i DataFrame, i stedet for verdier fra en bestemt kolonne.
instructions
Valgfritt
En streng som inneholder mer kontekst for AI-modellen, som å spesifisere utgangslengde, tone eller mer. Mer presise instruksjoner vil gi bedre resultater.
error_col
Valgfritt
En streng som inneholder navnet på en ny kolonne for å lagre eventuelle OpenAI-feil som er et resultat av behandling av hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for feilkolonnen. Hvis en inndatarad ikke har noen feil, er verdien i denne kolonnen null.
output_col
Valgfritt
En streng som inneholder navnet på en ny kolonne for å lagre sammendrag for hver inndatatekstrad. Hvis du ikke angir denne parameteren, genereres et standardnavn for utdatakolonnen.

Returnerer

Funksjonen returnerer en Spark DataFrame som inneholder en ny kolonne som inneholder oppsummert tekst for hver inndatatekstrad. Hvis inndatateksten er null, blir resultatet null. Hvis ingen inndatakolonne er angitt, oppsummerer funksjonen verdier på tvers av alle kolonnene i DataFrame.

Eksempel

# This code uses AI. Always review output for mistakes.

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summaries")
display(summaries)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde som viser en dataramme. «Sammendrag»-kolonnen har bare et sammendrag av «beskrivelse»-kolonnen i den tilsvarende raden.