Κοινοποίηση μέσω


Χρησιμοποιήστε το ai.extract με το PySpark

Η ai.extract λειτουργία χρησιμοποιεί παραγωγικό AI για τη σάρωση κειμένου εισαγωγής και την εξαγωγή συγκεκριμένων τύπων πληροφοριών που καθορίζονται από ετικέτες που επιλέγετε (για παράδειγμα, τοποθεσίες ή ονόματα). Χρησιμοποιεί μόνο μία γραμμή κώδικα.

Σημείωμα

Επισκόπηση

Η ai.extract συνάρτηση είναι διαθέσιμη για Spark DataFrames. Πρέπει να καθορίσετε το όνομα μιας υπάρχουσας στήλης εισαγωγής ως παραμέτρου, μαζί με μια λίστα τύπων οντοτήτων για εξαγωγή από κάθε γραμμή κειμένου.

Η συνάρτηση επιστρέφει ένα νέο DataFrame, με μια ξεχωριστή στήλη για κάθε καθορισμένο τύπο οντότητας που περιέχει τιμές που έχουν εξαχθεί για κάθε γραμμή εισόδου.

Σύνταξη

df.ai.extract(labels=["entity1", "entity2", "entity3"], input_col="input")

Παράμετροι

'Ονομα Περιγραφή
labels
Απαραίτητο
Ένας πίνακαςσυμβολοσειρών που αντιπροσωπεύει το σύνολο των τύπων οντοτήτων που θα εξαχθούν από τις τιμές κειμένου στη στήλη εισαγωγής.
input_col
Απαραίτητο
Μια συμβολοσειρά που περιέχει το όνομα μιας υπάρχουσας στήλης με τιμές κειμένου εισαγωγής για σάρωση για τις προσαρμοσμένες οντότητες.
aifunc.ExtractLabel
Προαιρετικός
Ένας ή περισσότεροι ορισμοί ετικετών που περιγράφουν τα πεδία προς εξαγωγή. Για περισσότερες πληροφορίες, ανατρέξτε στον πίνακα Παράμετροι ExtractLabel.
error_col
Προαιρετικός
Μια συμβολοσειρά που περιέχει το όνομα μιας νέας στήλης για την αποθήκευση τυχόν σφαλμάτων OpenAI που προκύπτουν από την επεξεργασία κάθε γραμμής κειμένου εισαγωγής. Εάν δεν ορίσετε αυτήν την παράμετρο, δημιουργείται ένα προεπιλεγμένο όνομα για τη στήλη σφάλματος. Εάν μια γραμμή εισόδου δεν έχει σφάλματα, η τιμή σε αυτήν τη στήλη είναι null.

Παράμετροι ExtractLabel

'Ονομα Περιγραφή
label
Απαραίτητο
Μια συμβολοσειρά που αντιπροσωπεύει την οντότητα που θα εξαχθεί από τις τιμές κειμένου εισόδου.
description
Προαιρετικός
Μια συμβολοσειρά που προσθέτει επιπλέον περιβάλλον για το μοντέλο AI. Μπορεί να περιλαμβάνει απαιτήσεις, πλαίσιο ή οδηγίες που πρέπει να λάβει υπόψη η τεχνητή νοημοσύνη κατά την εκτέλεση της εξαγωγής.
max_items
Προαιρετικός
Ένας ακέραιος που καθορίζει τον μέγιστο αριθμό στοιχείων προς εξαγωγή για αυτήν την ετικέτα.
type
Προαιρετικός
Τύπος σχήματος JSON για την τιμή που έχει εξαχθεί. Οι υποστηριζόμενοι τύποι για αυτήν την κλάση περιλαμβάνουν string, number, integer, boolean, object, και array.
properties
Προαιρετικός
Περισσότερες ιδιότητες σχήματος JSON για τον τύπο ως λεξικό. Μπορεί να περιλαμβάνει υποστηριζόμενες ιδιότητες όπως "στοιχεία" για πίνακες, "ιδιότητες" για αντικείμενα, "απαρίθμηση" για τύπους απαρίθμησης και άλλα. Δείτε παράδειγμα χρήσης σε αυτό το άρθρο.
raw_col
Προαιρετικός
Μια συμβολοσειρά που ορίζει το όνομα της στήλης για την ακατέργαστη απόκριση LLM. Η ακατέργαστη απάντηση παρέχει μια λίστα ζευγών λεξικών για κάθε ετικέτα οντότητας, συμπεριλαμβανομένων των "reason" και "extraction_text".

Επιστρέφει

Η συνάρτηση επιστρέφει ένα Spark DataFrame με μια νέα στήλη για κάθε καθορισμένο τύπο οντότητας. Η στήλη ή οι στήλες περιέχουν τις οντότητες που έχουν εξαχθεί για κάθε γραμμή κειμένου εισόδου. Εάν η συνάρτηση προσδιορίζει περισσότερες από μία αντιστοιχίες για μια οντότητα, επιστρέφει μόνο μία από αυτές τις αντιστοιχίσεις. Εάν δεν βρεθεί αντιστοιχία, το αποτέλεσμα είναι null.

Ο προεπιλεγμένος τύπος επιστροφής είναι μια λίστα συμβολοσειρών για κάθε ετικέτα. Εάν οι χρήστες επιλέξουν να καθορίσουν διαφορετικό τύπο στη aifunc.ExtractLabel διαμόρφωση, όπως "type=integer", τότε η έξοδος θα είναι μια λίστα python int. Εάν οι χρήστες καθορίσουν "max_items=1" στη aifunc.ExtractLabel διαμόρφωση, τότε μόνο ένα στοιχείο του τύπου επιστρέφεται για αυτήν την ετικέτα.

Παράδειγμα

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tuscon, AZ, and works as a software engineer for Contoso.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

Αυτό το παράδειγμα κελιού κώδικα παρέχει την ακόλουθη έξοδο:

Στιγμιότυπο οθόνης που εμφανίζει ένα νέο πλαίσιο δεδομένων με τις στήλες