Κοινοποίηση μέσω


Χρησιμοποιήστε το ai.embed με το PySpark

Η ai.embed συνάρτηση χρησιμοποιεί γενετική τεχνητή νοημοσύνη για τη μετατροπή κειμένου σε διανυσματικές ενσωματώσεις. Αυτά τα διανύσματα επιτρέπουν στην τεχνητή νοημοσύνη να κατανοεί τις σχέσεις μεταξύ των κειμένων, ώστε να μπορείτε να αναζητάτε, να ομαδοποιείτε και να συγκρίνετε περιεχόμενο με βάση το νόημα και όχι την ακριβή διατύπωση. Με μία μόνο γραμμή κώδικα, μπορείτε να δημιουργήσετε διανυσματικές ενσωματώσεις από μια στήλη σε ένα DataFrame.

Σημείωμα

Επισκόπηση

Η ai.embed συνάρτηση είναι διαθέσιμη για Spark DataFrames. Πρέπει να καθορίσετε το όνομα μιας υπάρχουσας στήλης εισόδου ως παράμετρο.

Η συνάρτηση επιστρέφει ένα νέο DataFrame που περιλαμβάνει ενσωματώσεις για κάθε γραμμή κειμένου εισόδου, σε μια στήλη εξόδου.

Σύνταξη

df.ai.embed(input_col="col1", output_col="embed")

Παραμέτρους

Ονομασία Περιγραφή
input_col
Απαραίτητο
Μια συμβολοσειρά που περιέχει το όνομα μιας υπάρχουσας στήλης με τιμές κειμένου εισόδου που θα χρησιμοποιηθούν για τον υπολογισμό των ενσωματώσεων.
output_col
Προαιρετικές
Μια συμβολοσειρά που περιέχει το όνομα μιας νέας στήλης για την αποθήκευση υπολογιζόμενων ενσωματώσεων για κάθε γραμμή κειμένου εισόδου. Εάν δεν ορίσετε αυτήν την παράμετρο, δημιουργείται ένα προεπιλεγμένο όνομα για τη στήλη εξόδου.
error_col
Προαιρετικές
Μια συμβολοσειρά που περιέχει το όνομα μιας νέας στήλης που αποθηκεύει τυχόν σφάλματα OpenAI που προκύπτουν από την επεξεργασία κάθε γραμμής κειμένου εισαγωγής. Εάν δεν ορίσετε αυτήν την παράμετρο, δημιουργείται ένα προεπιλεγμένο όνομα για τη στήλη σφάλματος. Εάν μια γραμμή εισαγωγής δεν έχει σφάλματα, αυτή η στήλη έχει μια null τιμή.

Επιστροφές

Η συνάρτηση επιστρέφει ένα Spark DataFrame που περιλαμβάνει μια νέα στήλη που περιέχει δημιουργημένες ενσωματώσεις για κάθε γραμμή κειμένου εισόδου. Οι ενσωματώσεις είναι του τύπου [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Ο αριθμός των στοιχείων στο DenseVector εξαρτάται από τις διαστάσεις του μοντέλου ενσωμάτωσης, οι οποίες μπορούν να διαμορφωθούν σε συναρτήσεις AI

Παράδειγμα

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Αυτό το παράδειγμα κελιού κώδικα παρέχει την ακόλουθη έξοδο:

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες