Κοινοποίηση μέσω


Μετασχηματισμός και εμπλουτισμός δεδομένων με συναρτήσεις AI

Οι λειτουργίες τεχνητής νοημοσύνης του Microsoft Fabric επιτρέπουν σε όλους τους επαγγελματίες των επιχειρήσεων (από προγραμματιστές έως αναλυτές) να μετασχηματίζουν και να εμπλουτίζουν τα εταιρικά τους δεδομένα χρησιμοποιώντας παραγωγικό AI.

Οι λειτουργίες AI χρησιμοποιούν κορυφαία στον κλάδο μεγάλα γλωσσικά μοντέλα (LLM) για σύνοψη, ταξινόμηση, δημιουργία κειμένου και πολλά άλλα. Με μία μόνο γραμμή κώδικα, μπορείτε:

  • ai.analyze_sentiment: Εντοπίστε τη συναισθηματική κατάσταση του κειμένου εισαγωγής.
  • ai.classify: Κατηγοριοποιήστε το κείμενο εισαγωγής σύμφωνα με τις ετικέτες σας.
  • ai.embed: Δημιουργήστε διανυσματικές ενσωματώσεις για κείμενο εισαγωγής.
  • ai.extract: Εξάγετε συγκεκριμένους τύπους πληροφοριών από κείμενο εισαγωγής (για παράδειγμα, τοποθεσίες ή ονόματα).
  • ai.fix_grammar: Διορθώστε την ορθογραφία, τη γραμματική και τα σημεία στίξης του κειμένου εισαγωγής.
  • ai.generate_response: Δημιουργήστε απαντήσεις με βάση τις δικές σας οδηγίες.
  • ai.similarity: Συγκρίνετε τη σημασία του κειμένου εισαγωγής με μία τιμή κειμένου ή με κείμενο σε άλλη στήλη.
  • ai.summarize: Λάβετε περιλήψεις του κειμένου εισαγωγής.
  • ai.translate: Μεταφράστε το κείμενο εισαγωγής σε άλλη γλώσσα.

Μπορείτε να ενσωματώσετε αυτές τις λειτουργίες ως μέρος των ροών εργασίας της επιστήμης δεδομένων και της μηχανικής δεδομένων, είτε εργάζεστε με panda είτε με Spark. Δεν υπάρχει λεπτομερής διαμόρφωση και πολύπλοκη διαχείριση υποδομής. Δεν χρειάζεστε καμία συγκεκριμένη τεχνική εμπειρογνωμοσύνη.

Prerequisites

Note

  • Οι λειτουργίες AI υποστηρίζονται στο Fabric Runtime 1.3 και νεότερες εκδόσεις.
  • Αν δεν διαμορφώσετε ένα διαφορετικό μοντέλο, οι λειτουργίες AI είναι προεπιλεγμένες σε gpt-4.1-mini. Μάθετε περισσότερα σχετικά με τις χρεώσεις και τα ποσοστά κατανάλωσης.
  • Αν και το υποκείμενο μοντέλο μπορεί να χειριστεί πολλές γλώσσες, οι περισσότερες από τις λειτουργίες AI είναι βελτιστοποιημένες για χρήση σε κείμενα στην αγγλική γλώσσα».

Μοντέλα και πάροχοι

Οι λειτουργίες AI υποστηρίζουν πλέον ευρύτερα μοντέλα και παρόχους πέρα από τα προεπιλεγμένα μοντέλα Azure OpenAI. Μπορείτε να διαμορφώσετε τις λειτουργίες AI ώστε να χρησιμοποιούν:

  • Μοντέλα Azure OpenAI
  • Πόροι Azure AI Foundry (συμπεριλαμβανομένων μοντέλων όπως το Claude και το LLaMA)

Η επιλογή μοντέλου και παρόχου μπορεί να διαμορφωθεί μέσω της διαμόρφωσης λειτουργιών AI. Για λεπτομέρειες σχετικά με τον τρόπο ρύθμισης και διαμόρφωσης διαφορετικών μοντέλων και παρόχων, ανατρέξτε στην τεκμηρίωση διαμόρφωσης για pandas και PySpark.

Γρήγορα αποτελέσματα με τις συναρτήσεις AI

Οι λειτουργίες AI μπορούν να χρησιμοποιηθούν με pandas (χρόνοι εκτέλεσης Python και PySpark) και με PySpark (χρόνος εκτέλεσης PySpark). Τα απαιτούμενα βήματα εγκατάστασης και εισαγωγής για το καθένα περιγράφονται στην επόμενη ενότητα, ακολουθούμενα από τις αντίστοιχες εντολές.

Απόδοση και ταυτοχρονισμός

Οι λειτουργίες AI εκτελούνται πλέον με αυξημένη προεπιλεγμένη ταυτόχρονη χρήση 200, επιτρέποντας ταχύτερη παράλληλη επεξεργασία των λειτουργιών AI. Μπορείτε να συντονίσετε τις ρυθμίσεις ταυτοχρονισμού ανά φόρτο εργασίας για να βελτιστοποιήσετε την απόδοση με βάση τις συγκεκριμένες απαιτήσεις σας. Για περισσότερες πληροφορίες σχετικά με τη διαμόρφωση της ταυτόχρονης εκτέλεσης και άλλων ρυθμίσεων που σχετίζονται με την απόδοση, ανατρέξτε στην τεκμηρίωση διαμόρφωσης για pandas και PySpark.

Εγκατάσταση εξαρτήσεων

  • Pandas (χρόνος εκτέλεσης Python)
    • synapseml_internal και synapseml_core whl απαιτείται εγκατάσταση (εντολές παρέχονται στο ακόλουθο κελί κώδικα)
    • openai Απαιτείται εγκατάσταση πακέτου (η εντολή παρέχεται στο ακόλουθο κελί κώδικα)
  • Pandas (χρόνος εκτέλεσης PySpark)
    • openai Απαιτείται εγκατάσταση πακέτου (η εντολή παρέχεται στο ακόλουθο κελί κώδικα)
  • PySpark (χρόνος εκτέλεσης PySpark)
    • Δεν απαιτείται εγκατάσταση
# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

Εισαγωγή απαιτούμενων βιβλιοθηκών

Το ακόλουθο κελί κώδικα εισάγει τη βιβλιοθήκη συναρτήσεων AI και τις εξαρτήσεις της.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Εφαρμογή λειτουργιών AI

Κάθε μία από τις παρακάτω λειτουργίες σάς επιτρέπει να καλέσετε το ενσωματωμένο τελικό σημείο AI στο Fabric για να μετασχηματίσετε και να εμπλουτίσετε τα δεδομένα με μία μόνο γραμμή κώδικα. Μπορείτε να χρησιμοποιήσετε συναρτήσεις AI για να αναλύσετε dataFrames pandas ή Spark DataFrames.

Tip

Μάθετε πώς μπορείτε να προσαρμόσετε τη διαμόρφωση των λειτουργιών AI.

Σύνθετη διαμόρφωση: Όταν χρησιμοποιείτε μοντέλα της οικογένειας gpt-5, μπορείτε να διαμορφώσετε σύνθετες επιλογές όπως reasoning_effort και verbosity. Δείτε τις σελίδες διαμόρφωσης για pandas και PySpark για λεπτομέρειες σχετικά με τον τρόπο ρύθμισης αυτών των επιλογών.

Εντοπισμός συναισθήματος με ai.analyze_sentiment

Η ai.analyze_sentiment συνάρτηση καλεί το AI για να προσδιορίσει εάν η συναισθηματική κατάσταση που εκφράζεται από το κείμενο εισόδου είναι θετική, αρνητική, μικτή ή ουδέτερη. Εάν η AI δεν μπορεί να κάνει αυτόν τον προσδιορισμό, η έξοδος θα μείνει κενή. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.analyze_sentiment με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.analyze_sentiment με το PySpark, δείτε αυτό το άρθρο.

Προαιρετικές παράμετροι

Η ai.analyze_sentiment συνάρτηση υποστηρίζει τώρα πρόσθετες προαιρετικές παραμέτρους που σας επιτρέπουν να προσαρμόσετε τη συμπεριφορά ανάλυσης συναισθήματος. Αυτές οι παράμετροι παρέχουν περισσότερο έλεγχο στον τρόπο εντοπισμού και αναφοράς του συναισθήματος. Για λεπτομέρειες σχετικά με τις διαθέσιμες παραμέτρους, τις περιγραφές τους και τις προεπιλεγμένες τιμές, ανατρέξτε στην τεκμηρίωση για συγκεκριμένες λειτουργίες για pandas και PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες

Κατηγοριοποίηση κειμένου με ai.classify

Η ai.classify συνάρτηση καλεί την AI για να κατηγοριοποιήσει το κείμενο εισόδου σύμφωνα με τις προσαρμοσμένες ετικέτες που επιλέγετε. Για περισσότερες πληροφορίες σχετικά με τη χρήση του ai.classify με πάντα, μεταβείτε σε αυτό το άρθρο. Για ai.classify με το PySpark, δείτε αυτό το άρθρο.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες

Δημιουργήστε διανυσματικές ενσωματώσεις με το ai.embed

Η ai.embed συνάρτηση καλεί την τεχνητή νοημοσύνη για τη δημιουργία διανυσματικών ενσωματώσεων για κείμενο εισαγωγής. Οι διανυσματικές ενσωματώσεις είναι αριθμητικές αναπαραστάσεις κειμένου που αποτυπώνουν σημασιολογικό νόημα, καθιστώντας τις χρήσιμες για αναζήτηση ομοιότητας, ροές εργασιών ανάκτησης και άλλες εργασίες μηχανικής εκμάθησης. Η διάσταση των διανυσμάτων ενσωμάτωσης εξαρτάται από το επιλεγμένο μοντέλο. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.embed με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.embed με το PySpark, δείτε αυτό το άρθρο.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες

Εξαγωγή οντοτήτων με ai.extract

Η συνάρτηση καλεί AI ai.extract για σάρωση κειμένου εισαγωγής και εξαγωγή συγκεκριμένων τύπων πληροφοριών που καθορίζονται από ετικέτες που επιλέγετε (για παράδειγμα, τοποθεσίες ή ονόματα). Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.extract με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.extract με το PySpark, δείτε αυτό το άρθρο.

Δομημένες ετικέτες

Η ai.extract συνάρτηση υποστηρίζει δομημένους ορισμούς ετικετών μέσω του σχήματος ExtractLabel. Μπορείτε να παρέχετε ετικέτες με δομημένους ορισμούς που περιλαμβάνουν όχι μόνο το όνομα της ετικέτας, αλλά και πληροφορίες και χαρακτηριστικά κειμένου. Αυτή η δομημένη προσέγγιση βελτιώνει τη συνέπεια εξαγωγής και επιτρέπει στη συνάρτηση να επιστρέφει αντίστοιχα δομημένες στήλες εξόδου. Για παράδειγμα, μπορείτε να καθορίσετε ετικέτες με πρόσθετα μεταδεδομένα για να καθοδηγήσετε τη διαδικασία εξαγωγής με μεγαλύτερη ακρίβεια. Δείτε τη λεπτομερή τεκμηρίωση για τα pandas και το PySpark για παραδείγματα χρήσης δομημένων ετικετών.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Στιγμιότυπο οθόνης που εμφανίζει ένα νέο πλαίσιο δεδομένων με τις στήλες

Διορθώστε τη γραμματική με ai.fix_grammar

Η ai.fix_grammar συνάρτηση καλεί το AI για να διορθώσει την ορθογραφία, τη γραμματική και τα σημεία στίξης του κειμένου εισόδου. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.fix_grammar με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.fix_grammar με το PySpark, δείτε αυτό το άρθρο.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Στιγμιότυπο οθόνης που εμφανίζει ένα πλαίσιο δεδομένων με μια στήλη

Απαντήστε σε προσαρμοσμένες προτροπές χρηστών με ai.generate_response

Η ai.generate_response συνάρτηση καλεί το AI για τη δημιουργία προσαρμοσμένου κειμένου βάσει των δικών σας οδηγιών. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.generate_response με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.generate_response με το PySpark, δείτε αυτό το άρθρο.

Προαιρετικές παράμετροι

Η ai.generate_response συνάρτηση υποστηρίζει τώρα μια response_format παράμετρο που σας επιτρέπει να ζητήσετε δομημένη έξοδο JSON. Μπορείτε να καθορίσετε response_format='json' τη λήψη απαντήσεων σε μορφή JSON. Επιπλέον, μπορείτε να παρέχετε ένα σχήμα JSON για την επιβολή μιας συγκεκριμένης δομής εξόδου, διασφαλίζοντας ότι η απόκριση που δημιουργείται συμμορφώνεται με το αναμενόμενο σχήμα δεδομένων σας. Αυτό είναι ιδιαίτερα χρήσιμο όταν χρειάζεστε προβλέψιμη, μηχανικά αναγνώσιμη έξοδο από τη λειτουργία AI. Για λεπτομερή παραδείγματα και μοτίβα χρήσης, ανατρέξτε στην τεκμηρίωση για τα pandas και το PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Στιγμιότυπο οθόνης που εμφανίζει ένα πλαίσιο δεδομένων με τις στήλες

Υπολογίστε την ομοιότητα με το ai.similarity

Η ai.similarity συνάρτηση συγκρίνει κάθε τιμή κειμένου εισόδου είτε με ένα κοινό κείμενο αναφοράς είτε με την αντίστοιχη τιμή σε μια άλλη στήλη (λειτουργία κατά ζεύγη). Οι τιμές της βαθμολογίας ομοιότητας εξόδου είναι σχετικές και μπορεί να κυμαίνονται από -1 (αντίθετα) έως 1 (πανομοιότυπες). Μια βαθμολογία δείχνει 0 ότι οι τιμές δεν σχετίζονται με το νόημα. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.similarity με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.similarity με το PySpark, δείτε αυτό το άρθρο.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες

Σύνοψη κειμένου με ai.summarize

Η ai.summarize συνάρτηση καλεί την AI για να δημιουργήσει συνόψεις κειμένου εισόδου (είτε τιμές από μία στήλη ενός DataFrame, είτε τιμές γραμμών σε όλες τις στήλες). Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.summarize με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.summarize με το PySpark, δείτε αυτό το άρθρο.

Προσαρμογή περιλήψεων με οδηγίες

Η ai.summarize συνάρτηση υποστηρίζει τώρα μια instructions παράμετρο που σας επιτρέπει να κατευθύνετε τον τόνο, το μήκος και την εστίαση των περιλήψεων που δημιουργούνται. Μπορείτε να παρέχετε προσαρμοσμένες οδηγίες για να καθοδηγήσετε τον τρόπο δημιουργίας της σύνοψης, όπως τον καθορισμό ενός συγκεκριμένου στυλ, κοινού-στόχου ή επιπέδου λεπτομέρειας. Όταν δεν παρέχονται οδηγίες, η συνάρτηση χρησιμοποιεί προεπιλεγμένη συμπεριφορά σύνοψης. Για παραδείγματα χρήσης της instructions παραμέτρου, δείτε τη λεπτομερή τεκμηρίωση για τα pandas και το PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Στιγμιότυπο οθόνης που εμφανίζει ένα πλαίσιο δεδομένων. Η στήλη «περιλήψεις» έχει μια σύνοψη μόνο της στήλης «περιγραφή», στην αντίστοιχη σειρά.

Μετάφραση κειμένου με το ai.translate

Η ai.translate συνάρτηση καλεί το AI για να μεταφράσει κείμενο εισόδου σε μια νέα γλώσσα της επιλογής σας. Για πιο λεπτομερείς οδηγίες σχετικά με τη χρήση του ai.translate με πάντα, ανατρέξτε σε αυτό το άρθρο. Για ai.translate με το PySpark, δείτε αυτό το άρθρο.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Στιγμιότυπο οθόνης ενός πλαισίου δεδομένων με στήλες

Δείτε στατιστικά στοιχεία χρήσης με το ai.stats

Οι συναρτήσεις Fabric AI παρέχουν έναν ενσωματωμένο τρόπο επιθεώρησης στατιστικών χρήσης και εκτέλεσης για οποιαδήποτε σειρά ή πλαίσιο δεδομένων που δημιουργείται από AI. Μπορείτε να αποκτήσετε πρόσβαση σε αυτές τις μετρήσεις καλώντας ai.stats το αποτέλεσμα που επιστρέφεται από μια συνάρτηση AI.

ai.stats επιστρέφει ένα DataFrame με τις ακόλουθες στήλες:

  • num_successful – Αριθμός σειρών που υποβλήθηκαν σε επιτυχή επεξεργασία από τη συνάρτηση AI.
  • num_exceptions – Αριθμός γραμμών που αντιμετώπισαν εξαίρεση κατά την εκτέλεση. Αυτές οι σειρές αναπαρίστανται ως πραγματώσεις του aifunc.ExceptionResult.
  • num_unevaluated – Αριθμός γραμμών που δεν υποβλήθηκαν σε επεξεργασία επειδή μια προηγούμενη εξαίρεση κατέστησε αδύνατη τη συνέχιση της αξιολόγησης. Αυτές οι σειρές είναι περιπτώσεις του aifunc. NotEvaluatedResult.
  • num_harmful – Αριθμός γραμμών που αποκλείονται από το φίλτρο περιεχομένου Azure OpenAI. Αυτές οι σειρές είναι πραγματώσεις του aifunc.FilterResult.
  • prompt_tokens – Συνολικός αριθμός διακριτικών εισόδου που χρησιμοποιούνται για την κλήση συνάρτησης AI.
  • completion_tokens – Συνολικός αριθμός διακριτικών εξόδου που δημιουργούνται από το μοντέλο.

Tip

Μπορείτε να καλέσετε ai.stats οποιαδήποτε σειρά ή DataFrame που επιστρέφεται από μια συνάρτηση AI. Αυτό μπορεί να σας βοηθήσει να παρακολουθείτε τη χρήση, να κατανοείτε μοτίβα σφαλμάτων και να παρακολουθείτε την κατανάλωση διακριτικών.