Κοινές προσεγγίσεις αξιολόγησης

Όταν δημιουργείτε πράκτορες τεχνητής νοημοσύνης, χρειάζεστε αξιόπιστους τρόπους για να δοκιμάσετε και να μετρήσετε την απόδοσή τους. Οι στρατηγικές αξιολόγησης σάς βοηθούν να δημιουργήσετε δεδομένα δοκιμών, να βαθμολογήσετε τις απαντήσεις των πρακτόρων και να λάβετε τεκμηριωμένες αποφάσεις σχετικά με την ποιότητα του αντιπροσώπου σας.

Αυτό το άρθρο περιγράφει κοινές προσεγγίσεις αξιολόγησης και πότε πρέπει να χρησιμοποιείται η καθεμία. Για να βελτιστοποιήσετε το κόστος, την απόδοση και την ποιότητα, συνδυάστε πολλαπλές προσεγγίσεις και πλατφόρμες αντί να βασίζεστε σε μία μόνο μέθοδο αξιολόγησης.

Δημιουργία ζευγών αιτήματος-απόκρισης για βαθμολόγηση

Αυτή η ενότητα περιγράφει τρεις κοινές προσεγγίσεις για τη δημιουργία ζευγών αιτήματος-απόκρισης για την προσομοίωση αλληλεπιδράσεων στον πραγματικό κόσμο: ηχώ, ιστορική επανάληψη και συνθετικές προσωπικότητες. Κάθε προσέγγιση έχει τα δικά της πλεονεκτήματα και περιορισμούς, καθιστώντας τις κατάλληλες για δοκιμές σε διάφορα σενάρια.

Ηχώ

Μια συνομιλία αντιπροσώπου αναπαράγει μια στατική λίστα προτροπών πολλαπλών στροφών που αντιστοιχίζονται σε ένα σενάριο, λέξη προς λέξη.

Πλεονεκτήματα: Χαμηλό κόστος. Παρέχει δίκαιες συγκρίσεις όταν αλλάζετε μόνο μία πτυχή ενός εκπροσώπου, όπως επαυξητικές αναβαθμίσεις μοντέλου ή αλλαγές μεμονωμένου εργαλείου.

Μειονεκτήματα: Επειδή η αξιολόγηση χρησιμοποιεί μια στατική λίστα προτροπών, δεν μπορεί να προσαρμοστεί σε διαφορετικές απαντήσεις που παρέχουν οι πράκτορες κατά τη διάρκεια της συνομιλίας. Οι μεταγενέστερες προτροπές ενδέχεται να μην σχετίζονται με το τρέχον περιβάλλον συνομιλίας.

Ιδανικό για: Σενάρια μονής στροφής και ντετερμινιστικούς ελέγχους. Χρησιμοποιήστε αυτήν τη μέθοδο για να ελέγξετε εάν οι παραπομπές εμφανίζονται σωστά, εάν η κλήση εργαλείου ενεργοποιείται σωστά και για απλές συνομιλίες όπου το πλαίσιο δεν προκαλεί απόκλιση.

Παραδείγματα σεναρίων που λειτουργούν καλά:

  • Στροφή 1: Μεταφόρτωση εγγράφου (δυαδικός έλεγχος επιτυχίας ή αποτυχίας)
  • Γύρος 1: Δημιουργήστε μια εικόνα για αυτό το περιεχόμενο (έλεγχος ομοιότητας)
  • Στροφή 2: Τώρα δημιουργήστε μια λεζάντα. (έλεγχος ομοιότητας)

Ιστορική επανάληψη

Αξιολογήστε κάθε στροφή στο πλαίσιο προηγούμενων προτροπών και απαντήσεων για κάθε αίτημα.

Πλεονεκτήματα: Επιλύει εν μέρει το πρόβλημα της απόκλισης σε συνομιλίες πολλαπλών στροφών, προσδιορίζοντας πού και πόσο αποκλίνει κάθε στροφή από την ιδανική διαδρομή.

Μειονεκτήματα: Ακόμα δεν μπορεί να χειριστεί δυναμικές συνομιλίες πολλαπλών στροφών, όπως η εκμάθηση, ή να λάβει υπόψη τις δυναμικές αλλαγές RAG (Retrieval Augmented Generation) (για παράδειγμα, αναζήτηση στον ιστό).

Ιδανικό για: Σύγκριση θεραπειών ή αλλαγών μοντέλου για την κατανόηση της απόκλισης από την αρχική συμπεριφορά σε κάθε στροφή.

Συνθετικές περσόνες (βάσει σεναρίου)

Ένας άνθρωπος ή παράγοντας δημιουργεί μια συνομιλία σε πραγματικό χρόνο με βάση ένα σενάριο και μια περσόνα.

Πλεονεκτήματα: Μπορείτε να αξιολογήσετε δυναμικά πολύπλοκα σενάρια (για παράδειγμα, να ενεργήσετε ως δάσκαλος).

Μειονεκτήματα: Η ακρίβεια βαθμολόγησης των απαντήσεων απαιτεί αποχρώσεις και πρέπει να λάβετε υπόψη το κόστος ενός γλωσσικού μοντέλου ή ενός ανθρώπινου ελεγκτή.

Βαθμολόγηση των απαντήσεων

Αφού καταγράψετε τα ζεύγη αιτήματος-απόκρισης, βαθμολογήστε τη συνολική ποιότητα και απόδοση του λειτουργικού συστήματος. Οι συνήθεις προσεγγίσεις βαθμολόγησης περιλαμβάνουν βαθμολογητές που βασίζονται σε κώδικα, γλωσσικά μοντέλα ως κριτές και ανθρώπινους βαθμολογητές.

Βαθμολογητές βασισμένοι σε κώδικα

Παραδείγματα: Regex, δυαδική επιτυχία-αποτυχία, δοκιμή μονάδας, υπολογισμένη ομοιότητα διανύσματος, με βάση την τηλεμετρία (απόδοση, χωρητικότητα, κόστος).

Πλεονεκτήματα: Υπάρχουν ώριμες λύσεις και πλαίσια. Για παράδειγμα, αγωγοί δοκιμής regex, lint και UX. Μπορείτε εύκολα να επαληθεύσετε ντετερμινιστικούς ελέγχους.

Μειονεκτήματα: Είναι δύσκολο να αξιολογηθούν με ακρίβεια οι αποχρώσεις ή οι ποιοτικές πτυχές ενός πράκτορα, όπως ο τόνος και η ακρίβεια.

Το γλωσσικό μοντέλο ως κριτής

Πλεονεκτήματα: Επιτρέπει δοκιμές βάσει σεναρίων σε κλίμακα. Αρκετά ευέλικτο ώστε να κωδικοποιεί ένα ευρύ φάσμα προτιμήσεων των χρηστών.

Μειονεκτήματα: Η υπερβολική εξάρτηση μόνο από την αξιολόγηση της βάσης του γλωσσικού μοντέλου ή από ένα περιορισμένο σύνολο μοντέλων και δεδομένων γείωσης μπορεί να φέρει εντροπία στη διαδικασία αξιολόγησης.

Ανθρώπινοι αξιολογητές

Πλεονεκτήματα: Παρέχει την καλύτερη ποιοτική αξιολόγηση.

Μειονεκτήματα: Αργό και ακριβό. Απαιτεί από τους ειδικούς να αφιερώνουν χρόνο μακριά από τις καθημερινές τους δουλειές.

Μετατροπή των αποτελεσμάτων της αξιολόγησης σε αποφάσεις

Οι πράκτορες διαταράσσουν τα υπάρχοντα πλαίσια σκοπιμότητας και απόδοσης επένδυσης (ROI) καθώς η σκέψη λύσεων εξελίσσεται προς έννοιες πολλαπλών πρακτόρων, Agent 365 ή ψηφιακών εργαζομένων. Εξετάστε τους ακόλουθους παράγοντες:

  • Η μη ντετερμινιστική φύση των γλωσσικών μοντέλων απαιτεί μια μετατόπιση από τα στατικά κριτήρια επιτυχίας επιτυχίας ή αποτυχίας και τις μετρήσεις που βασίζονται σε τεστ μονάδας σε αξιολογήσεις βάσει ποσοστών.

  • Η απόδοση επένδυσης (ROI) για έναν πράκτορα περιλαμβάνει αντίκτυπο πέρα από μια αυτόνομη λύση ή μια μεμονωμένη ροή διεργασίας, καθώς τα αρθρωτά εργαλεία (MCP) ή τα οικοσυστήματα πολλαπλών πρακτόρων Agent2Agent (A2A) κλιμακώνονται πέρα από μια μεμονωμένη περίπτωση χρήσης.

Οι ακόλουθες ενότητες περιγράφουν τις βέλτιστες πρακτικές για τη μετατροπή των αποτελεσμάτων αξιολόγησης σε τεκμηριωμένες αποφάσεις σχετικά με την αρχιτεκτονική και τη στρατηγική ανάπτυξης του πράκτορα σας.

Καθιέρωση μετρήσεων αξιολόγησης

Καθιερώστε μια βασική μέτρηση της επιτυχίας του υπάρχοντος συστήματος, ακόμα κι αν είναι χειροκίνητη. Για παράδειγμα, η δρομολόγηση δελτίων με υπάρχοντες παρόχους υποστήριξης δεν έχει ποσοστό επιτυχίας 100% ακόμη και όταν χρησιμοποιούνται άνθρωποι ή αυτοματοποίηση διαδικασιών.

Οι μετρήσεις αξιολόγησης πρέπει να είναι συγκεκριμένες για το επιχειρηματικό αποτέλεσμα. Για παράδειγμα, κατά την αξιολόγηση μιας λύσης δρομολόγησης δελτίων, αξιολογήστε τόσο το χρόνο έως την επίλυση (TTR) όσο και την ακρίβεια δρομολόγησης για να δώσετε προτεραιότητα στις ανταλλαγές μεταξύ των αρχιτεκτονικών. Μια λύση μπορεί να προσφέρει μεγαλύτερη ακρίβεια με μεγαλύτερο TTR, το οποίο μπορεί να είναι λιγότερο επιθυμητό από μια ταχύτερη αλλά ελαφρώς λιγότερο ακριβή εναλλακτική λύση.

Πριν δημιουργήσετε οποιαδήποτε λύση, ολοκληρώστε μια αξιολόγηση απόδειξης ιδέας του μοντέλου γλώσσας, του API ή του τύπου πράκτορα. Αυτή η αξιολόγηση σάς βοηθά να κατανοήσετε εάν η προτεινόμενη λύση αυξάνει το βασικό ποσοστό επιτυχίας κατά ένα στατιστικά σημαντικό ποσοστό ή εάν παρέχει ένα ισοδύναμο ποσοστό επιτυχίας αξιόπιστα με εξοικονόμηση χρόνου ή κόστους.

Απομακρυνθείτε από τις σειριακές ροές ανάπτυξης

Οι προσεγγίσεις παλαιού τύπου για τους πράκτορες κτιρίων χρησιμοποιούν ένα διαδοχικό ή σειριακό μοντέλο σκέψης. Αυτό το μοντέλο οδηγεί συχνά σε αδιέξοδα. Η έννοια της «αναβάθμισης» πρακτόρων από δηλωτικούς πράκτορες σε προσαρμοσμένους πράκτορες σε πράκτορες «προ-κώδικα» υποστηρίζει αυτό το μοντέλο σκέψης. Είναι διαδοχικό και σειριακό στη φύση του.

Αυτή η προσέγγιση δημιουργεί την αντίληψη ενός αδιεξόδου ή παλινδρόμησης κατά την «αναβάθμιση» ενός πράκτορα, παρόλο που οι υποκείμενοι ενορχηστρωτές και τα γλωσσικά μοντέλα είναι διαφορετικά. Η αξιολόγηση των κριτηρίων επιτυχίας με αυτόν τον τρόπο δεν λαμβάνει υπόψη την πολυμεταβλητή φύση των λύσεων πρακτόρων.

Όταν ερμηνεύετε τα αποτελέσματα της αξιολόγησης, αντισταθείτε στην παρόρμηση να επιλέξετε μια μέση ή χαμηλή βαθμολογία τριβής όπως ένα διάγραμμα ραντάρ. Επιλέξτε πράκτορες με βάση την ικανότητά τους να μεροληπτούν υπέρ μιας ή δύο συγκεκριμένων ιδιοτήτων που απαιτούνται για την επιτυχία.

Στο παρακάτω παράδειγμα, παρόλο που το διάγραμμα ραντάρ υποδηλώνει ότι η Λύση Α είναι η καλύτερη επιλογή επειδή καλύπτει μεγαλύτερη επιφάνεια, για μια λύση HR η Λύση Β παράγει πιο συμβατά αποτελέσματα. Η λύση Β είναι η καλύτερη επιλογή όταν ο όγκος αιτημάτων και η επιχειρηματική προτεραιότητα (κινήσεις πωλήσεων) δεν είναι σημαντικοί παράγοντες επιτυχίας.

Διάγραμμα ενός διαγράμματος ραντάρ που συγκρίνει τη Λύση Α και τη Λύση Β ως προς το κόστος, τον όγκο αιτήσεων, την πληρότητα, την επιχειρηματική προτεραιότητα και την ποιότητα.

Χρησιμοποιήστε απεικονίσεις υψηλής τριβής, όπως γραφήματα στηλών ή πλαίσια αποφάσεων, για να επισημάνετε περαιτέρω τις διαστάσεις που είναι πιο κρίσιμες για την επιτυχία για μια συγκεκριμένη περίπτωση χρήσης. Αυτά τα εργαλεία διευκρινίζουν πότε πρέπει να δίνεται προτεραιότητα στη συνάφεια αναζήτησης έναντι της ανάκλησης ή στο χρόνο απόκρισης, στο μέγεθος του περιβάλλοντος, στην απόδοση έναντι του κόστους και σε παρόμοιες εκτιμήσεις.

Σημείωμα

Οι υβριδικές προσεγγίσεις αξιολόγησης όπου οι ανθρώπινοι βαθμολογητές ελέγχουν και βελτιώνουν περαιτέρω τη συλλογιστική των κριτών του γλωσσικού μοντέλου μπορούν να προσφέρουν οφέλη και από τις δύο προσεγγίσεις, μειώνοντας παράλληλα τους ατομικούς περιορισμούς.

Δημιουργία σχεδίου δοκιμής

Τα κριτήρια αξιολόγησης και τα αποτελέσματα διαφέρουν ανάλογα με την πλατφόρμα και τη λύση. Για καθοδήγηση σχετικά με τη δημιουργία σχεδίου δοκιμής, συμβουλευτείτε τους ακόλουθους πόρους: