Κοινοποίηση μέσω


Επιλέξτε μεθόδους αξιολόγησης

[Αυτό το άρθρο αποτελεί τεκμηρίωση προέκδοσης και ενδέχεται να αλλάξει.]

Κατά τη δημιουργία συνόλων δοκιμών, μπορείτε να επιλέξετε από διαφορετικές μεθόδους δοκιμής για να αξιολογήσετε τις απαντήσεις του εκπροσώπου σας: αντιστοίχιση κειμένου, ομοιότητα και ποιότητα. Κάθε μέθοδος δοκιμής έχει τα δικά της δυνατά σημεία και είναι κατάλληλη για διαφορετικούς τύπους αξιολογήσεων.

Μέθοδοι δοκιμής αντιστοίχισης κειμένου

Οι μέθοδοι δοκιμής αντιστοίχισης κειμένου συγκρίνουν τις αποκρίσεις του παράγοντα με τις αναμενόμενες αποκρίσεις που ορίζετε στο σύνολο δοκιμών. Υπάρχουν δύο δοκιμές αντιστοίχισης:

Η ακριβής αντιστοίχιση ελέγχει εάν η απάντηση του παράγοντα συμφωνεί ακριβώς με την αναμενόμενη απόκριση στη δοκιμή: χαρακτήρας για χαρακτήρα, λέξη προς λέξη. Αν είναι το ίδιο, περνάει. Εάν κάτι διαφέρει, αποτυγχάνει. Η ακριβής αντιστοίχιση είναι χρήσιμη για σύντομες, ακριβείς απαντήσεις όπως αριθμούς, κωδικούς ή σταθερές φράσεις. Δεν ταιριάζει σε απαντήσεις που οι χρήστες μπορούν να διατυπώσουν με πολλούς σωστούς τρόπους.

Η αντιστοίχιση λέξεων-κλειδιών ελέγχει εάν η απάντηση του εκπροσώπου περιέχει ορισμένες από τις λέξεις ή φράσεις από την αναμενόμενη απόκριση που ορίζετε. Αν συμβεί αυτό, θα περάσει. Αν όχι, αποτυγχάνει. Η αντιστοίχιση λέξεων-κλειδιών είναι χρήσιμη όταν μια απάντηση μπορεί να διατυπωθεί με διαφορετικούς σωστούς τρόπους, αλλά πρέπει να συμπεριληφθούν βασικοί όροι ή ιδέες στην απάντηση.

Μέθοδοι δοκιμής ομοιότητας

Η μέθοδος ελέγχου ομοιότητας συγκρίνει την ομοιότητα των αποκρίσεων του πράκτορα με τις αναμενόμενες αποκρίσεις που ορίζετε στο σύνολο δοκιμών σας. Είναι χρήσιμο όταν μια απάντηση μπορεί να διατυπωθεί με διαφορετικούς σωστούς τρόπους, αλλά η συνολική έννοια ή πρόθεση πρέπει ακόμα να προκύψει.

Χρησιμοποιεί ένα μετρικό συνημίτονου ομοιότητας για να αξιολογήσει πόσο παρόμοια είναι η απάντηση του παράγοντα με τη διατύπωση και τη σημασία της αναμενόμενης απόκρισης και καθορίζει μια βαθμολογία. Η βαθμολογία κυμαίνεται μεταξύ 0 και 1, όπου το 1 υποδεικνύει ότι η απάντηση συμφωνεί στενά και το 0 υποδεικνύει ότι δεν συμφωνεί. Μπορείτε να ορίσετε ένα όριο βαθμολογίας για να προσδιορίσετε τι αποτελεί μια βαθμολογία που είναι αποδεκτή ως απάντηση.

Μέθοδοι δοκιμής ποιότητας

Οι μέθοδοι δοκιμής ποιότητας σάς βοηθούν να αποφασίσετε εάν οι απαντήσεις του παράγοντά σας πληρούν τα πρότυπά σας. Αυτή η προσέγγιση εξασφαλίζει ότι τα αποτελέσματα είναι αξιόπιστα και εύκολο να εξηγηθούν.

Αυτές οι μέθοδοι χρησιμοποιούν ένα μεγάλο μοντέλο γλώσσας (LLM) για να αξιολογήσουν πόσο αποτελεσματικά ένας παράγοντας απαντά σε ερωτήσεις χρηστών. Είναι ιδιαίτερα χρήσιμες όταν δεν αναμένεται ακριβής απάντηση, παρέχοντας έναν ευέλικτο και επεκτάσιμο τρόπο αξιολόγησης των απαντήσεων με βάση τα έγγραφα που ανακτώνται και τη ροή συνομιλίας.

Οι μέθοδοι δοκιμής ποιότητας περιλαμβάνουν δύο μεθόδους δοκιμής:

Η γενική ποιότητα αξιολογεί τις απαντήσεις των παραγόντων. Χρησιμοποιεί αυτά τα βασικά κριτήρια και εφαρμόζει μια συνεπή προτροπή για να καθοδηγήσει τη βαθμολόγηση:

  • Συνάφεια: Σε ποιο βαθμό η απάντηση του παράγοντα αντιμετωπίζει το ερώτημα. Για παράδειγμα, η απάντηση του παράγοντα παραμένει στο θέμα και απαντά απευθείας στην ερώτηση;

  • Θεμελίωση: Σε ποιο βαθμό η απάντηση του παράγοντα βασίζεται στο παρεχόμενο περιβάλλον. Για παράδειγμα, η απάντηση του παράγοντα αναφέρεται ή βασίζεται στις πληροφορίες που δίνονται στο περιβάλλον, αντί να παρουσιάζει μη σχετιζόμενες ή μη υποστηριζόμενες πληροφορίες;

  • Πληρότητα: Σε ποιο βαθμό η απάντηση του παράγοντα παρέχει όλες τις απαραίτητες πληροφορίες. Για παράδειγμα, η απάντηση του παράγοντα καλύπτει όλες τις πτυχές της ερώτησης και παρέχει επαρκείς λεπτομέρειες;

  • Αποχή: Εάν ο παράγοντας προσπάθησε να απαντήσει στην ερώτηση.

Για να θεωρηθεί υψηλής ποιότητας, μια απάντηση πρέπει να πληροί όλα αυτά τα βασικά κριτήρια. Εάν δεν πληρούται ένα κριτήριο, η απάντηση επισημαίνεται για βελτίωση. Αυτή η μέθοδος βαθμολόγησης εξασφαλίζει ότι μόνο οι απαντήσεις που είναι τόσο ολοκληρωμένες όσο και καλά υποστηριζόμενες λαμβάνουν κορυφαίες βαθμολογίες. Αντίθετα, οι απαντήσεις που είναι ελλιπείς ή δεν διαθέτουν αποδεικτικά στοιχεία λαμβάνουν χαμηλότερες βαθμολογίες.

Η σύγκριση της έννοιας αξιολογεί πόσο καλά η απάντηση του παράγοντα αντικατοπτρίζει την προβλεπόμενη έννοια της αναμενόμενης απάντησης. Αντί να εστιάζει στην ακριβή διατύπωση, χρησιμοποιεί ομοιότητα πρόθεσης, που σημαίνει ότι συγκρίνει τις ιδέες και το νόημα πίσω από τις λέξεις, για να κρίνει πόσο στενά ευθυγραμμίζεται η απάντηση με αυτό που αναμενόταν.

Μπορείτε να ορίσετε ένα όριο βαθμολογίας για να προσδιορίσετε τι αποτελεί μια βαθμολογία που είναι αποδεκτή ως απάντηση. Η προεπιλεγμένη βαθμολογία επιτυχίας είναι 50. Η μέθοδος δοκιμής σύγκριση έννοιας είναι χρήσιμη όταν μια απάντηση μπορεί να διατυπωθεί με διαφορετικούς σωστούς τρόπους, αλλά η συνολική έννοια ή πρόθεση πρέπει ακόμα να προκύψει.

Όρια και συντελεστές επιτυχίας

Η επιτυχία μιας υπόθεσης δοκιμής εξαρτάται από τη μέθοδο δοκιμής που επιλέγετε και το όριο που ορίζετε για τη διαβίβαση των βαθμολογιών.

Κάθε μέθοδος δοκιμής, εκτός από την ακριβή αντιστοίχιση, παράγει μια αριθμητική βαθμολογία με βάση ένα σύνολο κριτηρίων αξιολόγησης. Αυτή η βαθμολογία αντικατοπτρίζει πόσο καλά η απάντηση του πράκτορα πληροί αυτά τα κριτήρια. Το όριο είναι η βαθμολογία αποκοπής που διαχωρίζει την επιτυχία από την αποτυχία. Μπορείτε να ορίσετε τις βαθμολογίες επιτυχίας για ομοιότητα και να συγκρίνετε τις υποθέσεις δοκιμής.

Η ακριβής αντιστοίχιση είναι μια αυστηρή μέθοδος δοκιμής που δεν παράγει αριθμητική βαθμολογία. Η απάντηση πρέπει να ταιριάζει ακριβώς για να περάσει. Επιλέγοντας το όριο για μια υπόθεση δοκιμής, αποφασίζετε πόσο αυστηρή ή επιεικής είναι η αξιολόγηση. Κάθε μέθοδος δοκιμής αξιολογεί την απάντηση του παράγοντα διαφορετικά, επομένως είναι σημαντικό να επιλέξετε αυτήν που ταιριάζει καλύτερα στα κριτήρια αξιολόγησής σας.