मूल्यांकन के तरीके चुनें

[यह आलेख रिलीज़-पूर्व दस्तावेज़ है और परिवर्तन के अधीन है.]

जब आप परीक्षण सेट बनाते हैं, तो अपने एजेंट की प्रतिक्रियाओं का मूल्यांकन करने के लिए विभिन्न परीक्षण विधियों में से चुनें। प्रत्येक परीक्षण पद्धति की अपनी ताकत होती है और यह विभिन्न प्रकार के मूल्यांकनों के लिए उपयुक्त होती है।

जाँचने का तरीका	माप	स्कोरिंग	कॉन्फ़िगरेशन
सामान्य गुणवत्ता	विशिष्ट गुणों के आधार पर टेस्ट केस का उत्तर कितना अच्छा है	100% में से प्राप्त स्कोर	कोई नहीं
अर्थ की तुलना करें	परीक्षण मामले के उत्तर का अर्थ अपेक्षित उत्तर से कितनी अच्छी तरह मेल खाता है	100% में से प्राप्त स्कोर	उत्तीर्ण स्कोर, अपेक्षित उत्तर
उपकरण का उपयोग	क्या परीक्षण मामले में अपेक्षित संसाधनों का उपयोग किया गया है	पास/असफल	अपेक्षित क्षमताएं
कीवर्ड मिलान	क्या परीक्षण मामले में सभी या किसी भी अपेक्षित कीवर्ड या वाक्यांश का उपयोग किया गया है	पास/असफल	अपेक्षित कीवर्ड या वाक्यांश
पाठ समानता	परीक्षण मामले के उत्तर का पाठ अपेक्षित उत्तर से कितनी अच्छी तरह मेल खाता है	100% में से प्राप्त स्कोर	उत्तीर्ण स्कोर, अपेक्षित उत्तर
सटीक मिलान	क्या परीक्षण मामले का उत्तर अपेक्षित उत्तर से बिल्कुल मेल खाता है	पास/असफल	अपेक्षित उत्तर
रिवाज़	वर्णित मानदंडों के अनुसार उत्तरों को लेबल करता है	पास/असफल	परीक्षण विवरण और लेबल विवरण

एक परीक्षण विधि जोड़ें

परीक्षण सेट बनाते या संपादित करते समय, परीक्षण विधि जोड़ें का चयन करें.
उन सभी विधियों का चयन करें जिनके साथ आप परीक्षण करना चाहते हैं, फिर ठीक चुनें। आप कई तरीके जोड़ सकते हैं।
1. कुछ तरीकों के लिए पास स्कोर की आवश्यकता होती है। पास स्कोर यह निर्धारित करता है कि कौन सा स्कोर पास या विफलता का परिणाम बनता है। स्कोर सेट करें, फिर ठीक चुनें।
2. कुछ परीक्षण विधियों के लिए अधिक मानदंडों की आवश्यकता होती है।
परीक्षण सेट में अपने परिवर्तनों को सहेजने के लिए सहेजें का चयन करें.

उस विधि के मापदंड को संपादित करने या उस विधि को हटाने के लिए किसी मौजूदा परीक्षण विधि का चयन करें.

सामान्य गुणवत्ता

सामान्य गुणवत्ता आपको यह तय करने में मदद करती है कि आपके एजेंट के जवाब आपके मानकों को पूरा करते हैं या नहीं। यह यह आकलन करने के लिए एक भाषा मॉडल का उपयोग करता है कि कोई एजेंट उपयोगकर्ता के सवालों का कितना प्रभावी ढंग से जवाब देता है।

सामान्य गुणवत्ता विशेष रूप से सहायक होती है जब कोई सटीक उत्तर अपेक्षित नहीं होता है। यह पुनर्प्राप्त दस्तावेज़ों और वार्तालाप प्रवाह के आधार पर प्रतिक्रियाओं का मूल्यांकन करने का एक लचीला और स्केलेबल तरीका प्रदान करता है।

यह इन प्रमुख मानदंडों का उपयोग करता है और स्कोरिंग का मार्गदर्शन करने के लिए एक सुसंगत संकेत लागू करता है:

प्रासंगिकता: एजेंट की प्रतिक्रिया किस हद तक प्रश्न को संबोधित करती है। उदाहरण के लिए, क्या एजेंट की प्रतिक्रिया विषय पर रहती है और सीधे प्रश्न का उत्तर देती है?
ग्राउंडेडनेस: एजेंट की प्रतिक्रिया किस हद तक प्रदान किए गए संदर्भ पर आधारित है। उदाहरण के लिए, क्या एजेंट की प्रतिक्रिया असंबंधित या असमर्थित जानकारी पेश करने के बजाय संदर्भ में दी गई जानकारी का संदर्भ देती है या उस पर भरोसा करती है?
पूर्णता: एजेंट की प्रतिक्रिया किस हद तक सभी आवश्यक जानकारी प्रदान करती है। उदाहरण के लिए, क्या एजेंट की प्रतिक्रिया प्रश्न के सभी पहलुओं को कवर करती है और पर्याप्त विवरण प्रदान करती है?
परहेज: क्या एजेंट ने प्रश्न का उत्तर देने का प्रयास किया।

उच्च गुणवत्ता पर विचार करने के लिए, एक प्रतिक्रिया को इन सभी प्रमुख मानदंडों को पूरा करना चाहिए। यदि एक मानदंड पूरा नहीं होता है, तो प्रतिक्रिया को सुधार के लिए चिह्नित किया जाता है। यह स्कोरिंग विधि सुनिश्चित करती है कि केवल वे प्रतिक्रियाएं जो पूर्ण और अच्छी तरह से समर्थित हैं, उन्हें शीर्ष अंक प्राप्त हों। इसके विपरीत, जो उत्तर अधूरे हैं या जिनमें सहायक साक्ष्य की कमी है, उन्हें कम अंक प्राप्त होते हैं।

परीक्षण विधियों को जोड़ते या संपादित करते समय, सामान्य गुणवत्ता का चयन करें. सभी परीक्षण सेट डिफ़ॉल्ट रूप से इस विधि से शुरू होते हैं।

सामान्य गुणवत्ता मूल्यांकन पूरा करने के लिए आपको परीक्षण मामलों में अपेक्षित उत्तर जोड़ने की आवश्यकता नहीं है।

अर्थ की तुलना करें

अर्थ की तुलना करें यह मूल्यांकन करता है कि एजेंट का उत्तर अपेक्षित प्रतिक्रिया के इच्छित अर्थ को कितनी अच्छी तरह दर्शाता है। सटीक शब्दों पर ध्यान केंद्रित करने के बजाय, यह इरादे की समानता का उपयोग करता है, जिसका अर्थ है कि यह शब्दों के पीछे के विचारों और अर्थ की तुलना करता है, यह तय करने के लिए कि प्रतिक्रिया आपकी अपेक्षा के साथ कितनी निकटता से मेल खाती है।

सामान्य गुणवत्ता की तरह, तुलना अर्थ विशेष रूप से सहायक होता है जब कोई सटीक उत्तर अपेक्षित नहीं होता है। यह पुनर्प्राप्त दस्तावेज़ों और वार्तालाप प्रवाह के आधार पर प्रतिक्रियाओं का मूल्यांकन करने का एक लचीला और स्केलेबल तरीका प्रदान करता है।

आप एक उत्तर के लिए पासिंग स्कोर क्या माना जाएगा, यह निर्धारित करने हेतु पासिंग स्कोर की सीमा सेट कर सकते हैं। डिफ़ॉल्ट उत्तीर्ण स्कोर 50 है। तुलना अर्थ परीक्षण विधि तब उपयोगी होती है जब किसी उत्तर को अलग-अलग सही तरीकों से व्यक्त किया जा सकता है, लेकिन समग्र अर्थ या इरादे को अभी भी आने की आवश्यकता है।

परीक्षण विधियों को जोड़ते या संपादित करते समय, अर्थ की तुलना करें का चयन करें.
इस विधि के लिए पास स्कोर सेट करें।
अपेक्षित उत्तर जोड़ें। अपेक्षित उत्तरों के बिना कोई भी परीक्षण मामला इस परीक्षण पद्धति के लिए एक अमान्य परिणाम उत्पन्न करता है।
1. एक परीक्षण मामले का चयन करें।
2. वह उत्तर जोड़ें जिसकी आप अपेक्षा करते हैं।
3. अपेक्षित उत्तर सहेजने के लिए लागू करें का चयन करें.
4. इस विधि का उपयोग करके उन सभी परीक्षण मामलों के लिए दोहराएं जिनका आप परीक्षण करना चाहते हैं।

उपकरण का उपयोग

उपकरण उपयोग परीक्षण करता है कि एजेंट ने रन प्रक्रिया के दौरान विशिष्ट उपकरण या विषयों को ट्रिगर किया है या नहीं। यदि ऐसा होता है, तो परिणाम को पास के रूप में चिह्नित किया जाता है। यदि ऐसा नहीं हुआ, तो परिणाम को असफल के रूप में चिह्नित किया जाता है।

परीक्षण विधियों को जोड़ते या संपादित करते समय, उपकरण का उपयोग करें का चयन करें.
अपेक्षित उपकरण या विषय जोड़ें। अपेक्षित उत्तरों के बिना कोई भी परीक्षण मामला इस परीक्षण पद्धति के लिए एक अमान्य परिणाम उत्पन्न करता है।
1. एक परीक्षण मामले का चयन करें। सभी परीक्षण मामलों के लिए समान अपेक्षित उपकरण और विषय जोड़ने के लिए, उपकरण उपयोग स्तंभ शीर्षक में संपादित करें चिह्न का चयन करें.
2. परीक्षण केस फलक संपादित करें में, उन उपकरणों का चयन करें जिनकी आप अपेक्षा करते हैं कि आपके एजेंट उस परीक्षण मामले के लिए उपयोग करें.
3. ठीक चुनें.
4. परिवर्तनों को सहेजने के लिए लागू करें का चयन करें.
5. उन सभी परीक्षण मामलों के लिए दोहराएं जिन्हें आप टूल उपयोग के लिए परीक्षण करना चाहते हैं।

कीवर्ड मिलान

कीवर्ड मिलान यह जांचता है कि एजेंट के उत्तर में आपके द्वारा परिभाषित अपेक्षित प्रतिक्रिया के कुछ या सभी शब्द या वाक्यांश शामिल हैं या नहीं. यदि ऐसा होता है, तो यह गुजर जाता है। यदि ऐसा नहीं होता है, तो यह विफल हो जाता है। कीवर्ड मिलान तब उपयोगी होता है जब किसी उत्तर को अलग-अलग सही तरीकों से वाक्यांशित किया जा सकता है, लेकिन मुख्य शब्दों या विचारों को अभी भी प्रतिक्रिया में शामिल करने की आवश्यकता होती है।

आप चुन सकते हैं कि पास के लिए किसी भी कीवर्ड या उन सभी की आवश्यकता है या नहीं। किसी को भी चुनने का मतलब है कि यदि कम से कम एक शब्द या वाक्यांश मेल खाता है, तो परीक्षण मामला पास हो जाता है। सभी को चुनने का मतलब है कि सभी अपेक्षित शब्द या वाक्यांश एक परीक्षण मामले को पारित करने के लिए मेल खाना चाहिए।

परीक्षण विधियां जोड़ते या संपादित करते समय, कीवर्ड मिलान का चयन करें.
चुनें कि किसी परीक्षण मामले का मिलान करने के लिए किसी यासभी कीवर्ड की आवश्यकता है या नहीं.
अपेक्षित कीवर्ड जोड़ें। अपेक्षित कीवर्ड के बिना कोई भी परीक्षण मामला इस परीक्षण विधि के लिए एक अमान्य परिणाम उत्पन्न करता है।
1. एक परीक्षण मामले का चयन करें।
2. परीक्षण मामला संपादित करें फलक में, वह कीवर्ड या वाक्यांश जोड़ें जिसकी आप अपेक्षा करते हैं कि उस मामले का उत्तर हो.
3. अधिक कीवर्ड या वाक्यांश जोड़ने के लिए + जोड़ें चुनें. किसी कीवर्ड या वाक्यांश को हटाने के लिए, मिटाएं आइकॉन चुनें.
4. अपेक्षित कीवर्ड सहेजने के लिए लागू करें चुनें.
5. उन सभी परीक्षण मामलों के लिए दोहराएं जिन्हें आप कीवर्ड मिलान के लिए परीक्षण करना चाहते हैं।

पाठ समानता

समानता परीक्षण विधि एजेंट की प्रतिक्रियाओं की समानता की तुलना उन अपेक्षित प्रतिक्रियाओं से करती है जिन्हें आप अपने परीक्षण सेट में परिभाषित करते हैं। यह तब उपयोगी होता है जब किसी उत्तर को अलग-अलग सही तरीकों से वाक्यांशित किया जा सकता है, लेकिन समग्र अर्थ या इरादे को अभी भी आने की आवश्यकता है।

यह निर्धारित करने के लिए कि एजेंट का उत्तर अपेक्षित प्रतिक्रिया के शब्दों और अर्थ के कितने समान है, यह कोसाइन समानता मीट्रिक का उपयोग करता है और एक स्कोर तय करता है। स्कोर 0 और 1 के बीच होता है, जहां 1 इंगित करता है कि उत्तर निकटता से मेल खाता है और 0 इंगित करता है कि यह नहीं है। आप एक उत्तर के लिए पासिंग स्कोर क्या माना जाएगा, यह निर्धारित करने हेतु पासिंग स्कोर की सीमा सेट कर सकते हैं।

परीक्षण विधियों को जोड़ते या संपादित करते समय, पाठ समानता का चयन करें.
इस विधि के लिए पास स्कोर सेट करें।
अपेक्षित उत्तर जोड़ें। अपेक्षित उत्तरों के बिना कोई भी परीक्षण मामला इस परीक्षण पद्धति के लिए एक अमान्य परिणाम उत्पन्न करता है।
1. एक परीक्षण मामले का चयन करें।
2. वह उत्तर जोड़ें जिसकी आप अपेक्षा करते हैं।
3. अपेक्षित उत्तर सहेजने के लिए लागू करें का चयन करें.
4. इस विधि का उपयोग करके उन सभी परीक्षण मामलों के लिए दोहराएं जिनका आप परीक्षण करना चाहते हैं।

सटीक मिलान

सटीक मिलान यह जांचता है कि एजेंट का उत्तर परीक्षण में अपेक्षित प्रतिक्रिया से बिल्कुल मेल खाता है या नहीं: चरित्र के लिए वर्ण, शब्द के लिए शब्द। यदि यह समान है, तो यह स्वीकृत होता है। अगर कुछ भी अलग है, तो वह विफल हो जाता है। सटीक मिलान छोटे, सटीक उत्तरों जैसे संख्याओं, कोडों या निश्चित वाक्यांशों के लिए उपयोगी है। यह उन उत्तरों के अनुरूप नहीं है जिन्हें लोग कई सही तरीकों से वाक्यांश दे सकते हैं।

परीक्षण विधियों को जोड़ते या संपादित करते समय, सटीक मिलान का चयन करें.
अपेक्षित उत्तर जोड़ें। अपेक्षित उत्तरों के बिना कोई भी परीक्षण मामला इस परीक्षण पद्धति के लिए एक अमान्य परिणाम उत्पन्न करता है।
1. एक परीक्षण मामले का चयन करें।
2. वह उत्तर जोड़ें जिसकी आप अपेक्षा करते हैं।
3. अपेक्षित उत्तर सहेजने के लिए लागू करें का चयन करें.
4. इस विधि का उपयोग करके उन सभी परीक्षण मामलों के लिए दोहराएं जिनका आप परीक्षण करना चाहते हैं।

रिवाज़

कस्टम एक अनुकूलन योग्य परीक्षण विधि है। यह आपको अपने स्वयं के मानदंडों का उपयोग करके एजेंट उत्तरों का परीक्षण और लेबल करने देता है। उदाहरण के लिए, आप एचआर एजेंट के लिए एक अनुपालन परीक्षण बना सकते हैं ताकि परीक्षण उत्तरों को एचआर अनुपालन के आपके विवरण के अनुरूप या गैर-अनुपालन के रूप में लेबल किया जा सके।

आपके कॉन्फ़िगर करने के लिए कस्टम परीक्षण में दो घटक होते हैं:

मूल्यांकन निर्देश: उस लक्ष्य का वर्णन करता है जिसे आप इस परीक्षण के साथ पूरा करना चाहते हैं। आप क्या चाहते हैं कि परीक्षण आपके एजेंट के उत्तरों के बारे में पता लगाए?

अच्छे मूल्यांकन निर्देश चाहिए:

लक्ष्य उन्मुख बनें।
केवल अनुमत वर्णों का उपयोग करें।
संगठन के लिए बुलेट पॉइंट और शीर्षकों का उपयोग करें।

उदाहरण के लिए:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

लेबल: कस्टम परीक्षण का उपयोग करके प्रत्येक उत्तर को असाइन किए गए परिणाम का वर्णन करता है। लेबल में पास/फेल असाइनमेंट भी होते हैं, जो इस परीक्षण विधि के लिए परीक्षण सेट पास दर की ओर गिने जाते हैं।

लेबल का एक नाम और एक विवरण होता है। एक अच्छा वर्णन:

संक्षिप्त है।
इसमें वे विशेषताएँ शामिल हैं जिन्हें आप मिलान करने वाले उत्तरों में खोज रहे हैं।

लेबल के लिए एक रणनीति यह है कि दो हों: एक लेबल उन उत्तरों के लिए है जो उन मानदंडों को सफलतापूर्वक पूरा करते हैं जिन्हें आप ढूंढ रहे हैं, और दूसरा लेबल उन उत्तरों के लिए है जो नहीं करते। उदाहरण के लिए, एक मानव संसाधन नीति अनुपालन कस्टम परीक्षण में लेबल के रूप में अनुपालन और गैर-अनुपालन हो सकता है।

परीक्षण विधियों को जोड़ते या संपादित करते समय, कस्टम का चयन करें.
इस कस्टम परीक्षण के लिए एक नाम दर्ज करें.
मूल्यांकन निर्देश जोड़ें।
दो या दो से अधिक लेबल जोड़ें. प्रत्येक लेबल का एक नाम और एक विवरण होता है।

अधिक लेबल जोड़ने के लिए, लेबल जोड़ें का चयन करें.

लेबल शीर्षक केवल अक्षरों, संख्याओं, स्थान, हाइफ़न, अंडरस्कोर, फॉरवर्ड स्लैश , एम्परसैंड , प्लस साइन और अवधि का उपयोग कर सकते हैं।
प्रत्येक लेबल के लिए पास या असफल परिणाम सेट करें।
ठीक चुनें.

प्रतिक्रिया

क्या यह पेज मददगार था?

Last updated on 2026-03-05