Feedback krijgen over de kwaliteit van een agentische toepassing
Belangrijk
Deze functie is beschikbaar als openbare preview.
In dit artikel leest u hoe u de Databricks-beoordelings-app gebruikt om feedback van menselijke revisoren te verzamelen over de kwaliteit van uw agentische toepassing. Hierin worden de volgende zaken behandeld:
- De beoordelings-app implementeren.
- Hoe revisoren de app gebruiken om feedback te geven over de reacties van de agentische toepassing.
- Hoe experts vastgelegde chats kunnen bekijken om suggesties te geven voor verbetering en andere feedback met behulp van de app.
Wat gebeurt er in een menselijke evaluatie?
De Databricks-beoordelings-app faseert de LLM in een omgeving waar deskundige belanghebbenden met de app kunnen communiceren, met andere woorden een gesprek voeren, vragen stellen, feedback geven, enzovoort. De beoordelings-app registreert alle vragen, antwoorden en feedback in een deductietabel, zodat u de prestaties van de LLM verder kunt analyseren. Op deze manier helpt de beoordelings-app ervoor te zorgen dat de kwaliteit en veiligheid van de antwoorden die uw toepassing biedt.
Belanghebbenden kunnen chatten met de toepassingsbot en feedback geven over deze gesprekken, of feedback geven over historische logboeken, gecureerde traceringen of agentuitvoer.
Vereisten
Deductietabellen moeten zijn ingeschakeld op het eindpunt dat de agent bedient.
Elke menselijke revisor moet toegang hebben tot de werkruimte van de beoordelings-app of worden gesynchroniseerd met uw Databricks-account met SCIM. Zie de volgende sectie, Machtigingen instellen voor het gebruik van de beoordelings-app.
Ontwikkelaars moeten de
databricks-agents
SDK installeren om machtigingen in te stellen en de beoordelings-app te configureren.%pip install databricks-agents dbutils.library.restartPython()
Machtigingen instellen voor het gebruik van de beoordelings-app
Notitie
Menselijke revisoren hebben geen toegang tot de werkruimte nodig om de beoordelings-app te gebruiken.
U kunt toegang tot de beoordelings-app verlenen aan elke gebruiker in uw Databricks-account, zelfs als deze geen toegang heeft tot de werkruimte die de beoordelings-app bevat.
- Voor gebruikers die geen toegang hebben tot de werkruimte, gebruikt een accountbeheerder SCIM-inrichting op accountniveau om gebruikers en groepen automatisch te synchroniseren van uw id-provider naar uw Azure Databricks-account. U kunt deze gebruikers en groepen ook handmatig registreren om ze toegang te geven wanneer u identiteiten instelt in Databricks. Zie Gebruikers en groepen synchroniseren vanuit Microsoft Entra-id.
- Voor gebruikers die al toegang hebben tot de werkruimte die de beoordelings-app bevat, is er geen extra configuratie vereist.
In het volgende codevoorbeeld ziet u hoe u gebruikers toestemming geeft voor de beoordelings-app voor een agent. De users
parameter gebruikt een lijst met e-mailadressen.
from databricks import agents
# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)
Als u een chatlogboek wilt bekijken, moet een gebruiker over de CAN_REVIEW
machtiging beschikken.
De beoordelings-app implementeren
Wanneer u een agent implementeert met behulp van agents.deploy()
, wordt de beoordelings-app automatisch ingeschakeld en geïmplementeerd. De uitvoer van de opdracht toont de URL voor de beoordelings-app. Zie Een agent implementeren voor een generatieve AI-toepassing voor informatie over het implementeren van een agent.
Als u de koppeling naar de implementatie kwijtraakt, kunt u deze vinden met behulp van list_deployments()
.
from databricks import agents
deployments = agents.list_deployments()
deployments
App-gebruikersinterface controleren
Klik op de opgegeven URL om de beoordelings-app te openen. De gebruikersinterface van de beoordelings-app heeft drie tabbladen in de linkerzijbalk:
- Instructies geeft instructies weer voor de revisor. Zie Instructies voor revisoren opgeven.
- Chats om logboeken weer te geven van de interacties van revisoren met de app die experts kunnen evalueren. Zie Expert review of logs from other user's interactions with the app.
- Test de bot laat revisoren chatten met de app en beoordelingen van de antwoorden verzenden. Zie Chatten met de app en beoordelingen verzenden.
Wanneer u de beoordelings-app opent, wordt de pagina met instructies weergegeven.
- Als u wilt chatten met de bot, klikt u op Controleren starten of selecteert u De bot testen in de zijbalk aan de linkerkant. Zie Chatten met de app en beoordelingen indienen voor meer informatie.
- Als u chatlogboeken wilt bekijken die beschikbaar zijn gesteld voor uw beoordeling, selecteert u Chats die u wilt controleren in de zijbalk. Zie De deskundige beoordeling van logboeken van interacties van andere gebruikers met de app voor meer informatie. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren voor meer informatie over het beschikbaar maken van chatlogboeken vanuit de beoordelings-app.
Geef instructies aan revisoren
Als u aangepaste tekst wilt opgeven voor de instructies die voor revisoren worden weergegeven, gebruikt u de volgende code:
from databricks import agents
agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)
Chatten met de app en beoordelingen verzenden
Chatten met de app en beoordelingen verzenden:
Klik op De bot testen in de linkerzijbalk.
Typ uw vraag in het vak en druk op Return of Enter op het toetsenbord of klik op de pijl in het vak. De app geeft het antwoord weer op uw vraag en de bronnen die de app heeft gebruikt om het antwoord te vinden.
Controleer het antwoord van de app en selecteer Ja, Nee of ik weet het niet.
De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.
U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng uw wijzigingen aan in het dialoogvenster en klikt u op Opslaan, zoals wordt weergegeven in de volgende video.
Klik op Gereed om uw feedback op te slaan.
Blijf vragen stellen om aanvullende feedback te geven.
In het volgende diagram ziet u deze werkstroom.
- Met behulp van de beoordelings-app chatten revisoren met de agentische toepassing.
- Met behulp van de beoordelings-app geeft revisor feedback over reacties op toepassingen.
- Alle aanvragen, antwoorden en feedback worden vastgelegd in deductietabellen.
Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren
Wanneer een gebruiker communiceert met de app met behulp van de REST API of de beoordelings-app, worden alle aanvragen, antwoorden en aanvullende feedback opgeslagen in deductietabellen. De deductietabellen bevinden zich in dezelfde Unity Catalog-catalogus en hetzelfde schema waarin het model is geregistreerd en de naam <model_name>_payload
, <model_name>_payload_assessment_logs
en <model_name>_payload_request_logs
. Zie Voor meer informatie over deze tabellen, inclusief schema's, verbeterde deductietabellen.
Als u deze logboeken wilt laden in de beoordelings-app voor evaluatie door deskundige revisoren, moet u eerst de request_id
beoordelingen request_id
hiervoor als volgt vinden en inschakelen:
Zoek de
request_id
s die moeten worden gecontroleerd vanuit de<model_name>_payload_request_logs
deductietabel. De deductietabel bevindt zich in dezelfde Unity Catalog-catalogus en hetzelfde schema waarin het model is geregistreerd.Gebruik code die vergelijkbaar is met de volgende code om de controlelogboeken in de beoordelings-app te laden:
from databricks import agents agents.enable_trace_reviews( model_name=model_fqn, request_ids=[ "52ee973e-0689-4db1-bd05-90d60f94e79f", "1b203587-7333-4721-b0d5-bba161e4643a", "e68451f4-8e7b-4bfc-998e-4bda66992809", ], )
De resultaatcel bevat een koppeling naar de beoordelings-app met de geselecteerde logboeken die ter beoordeling zijn geladen.
Deskundige beoordeling van logboeken van interacties van andere gebruikers met de app
Als u logboeken van eerdere chats wilt bekijken, moeten de logboeken zijn ingeschakeld voor controle. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren.
Selecteer in de linkerzijbalk van de beoordelings-app Chats die u wilt controleren. De ingeschakelde aanvragen worden weergegeven.
Klik op een aanvraag om deze weer te geven voor revisie.
Controleer de aanvraag en het antwoord. In de app worden ook de bronnen weergegeven die worden gebruikt ter referentie. U kunt hierop klikken om de verwijzing te bekijken en feedback te geven over de relevantie van de bron.
Als u feedback wilt geven over de kwaliteit van het antwoord, selecteert u Ja, Nee of ik weet het niet.
De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.
U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng de wijzigingen aan in het dialoogvenster en klikt u op Opslaan. Zie Chatten met de app en beoordelingen indienen voor een video waarin het proces wordt weergegeven.
Klik op Gereed om uw feedback op te slaan.
In het volgende diagram ziet u deze werkstroom.
- Met behulp van de beoordelings-app of aangepaste app chatten revisoren met de agentische toepassing.
- Alle aanvragen en antwoorden worden vastgelegd in deductietabellen.
- Toepassingsontwikkelaar gebruikt
enable_trace_reviews([request_id])
(waarrequest_id
is van de deductietabel<model_name>_payload_request_logs
) om chatlogboeken te posten om de app te controleren. - Met behulp van de beoordelings-app kunt u logboeken van experts beoordelen en feedback geven. Feedback van experts wordt vastgelegd in deductietabellen.
Notitie
Als Azure Storage Firewall is ingeschakeld, neemt u contact op met uw Azure Databricks-accountteam om deductietabellen voor uw eindpunten in te schakelen.
Gebruiken mlflow.evaluate()
in de tabel met aanvraaglogboeken
In het volgende notebook ziet u hoe u de logboeken van de beoordelings-app gebruikt als invoer voor een evaluatieuitvoering met behulp van mlflow.evaluate()
.