Delen via


Feedback krijgen over de kwaliteit van een agentische toepassing

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel leest u hoe u de Databricks-beoordelings-app gebruikt om feedback van menselijke revisoren te verzamelen over de kwaliteit van uw agentische toepassing. Hierin worden de volgende zaken behandeld:

  • De beoordelings-app implementeren.
  • Hoe revisoren de app gebruiken om feedback te geven over de reacties van de agentische toepassing.
  • Hoe experts vastgelegde chats kunnen bekijken om suggesties te geven voor verbetering en andere feedback met behulp van de app.

Wat gebeurt er in een menselijke evaluatie?

De Databricks-beoordelings-app faseert de LLM in een omgeving waar deskundige belanghebbenden met de app kunnen communiceren, met andere woorden een gesprek voeren, vragen stellen, feedback geven, enzovoort. De beoordelings-app registreert alle vragen, antwoorden en feedback in een deductietabel, zodat u de prestaties van de LLM verder kunt analyseren. Op deze manier helpt de beoordelings-app ervoor te zorgen dat de kwaliteit en veiligheid van de antwoorden die uw toepassing biedt.

Belanghebbenden kunnen chatten met de toepassingsbot en feedback geven over deze gesprekken, of feedback geven over historische logboeken, gecureerde traceringen of agentuitvoer.

Vereisten

  • Deductietabellen moeten zijn ingeschakeld op het eindpunt dat de agent bedient.

  • Elke menselijke revisor moet toegang hebben tot de werkruimte van de beoordelings-app of worden gesynchroniseerd met uw Databricks-account met SCIM. Zie de volgende sectie, Machtigingen instellen voor het gebruik van de beoordelings-app.

  • Ontwikkelaars moeten de databricks-agents SDK installeren om machtigingen in te stellen en de beoordelings-app te configureren.

    %pip install databricks-agents
    dbutils.library.restartPython()
    

Machtigingen instellen voor het gebruik van de beoordelings-app

Notitie

Menselijke revisoren hebben geen toegang tot de werkruimte nodig om de beoordelings-app te gebruiken.

U kunt toegang tot de beoordelings-app verlenen aan elke gebruiker in uw Databricks-account, zelfs als deze geen toegang heeft tot de werkruimte die de beoordelings-app bevat.

  • Voor gebruikers die geen toegang hebben tot de werkruimte, gebruikt een accountbeheerder SCIM-inrichting op accountniveau om gebruikers en groepen automatisch te synchroniseren van uw id-provider naar uw Azure Databricks-account. U kunt deze gebruikers en groepen ook handmatig registreren om ze toegang te geven wanneer u identiteiten instelt in Databricks. Zie Gebruikers en groepen synchroniseren vanuit Microsoft Entra-id.
  • Voor gebruikers die al toegang hebben tot de werkruimte die de beoordelings-app bevat, is er geen extra configuratie vereist.

In het volgende codevoorbeeld ziet u hoe u gebruikers toestemming geeft voor de beoordelings-app voor een agent. De users parameter gebruikt een lijst met e-mailadressen.

from databricks import agents

# Note that <user_list> can specify individual users or groups.
agents.set_permissions(model_name=<model_name>, users=[<user_list>], permission_level=agents.PermissionLevel.CAN_QUERY)

Als u een chatlogboek wilt bekijken, moet een gebruiker over de CAN_REVIEW machtiging beschikken.

De beoordelings-app implementeren

Wanneer u een agent implementeert met behulp van agents.deploy(), wordt de beoordelings-app automatisch ingeschakeld en geïmplementeerd. De uitvoer van de opdracht toont de URL voor de beoordelings-app. Zie Een agent implementeren voor een generatieve AI-toepassing voor informatie over het implementeren van een agent.

koppeling om de app te controleren vanuit de uitvoer van notebookopdrachten

Als u de koppeling naar de implementatie kwijtraakt, kunt u deze vinden met behulp van list_deployments().

from databricks import agents

deployments = agents.list_deployments()
deployments

App-gebruikersinterface controleren

Klik op de opgegeven URL om de beoordelings-app te openen. De gebruikersinterface van de beoordelings-app heeft drie tabbladen in de linkerzijbalk:

Wanneer u de beoordelings-app opent, wordt de pagina met instructies weergegeven.

het scherm voor het openen van apps controleren

Geef instructies aan revisoren

Als u aangepaste tekst wilt opgeven voor de instructies die voor revisoren worden weergegeven, gebruikt u de volgende code:

from databricks import agents

agents.set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
agents.get_review_instructions(uc_model_name)

Een schermopname van de instructies voor de beoordelings-app die het Python-voorbeeld hebben opgegeven.

Chatten met de app en beoordelingen verzenden

Chatten met de app en beoordelingen verzenden:

  1. Klik op De bot testen in de linkerzijbalk.

  2. Typ uw vraag in het vak en druk op Return of Enter op het toetsenbord of klik op de pijl in het vak. De app geeft het antwoord weer op uw vraag en de bronnen die de app heeft gebruikt om het antwoord te vinden.

  3. Controleer het antwoord van de app en selecteer Ja, Nee of ik weet het niet.

  4. De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.

  5. U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng uw wijzigingen aan in het dialoogvenster en klikt u op Opslaan, zoals wordt weergegeven in de volgende video.

    een antwoord bewerken

  6. Klik op Gereed om uw feedback op te slaan.

  7. Blijf vragen stellen om aanvullende feedback te geven.

In het volgende diagram ziet u deze werkstroom.

  1. Met behulp van de beoordelings-app chatten revisoren met de agentische toepassing.
  2. Met behulp van de beoordelings-app geeft revisor feedback over reacties op toepassingen.
  3. Alle aanvragen, antwoorden en feedback worden vastgelegd in deductietabellen.

Voer de beoordelings-app uit waarin experts chatten met de agentische toepassing en feedback geven.

Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren

Wanneer een gebruiker communiceert met de app met behulp van de REST API of de beoordelings-app, worden alle aanvragen, antwoorden en aanvullende feedback opgeslagen in deductietabellen. De deductietabellen bevinden zich in dezelfde Unity Catalog-catalogus en hetzelfde schema waarin het model is geregistreerd en de naam <model_name>_payload, <model_name>_payload_assessment_logsen <model_name>_payload_request_logs. Zie Voor meer informatie over deze tabellen, inclusief schema's, verbeterde deductietabellen.

Als u deze logboeken wilt laden in de beoordelings-app voor evaluatie door deskundige revisoren, moet u eerst de request_id beoordelingen request_id hiervoor als volgt vinden en inschakelen:

  1. Zoek de request_ids die moeten worden gecontroleerd vanuit de <model_name>_payload_request_logs deductietabel. De deductietabel bevindt zich in dezelfde Unity Catalog-catalogus en hetzelfde schema waarin het model is geregistreerd.

  2. Gebruik code die vergelijkbaar is met de volgende code om de controlelogboeken in de beoordelings-app te laden:

    from databricks import agents
    
    agents.enable_trace_reviews(
      model_name=model_fqn,
      request_ids=[
          "52ee973e-0689-4db1-bd05-90d60f94e79f",
          "1b203587-7333-4721-b0d5-bba161e4643a",
          "e68451f4-8e7b-4bfc-998e-4bda66992809",
      ],
    )
    
  3. De resultaatcel bevat een koppeling naar de beoordelings-app met de geselecteerde logboeken die ter beoordeling zijn geladen.

App controleren met chatlogboeken geladen voor deskundige beoordeling

Deskundige beoordeling van logboeken van interacties van andere gebruikers met de app

Als u logboeken van eerdere chats wilt bekijken, moeten de logboeken zijn ingeschakeld voor controle. Zie Chatlogboeken beschikbaar maken voor evaluatie door deskundige revisoren.

  1. Selecteer in de linkerzijbalk van de beoordelings-app Chats die u wilt controleren. De ingeschakelde aanvragen worden weergegeven.

    chats ingeschakeld voor beoordeling

  2. Klik op een aanvraag om deze weer te geven voor revisie.

  3. Controleer de aanvraag en het antwoord. In de app worden ook de bronnen weergegeven die worden gebruikt ter referentie. U kunt hierop klikken om de verwijzing te bekijken en feedback te geven over de relevantie van de bron.

  4. Als u feedback wilt geven over de kwaliteit van het antwoord, selecteert u Ja, Nee of ik weet het niet.

  5. De app vraagt om aanvullende informatie. Schakel de juiste selectievakjes in of typ uw opmerkingen in het opgegeven veld.

  6. U kunt het antwoord ook rechtstreeks bewerken om een beter antwoord te geven. Als u het antwoord wilt bewerken, klikt u op Antwoord bewerken, breng de wijzigingen aan in het dialoogvenster en klikt u op Opslaan. Zie Chatten met de app en beoordelingen indienen voor een video waarin het proces wordt weergegeven.

  7. Klik op Gereed om uw feedback op te slaan.

In het volgende diagram ziet u deze werkstroom.

  1. Met behulp van de beoordelings-app of aangepaste app chatten revisoren met de agentische toepassing.
  2. Alle aanvragen en antwoorden worden vastgelegd in deductietabellen.
  3. Toepassingsontwikkelaar gebruikt enable_trace_reviews([request_id]) (waar request_id is van de deductietabel <model_name>_payload_request_logs ) om chatlogboeken te posten om de app te controleren.
  4. Met behulp van de beoordelings-app kunt u logboeken van experts beoordelen en feedback geven. Feedback van experts wordt vastgelegd in deductietabellen.

Voer een traceringsbeoordeling uit waarin revisoren communiceren met de beoordelings-app of de REST API om feedback te geven.

Notitie

Als Azure Storage Firewall is ingeschakeld, neemt u contact op met uw Azure Databricks-accountteam om deductietabellen voor uw eindpunten in te schakelen.

Gebruiken mlflow.evaluate() in de tabel met aanvraaglogboeken

In het volgende notebook ziet u hoe u de logboeken van de beoordelings-app gebruikt als invoer voor een evaluatieuitvoering met behulp van mlflow.evaluate().

Evaluatie uitvoeren op notitieblok voor aanvraaglogboeken

Notebook downloaden