Jaa


Automatisoi testaus agentin arvioinnilla

[Tämä artikkeli sisältää julkaisua edeltävää materiaalia ja voi muuttua.]

Kun tekoälyagentit ottavat kriittisiä rooleja liiketoimintaprosesseissa, luotettavien ja toistettavien testausten tarve muuttuu välttämättömäksi. Agentin arviointi antaa sinun luoda testejä , jotka simuloivat todellisia tilanteita agentillesi. Nämä testit kattavat enemmän kysymyksiä nopeammin kuin manuaalinen, tapauskohtainen testaus. Sen jälkeen voit mitata vastausten tarkkuutta, merkityksellisyyttä ja laatua agentille esitettyihin kysymyksiin perustuen siihen tietoon, johon agentti pääsee käsiksi. Käyttämällä testisarjan tuloksia voit optimoida agenttisi käyttäytymisen ja varmistaa, että agentti täyttää liiketoimintasi ja laatuvaatimukset.

Tärkeää

Tämä artikkeli sisältää Microsoft Copilot Studion esiversiota koskevia ohjeita. Artikkeliin saatetaan tehdä muutoksia.

Esiversiotoimintoja ei ole tarkoitettu tuotantokäyttöön, ja niiden toiminnot voivat olla rajoitettuja. Nämä toiminnot ovat käytettävissä ennen virallista julkaisua, jotta voit käyttää niitä aikaisessa vaiheessa ja antaa palautetta.

Jos olet luomassa tuotantovalmista agenttia, katso lisätietoja kohdasta Microsoft Copilot Studion yleiskuvaus.

Miksi käyttää automatisoitua testausta?

Agentin arviointi tarjoaa automatisoitua, rakenteellista testausta. Se auttaa havaitsemaan ongelmat ajoissa, vähentää huonojen vastausten riskiä ja ylläpitää laatua agentin kehittyessä. Tämä prosessi tuo automaattisen, toistettavan laadunvarmistuksen muodon agentin testaukseen. Se varmistaa, että välittäjä täyttää yrityksesi tarkkuus- ja luotettavuusvaatimukset sekä tarjoaa läpinäkyvyyttä sen suorituskyvystä. Sillä on erilaisia vahvuuksia kuin testichatin testaus.

Agenttien arviointi mittaa oikeellisuutta ja suorituskykyä, ei tekoälyn etiikkaa tai turvallisuusongelmia. Agentti saattaa läpäistä kaikki arviointitestit, mutta silti esimerkiksi antaa sopimattoman vastauksen kysymykseen. Asiakkaiden tulisi silti käyttää vastuullisia tekoälyarvioita ja sisällön turvallisuussuodattimia; Arvioinnit eivät korvaa näitä arvosteluja ja suodattimia.

Miten agentin arviointi toimii

Copilot Studio käyttää testitapausta jokaiselle agentin arvioinnille. Testitapaus on yksittäinen viesti tai kysymys, joka simuloi sitä, mitä käyttäjä kysyisi agentiltasi. Testitapaus voi myös sisältää vastauksen, jonka odotat välittäjäsi vastaavan. Esimerkiksi:

  • Kysymys: Mitkä ovat työaikasi?

  • Odotettu vastaus: Olemme avoinna maanantaista perjantaihin klo 9–17.

Agentin arvioinnin avulla voit luoda, tuoda tai kirjoittaa manuaalisesti joukon testitapauksia. Tätä testitapausten ryhmää kutsutaan testijoukoksi. Testijoukko mahdollistaa:

  • Suorita useita testitapauksia, jotka kattavat laajan kirjon ominaisuuksia samanaikaisesti, sen sijaan että kysyisit agentiltasi yhden kysymyksen kerrallaan.

  • Analysoi agenttisi suorituskykyä helposti omaksuttavan kokonaispistemäärän avulla ja tarkastele yksittäisiä testitapauksia.

  • Testaa agenttien muutoksia käyttämällä samaa testijoukkoa, joten sinulla on objektiivinen standardi suorituskyvyn muutosten mittaamiseen ja vertailuun.

  • Luo nopeasti uusia testisettejä tai muokkaa olemassa olevia vastaamaan muuttuvia agenttien ominaisuuksia tai vaatimuksia.

Testisarja sisältää myös testimenetelmät , joita haluat käyttää. Voit mitata agenttisi suorituskykyä seuraavien perusteella:

Voit myös valita käyttäjäprofiilin, joka toimii kysymyksen lähettäjänä. Agentti voi olla konfiguroitu vastaamaan eri käyttäjille eri tavoin tai sallimaan pääsyn resursseihin eri tavoin.

Kun valitset testijoukon ja suoritat agentin arvioinnin, Copilot Studio lähettää kysymykset testitapauksissa, tallentaa agentin vastaukset, vertaa niitä odotettuihin vastauksiin tai laatustandardeihin ja antaa jokaiselle testitapaukselle pisteet. Voit myös nähdä yksityiskohdat, pöytäkirjan ja toimintakartan jokaisesta testitapauksesta sekä siitä, mitä resursseja agenttisi käytti vastauksen luomiseen.

Testichat vs. agenttien arviointi

Jokainen testausmenetelmä antaa sinulle erilaisia näkemyksiä agenttisi ominaisuuksista ja käyttäytymisestä:

Testichat:

  • Vastaanottaa ja vastaa yhteen kysymykseen kerrallaan. On vaikea toistaa samoja testejä useaan otteeseen.

  • Mahdollistaa koko istunnon testaamisen, jossa on useita viestejä.

  • Mahdollistaa vuorovaikutuksen agenttisi kanssa käyttäjänä chat-käyttöliittymän avulla.

Agentin arviointi:

  • Voi luoda ja ajaa useita testitapauksia samanaikaisesti. Voit toistaa testit käyttämällä samaa testisarjaa.

  • Voin testata vain yhden kysymyksen ja yhden vastauksen per testitapaus. Se ei testaa koko keskustelusessiota.

  • Valitse eri käyttäjäprofiileja simuloidaksesi eri käyttäjiä ilman, että sinun tarvitsee suorittaa vuorovaikutuksia itse.

Kun testaat agenttia, käytä sekä testichattia että agentin arviointia saadaksesi täydellisen kuvan agentistasi.