Kötegelt futtatás elküldése és folyamat kiértékelése
Annak kiértékeléséhez, hogy a folyamat milyen jól teljesít egy nagy adatkészlettel, elküldheti a kötegelt futtatásokat, és beépített kiértékelési módszereket használhat a parancssori folyamatban.
Ebből a cikkből megtudhatja, hogyan:
- Batch-futtatás elküldése és beépített kiértékelési módszer használata
- A kiértékelési eredmény és a metrikák megtekintése
- Új kiértékelési kör indítása
- A Batch futtatási előzményeinek ellenőrzése és a metrikák összehasonlítása
- A beépített kiértékelési metrikák ismertetése
- A folyamat teljesítményének javítása
- További olvasmány: Útmutató a Copilot minőségbiztosításához használt Golden Datasets létrehozásához
A folyamat tesztelését és kiértékelését az alábbi oktatóvideó segítségével gyorsan megkezdheti a kötegelt futtatás elküldésével és egy folyamatvideó-oktatóanyag kiértékelésével.
Előfeltételek
A kötegelt futtatás futtatásához és a kiértékelési módszer használatához a következőket kell elvégeznie:
- Tesztadatkészlet kötegelt futtatáshoz. Az adathalmaznak a következő formátumok egyikében kell lennie:
.csv
,.tsv
vagy.jsonl
. Az adatoknak olyan fejléceket is tartalmazniuk kell, amelyek megfelelnek a folyamat bemeneti nevének. További olvasmány: Ha saját copilotot készít, javasoljuk, hogy a Copilot minőségbiztosításához használt Golden Dataset-adatkészletek létrehozásának útmutatójára hivatkozjon.
Kötegelt futtatás elküldése és beépített kiértékelési módszer használata
A kötegelt futtatás lehetővé teszi, hogy nagy adatkészlettel futtassa a folyamatot, és kimeneteket hozzon létre az egyes adatsorokhoz. Választhat egy kiértékelési módszert is, amellyel összehasonlíthatja a folyamat kimenetét bizonyos feltételekkel és célokkal. A kiértékelési módszer egy speciális folyamattípus , amely különböző szempontok alapján számítja ki a folyamat kimenetének metrikáit. A rendszer egy próbafuttatást hajt végre a metrika kiszámításához, amikor a kötegfuttatással együtt küldi el.
Ha kiértékeléssel szeretné elindítani a kötegelt futtatásokat, a folyamatoldal jobb felső sarkában található "Értékelés" gombra kattintva választhat.
A kötegelt futtatás elküldéséhez kiválaszthat egy adatkészletet, amellyel tesztelheti a folyamatot. Kiértékelési módszert is választhat a folyamatkimenet metrikáinak kiszámításához. Ha nem szeretne kiértékelési módszert használni, kihagyhatja ezt a lépést, és metrikák kiszámítása nélkül futtathatja a kötegfuttatást. Később egy új kiértékelési kört is elindíthat.
Először egy leíró és felismerhető nevet kell megadnia a kötegnek. Leírást is írhat, és címkéket (kulcs-érték párokat) adhat hozzá a kötegfuttatáshoz. A konfiguráció befejezése után a folytatáshoz válassza a "Tovább" lehetőséget.
Másodszor ki kell választania vagy fel kell töltenie egy adathalmazt, amellyel tesztelni szeretné a folyamatot.
A parancssori folyamat támogatja a folyamat bemenetének leképezését az adathalmaz egy adott adatoszlopára. Ez azt jelenti, hogy egy oszlopot hozzárendelhet egy adott bemenethez. Egy oszlopot a formátumra való hivatkozással rendelhet hozzá egy bemenethez ${data.XXX}
. Ha állandó értéket szeretne hozzárendelni egy bemenethez, közvetlenül beírhatja ezt az értéket.
Ezután a következő lépésben dönthet úgy, hogy egy kiértékelési módszerrel ellenőrzi a futtatás teljesítményét azonnal vagy később. Befejezett kötegfuttatás esetén továbbra is hozzáadható egy új kiértékelési kör.
A "Tovább" gombra kattintva kihagyhatja ezt a lépést, és anélkül futtathatja a kötegfuttatást, hogy nem használna kiértékelési módszert a metrikák kiszámításához. Ily módon ez a kötegfuttatás csak az adathalmaz kimeneteit hozza létre. A kimeneteket manuálisan is ellenőrizheti, vagy exportálhatja őket további elemzés céljából más módszerekkel.
Ellenkező esetben, ha most kiértékeléssel szeretné futtatni a kötegelt futtatásokat, a megadott leírás alapján választhat egy vagy több kiértékelési módszert. A "További részletek" gombra kattintva további információt talál a kiértékelési módszerről, például a létrehozott metrikákról, valamint a szükséges kapcsolatokról és bemenetekről.
Lépjen a következő lépésre, és konfigurálja a kiértékelési beállításokat. A "Kiértékelési bemenet leképezése" szakaszban meg kell adnia a kiértékelési módszerhez szükséges bemeneti adatok forrásait. Előfordulhat például, hogy az alapigazság oszlop egy adatkészletből származik. A kiértékelés alapértelmezés szerint ugyanazt az adatkészletet használja, mint a tesztelt futtatáshoz biztosított tesztadatkészlet. Ha azonban a megfelelő címkék vagy célhelyes alapértékek egy másik adatkészletben találhatók, egyszerűen átválthat erre.
Ezért az értékelés futtatásához meg kell jelölnie ezeknek a szükséges bemeneteknek a forrásait. Ehhez az értékelés elküldésekor megjelenik egy "Kiértékelési bemenet leképezése" szakasz.
- Ha az adatforrás a futtatási kimenetből származik, a forrás a következő: "${run.output.[ OutputName]}"
- Ha az adatforrás a tesztadatkészletből származik, a forrás "${data". ColumnName]}"
Feljegyzés
Ha a kiértékelés nem igényel adatokat az adathalmazból, nem kell a bemeneti leképezési szakaszban lévő adathalmazoszlopokra hivatkoznia, ami azt jelzi, hogy az adathalmaz kiválasztása opcionális konfiguráció. Az adathalmaz kiválasztása nem befolyásolja a kiértékelési eredményt.
Ha egy kiértékelési módszer nagy nyelvi modelleket (LLM-eket) használ a folyamatválasz teljesítményének mérésére, a kiértékelési módszerekben az LLM-csomópontok kapcsolatait is be kell állítania.
Feljegyzés
Egyes kiértékelési módszerek futtatásához a GPT-4 vagy a GPT-3 szükséges. A használatuk előtt érvényes kapcsolatokat kell megadnia ezekhez a kiértékelési módszerekhez. Egyes kiértékelési folyamatok sok jogkivonatot is igénybe vehetnek, ezért ajánlott olyan modellt használni, amely támogatja >az =16k tokeneket.
Miután befejezte a bemeneti leképezést, válassza a "Tovább" lehetőséget a beállítások áttekintéséhez, majd a "Küldés" lehetőséget választva indítsa el a kötegelt futtatásokat a kiértékeléssel.
Feljegyzés
A batch-futtatások maximális időtartama 10 óra. Ha egy kötegfuttatás túllépi ezt a korlátot, az leáll, és sikertelenként lesz megjelölve. Javasoljuk, hogy a szabályozás elkerülése érdekében monitorozza a nagy nyelvi modell (LLM) kapacitását. Szükség esetén fontolja meg az adatok méretének csökkentését. Ha továbbra is problémákat tapasztal, vagy további segítségre van szüksége, forduljon termékcsapatunkhoz a visszajelzési űrlapon vagy a támogatási kérésen keresztül.
A kiértékelési eredmény és a metrikák megtekintése
A beküldés után az elküldött kötegfuttatást a futtatási lista lapon találja a parancssori folyamat lapján.
Válassza ki a futtatás lehetőséget a Futtatás eredményoldalra való navigáláshoz a kötegelt futtatás eredményeinek ellenőrzéséhez.
Hozam
Alapszintű eredmény és nyomkövetés
Ez először a Kimenet lapra irányítja a bemenetek és kimenetek soronkénti megtekintéséhez. A kimeneti lap oldal megjeleníti az eredmények táblázatos listáját, beleértve a sorazonosítót, a bemenetet, a kimenetet, az állapotot, a rendszermetrikákat és a létrehozott időt.
Az egyes sorokban a Nyomkövetés megtekintése lehetőséget választva megfigyelheti és hibakeresést végezhet az adott tesztesetben a részletes nyomkövetési lapon.
A kiértékelési eredmény és a nyomkövetés hozzáfűzése
A Hozzáfűzési kiértékelési kimenet kiválasztásával kiválaszthatja a kapcsolódó kiértékelési futtatásokat, és a táblázat végén a hozzáfűzött oszlopok láthatók, amelyek az egyes adatsorok kiértékelési eredményét jelenítik meg. Összehasonlítás céljából több kiértékelési kimenet is hozzáfűzhető.
A legújabb értékelési metrikákat a bal oldali Áttekintés panelen tekintheti meg.
Alapvető áttekintés
A jobb oldalon az Áttekintés átfogó információkat nyújt a futtatásról, például az adatpontonkénti végrehajtások számát, az összes jogkivonatot és a futtatás időtartamát.
A legutóbbi kiértékelési futtatás összesített metrikái alapértelmezés szerint itt jelennek meg, a kiértékelési futtatás megtekintése lehetőség kiválasztásával ugrahat a próbafuttatás megtekintéséhez.
Itt kibonthatja és összecsukhatja az áttekintést, és kiválaszthatja a Teljes információ megtekintése lehetőséget, amely a Kimenet lap Mellett található Áttekintés lapra irányítja, ahol részletesebb információk találhatók a futtatásról.
Új kiértékelési kör indítása
Ha már végzett egy kötegfuttatással, elindíthat egy újabb kiértékelési kört, amely új kiértékelési futtatás beküldésével kiszámítja a kimenetek metrikáit anélkül, hogy újra futtatta volna a folyamatot. Ez hasznos, és a folyamat újrafuttatásának költségeit a következő esetekben takaríthatja meg:
- Nem választott ki egy kiértékelési módszert a metrikák kiszámításához a kötegfuttatás elküldésekor, és úgy döntött, hogy most megteszi.
- már használt kiértékelési módszert egy metrika kiszámításához. Egy másik metrika kiszámításához elindíthat egy újabb kiértékelési kört.
- a kiértékelési futtatás sikertelen volt, de a folyamat sikeresen generált kimeneteket. Újra beküldheti az értékelést.
A Kiértékelés lehetőséget választva újabb kiértékelési kört indíthat el.
A konfiguráció beállítása után kiválaszthatja a "Küldés" lehetőséget az új kiértékelési körhöz. A beküldés után egy új rekord jelenik meg a parancssori folyamat futtatásának listájában. A kiértékelési futtatás befejezése után a kötegelt futtatás részletei panel "Kimenetek" lapján is ellenőrizheti a kiértékelés eredményét. Az eredmény megtekintéséhez ki kell választania az új próbafuttatást.
A beépített kiértékelési módszerek által kiszámított metrikákkal kapcsolatos további információkért keresse meg a beépített kiértékelési metrikákat.
Áttekintés
Az Áttekintés lapra kattintva átfogó információkat jelenít meg a futtatásról, beleértve a futtatási tulajdonságokat, a bemeneti adatkészletet, a kimeneti adatkészletet, a címkéket és a leírást.
Naplók
A Naplók lapon megtekintheti a futtatási naplókat, amelyek a végrehajtási hibák részletes hibakereséséhez hasznosak lehetnek. A naplófájlokat letöltheti a helyi gépére.
Pillanatkép
A Pillanatkép lapra kattintva megtekintheti a futtatott pillanatképet. Megtekintheti a folyamat DAG-ját. Emellett lehetősége van klónozni, hogy új folyamatot hozzon létre. Online végpontként is üzembe helyezheti .
A kötegelt futtatási előzmények ellenőrzése és a metrikák összehasonlítása
Bizonyos esetekben a folyamat módosítása a teljesítmény javítása érdekében. Több kötegfuttatást is beküldhet, hogy összehasonlítsa a folyamat teljesítményét a különböző verziókkal. A különböző kiértékelési módszerek által kiszámított metrikákat is összehasonlíthatja, hogy melyik felel meg jobban a folyamatnak.
A folyamat kötegelt futtatási előzményeinek ellenőrzéséhez válassza a folyamatoldal jobb felső sarkában található "Kötegelt futtatás megtekintése" gombot. Megjelenik a folyamathoz elküldött kötegfuttatások listája.
Az egyes kötegfuttatások esetében kiválaszthatja a részleteket. Több kötegfuttatást is kijelölhet, és a "Kimenetek vizualizációja" lehetőséget választva összehasonlíthatja a kötegfuttatások metrikáit és kimeneteit.
A "Kimenet megjelenítése" panelEn a Futtatások > metrikák tábla a kijelölt futtatások adatait jeleníti meg kiemeléssel. Az egyéb futtatások, amelyek a kiválasztott futtatások kimeneteit bemenetként veszik fel, szintén szerepelnek a listán.
A "Kimenetek" táblában összehasonlíthatja a kiválasztott kötegfuttatásokat a mintasorok alapján. Ha a "Futtatások > metrikák" táblában a "szemvizualizáció" ikont választja, a futtatás kimenetei hozzá lesznek fűzve a megfelelő alapfuttatáshoz.
A beépített kiértékelési metrikák ismertetése
A gyors folyamat során több beépített kiértékelési módszert biztosítunk a folyamat kimenetének méréséhez. Minden kiértékelési módszer különböző metrikákat számít ki. Most kilenc beépített kiértékelési módszert biztosítunk. Az alábbi táblázatban talál egy gyorshivatkozást:
Kiértékelési módszer | Mérőszámok | Leírás | Kapcsolat szükséges | Kötelező bemenet | Pontszám értéke |
---|---|---|---|---|---|
Besorolás pontosságának kiértékelése | Pontosság | A besorolási rendszer teljesítményét méri a kimenetek és a valóság összehasonlításával. | Nem | előrejelzés, alapigazság | tartományban [0, 1]. |
QnA relevancia pontszámok párirányú értékelés | Pontszám, győzelem/veszítés | Felméri a kérdések megválaszolási rendszere által generált válaszok minőségét. Ez magában foglalja a relevanciapontokat az egyes válaszokhoz annak alapján, hogy mennyire felel meg a felhasználói kérdésnek, összehasonlítja a különböző válaszokat egy alapszintű válaszsal, és az eredményeket összesítve olyan metrikákat hoz létre, mint az átlagolt nyerési arányok és a relevanciaértékek. | Igen | kérdés, válasz (nincs alapigazság vagy kontextus) | Pontszám: 0-100, win/lose: 1/0 |
QnA-alapértékek kiértékelése | Alapozottság | Azt méri, hogy a modell előrejelzett válaszai mennyire megalapozottak a bemeneti forrásban. Még akkor is, ha az LLM válaszai igazak, ha nem ellenőrizhetők a forráson, akkor a rendszer nem lesz látható. | Igen | kérdés, válasz, kontextus (nincs alapigazság) | 1-5, és 1 a legrosszabb és 5 a legjobb. |
QnA GPT-hasonlóság kiértékelése | GPT-hasonlóság | Méri a felhasználó által megadott alapigaz válaszok és a GPT-modell használatával előrejelzett válasz közötti hasonlóságot. | Igen | kérdés, válasz, alapigazság (a kontextus nem szükséges) | 1-5, és 1 a legrosszabb és 5 a legjobb. |
QnA relevancia értékelése | Relevancia | Méri, hogy a modell előrejelzett válaszai mennyire relevánsak a feltett kérdésekre. | Igen | kérdés, válasz, kontextus (nincs alapigazság) | 1-5, és 1 a legrosszabb és 5 a legjobb. |
QnA koherencia-kiértékelése | Koherencia | Méri a modell előrejelzett válaszában szereplő mondatok minőségét, és azt, hogy ezek hogyan illeszkednek egymáshoz természetesen. | Igen | kérdés, válasz (nincs alapigazság vagy kontextus) | 1-5, és 1 a legrosszabb és 5 a legjobb. |
QnA Fluency Evaluation | Folyékonyság | A modell előrejelzett válaszának nyelvtani és nyelvi helyességét méri. | Igen | kérdés, válasz (nincs alapigazság vagy kontextus) | 1-5, 1 a legrosszabb és 5 a legjobb |
QnA f1 pontszámok kiértékelése | F1 pontszám | A modell előrejelzése és az alapigazság közötti közös szavak számának arányát méri. | Nem | kérdés, válasz, alapigazság (a kontextus nem szükséges) | tartományban [0, 1]. |
QnA Ada hasonlóság kiértékelése | Ada hasonlóság | Mondatszintű beágyazásokat számít ki az Ada embeddings API használatával az alapigazság és az előrejelzés szempontjából is. Ezután kiszámítja közöttük a koszinusz hasonlóságát (egy lebegőpontos szám) | Igen | kérdés, válasz, alapigazság (a kontextus nem szükséges) | tartományban [0, 1]. |
A folyamat teljesítményének javítása
A kiértékelésből származó beépített metrikák ellenőrzése után az alábbi módszerekkel javíthatja a folyamat teljesítményét:
- Ellenőrizze a kimeneti adatokat a folyamat esetleges hibáinak hibakereséséhez.
- Módosítsa a folyamatot a teljesítmény javítása érdekében. Ez magában foglalja, de nem kizárólagosan a következőket:
- A kérés módosítása
- A rendszerüzenet módosítása
- A folyamat paramétereinek módosítása
- A folyamatlogika módosítása
A gyors építés nehéz lehet. Bevezetést nyújtunk a gyors tervezésbe , hogy megismerje a cél elérésére alkalmas parancssor létrehozásának fogalmát. A parancssori mérnöki technikák segítségével többet tudhat meg arról, hogyan hozhat létre egy kérést, amely képes elérni a célját.
Rendszerüzenet, más néven metaprompt vagy rendszerkérés , amely az AI-rendszerek viselkedésének irányítására és a rendszer teljesítményének javítására használható. Olvassa el ezt a dokumentumot a rendszerüzenet-keretrendszerről és a nagy nyelvi modellekre (LLM-ek) vonatkozó sablonjavaslatokról, és ismerje meg, hogyan javíthatja a folyamat teljesítményét a rendszerüzenetekkel.
További olvasmány: Útmutató a Copilot minőségbiztosításához használt Golden Datasets létrehozásához
A nagyméretű nyelvi modelleket (LLM-eket) használó copilotok létrehozása általában a modell valós, forrásadatkészletek használatával történő alapozását foglalja magában. Ahhoz azonban, hogy az LLM-ek a legpontosabb és legpontosabb választ adják az ügyfél-lekérdezésekre, szükség van egy "Golden Dataset"-ra.
A Golden Dataset valósághű ügyfélkérdések és szakértők által összeállított válaszok gyűjteménye. Minőségbiztosítási eszközként szolgál a copilot által használt LLM-ekhez. A Golden Datasets nem használható LLM betanítása vagy környezet injektálására egy LLM-parancssorba. Ehelyett az LLM által generált válaszok minőségének értékelésére használják őket.
Ha a forgatókönyvben egy másodpilóta szerepel, vagy ha a saját copilot készítésén dolgozik, javasoljuk, hogy hivatkozz erre a konkrét dokumentumra: Golden Datasets létrehozása: Útmutató a Copilot minőségbiztosításához használt Golden-adatkészletek létrehozásához részletesebb útmutatásért és ajánlott eljárásokért.
Következő lépések
Ebben a dokumentumban megtanulta, hogyan küldhet be kötegelt futtatásokat, és hogyan mérheti a folyamat kimenetének minőségét egy beépített kiértékelési módszerrel. Azt is megtanulta, hogyan tekintheti meg a kiértékelési eredményeket és a metrikákat, és hogyan indíthat el egy új kiértékelési kört egy másik módszerrel vagy variánsok részhalmazával. Reméljük, hogy ez a dokumentum segít a folyamat teljesítményének javításában és a célok elérésében a Prompt folyamattal.