Kötegelt futtatás elküldése és folyamat kiértékelése

Cikk
09/01/2024

Annak kiértékeléséhez, hogy a folyamat milyen jól teljesít egy nagy adatkészlettel, elküldheti a kötegelt futtatásokat, és beépített kiértékelési módszereket használhat a parancssori folyamatban.

Ebből a cikkből megtudhatja, hogyan:

Batch-futtatás elküldése és beépített kiértékelési módszer használata
A kiértékelési eredmény és a metrikák megtekintése
Új kiértékelési kör indítása
A Batch futtatási előzményeinek ellenőrzése és a metrikák összehasonlítása
A beépített kiértékelési metrikák ismertetése
A folyamat teljesítményének javítása
További olvasmány: Útmutató a Copilot minőségbiztosításához használt Golden Datasets létrehozásához

A folyamat tesztelését és kiértékelését az alábbi oktatóvideó segítségével gyorsan megkezdheti a kötegelt futtatás elküldésével és egy folyamatvideó-oktatóanyag kiértékelésével.

Előfeltételek

A kötegelt futtatás futtatásához és a kiértékelési módszer használatához a következőket kell elvégeznie:

Tesztadatkészlet kötegelt futtatáshoz. Az adathalmaznak a következő formátumok egyikében kell lennie: .csv, .tsvvagy .jsonl. Az adatoknak olyan fejléceket is tartalmazniuk kell, amelyek megfelelnek a folyamat bemeneti nevének. További olvasmány: Ha saját copilotot készít, javasoljuk, hogy a Copilot minőségbiztosításához használt Golden Dataset-adatkészletek létrehozásának útmutatójára hivatkozjon.

Kötegelt futtatás elküldése és beépített kiértékelési módszer használata

A kötegelt futtatás lehetővé teszi, hogy nagy adatkészlettel futtassa a folyamatot, és kimeneteket hozzon létre az egyes adatsorokhoz. Választhat egy kiértékelési módszert is, amellyel összehasonlíthatja a folyamat kimenetét bizonyos feltételekkel és célokkal. A kiértékelési módszer egy speciális folyamattípus , amely különböző szempontok alapján számítja ki a folyamat kimenetének metrikáit. A rendszer egy próbafuttatást hajt végre a metrika kiszámításához, amikor a kötegfuttatással együtt küldi el.

Ha kiértékeléssel szeretné elindítani a kötegelt futtatásokat, a folyamatoldal jobb felső sarkában található "Értékelés" gombra kattintva választhat.

A kötegelt futtatás elküldéséhez kiválaszthat egy adatkészletet, amellyel tesztelheti a folyamatot. Kiértékelési módszert is választhat a folyamatkimenet metrikáinak kiszámításához. Ha nem szeretne kiértékelési módszert használni, kihagyhatja ezt a lépést, és metrikák kiszámítása nélkül futtathatja a kötegfuttatást. Később egy új kiértékelési kört is elindíthat.

Először egy leíró és felismerhető nevet kell megadnia a kötegnek. Leírást is írhat, és címkéket (kulcs-érték párokat) adhat hozzá a kötegfuttatáshoz. A konfiguráció befejezése után a folytatáshoz válassza a "Tovább" lehetőséget.

Másodszor ki kell választania vagy fel kell töltenie egy adathalmazt, amellyel tesztelni szeretné a folyamatot. A parancssori folyamat támogatja a folyamat bemenetének leképezését az adathalmaz egy adott adatoszlopára. Ez azt jelenti, hogy egy oszlopot hozzárendelhet egy adott bemenethez. Egy oszlopot a formátumra való hivatkozással rendelhet hozzá egy bemenethez ${data.XXX} . Ha állandó értéket szeretne hozzárendelni egy bemenethez, közvetlenül beírhatja ezt az értéket.

Ezután a következő lépésben dönthet úgy, hogy egy kiértékelési módszerrel ellenőrzi a futtatás teljesítményét azonnal vagy később. Befejezett kötegfuttatás esetén továbbra is hozzáadható egy új kiértékelési kör.

A "Tovább" gombra kattintva kihagyhatja ezt a lépést, és anélkül futtathatja a kötegfuttatást, hogy nem használna kiértékelési módszert a metrikák kiszámításához. Ily módon ez a kötegfuttatás csak az adathalmaz kimeneteit hozza létre. A kimeneteket manuálisan is ellenőrizheti, vagy exportálhatja őket további elemzés céljából más módszerekkel.

Ellenkező esetben, ha most kiértékeléssel szeretné futtatni a kötegelt futtatásokat, a megadott leírás alapján választhat egy vagy több kiértékelési módszert. A "További részletek" gombra kattintva további információt talál a kiértékelési módszerről, például a létrehozott metrikákról, valamint a szükséges kapcsolatokról és bemenetekről.

Lépjen a következő lépésre, és konfigurálja a kiértékelési beállításokat. A "Kiértékelési bemenet leképezése" szakaszban meg kell adnia a kiértékelési módszerhez szükséges bemeneti adatok forrásait. Előfordulhat például, hogy az alapigazság oszlop egy adatkészletből származik. A kiértékelés alapértelmezés szerint ugyanazt az adatkészletet használja, mint a tesztelt futtatáshoz biztosított tesztadatkészlet. Ha azonban a megfelelő címkék vagy célhelyes alapértékek egy másik adatkészletben találhatók, egyszerűen átválthat erre.

Ezért az értékelés futtatásához meg kell jelölnie ezeknek a szükséges bemeneteknek a forrásait. Ehhez az értékelés elküldésekor megjelenik egy "Kiértékelési bemenet leképezése" szakasz.

Ha az adatforrás a futtatási kimenetből származik, a forrás a következő: "${run.output.[ OutputName]}"
Ha az adatforrás a tesztadatkészletből származik, a forrás "${data". ColumnName]}"

Feljegyzés

Ha a kiértékelés nem igényel adatokat az adathalmazból, nem kell a bemeneti leképezési szakaszban lévő adathalmazoszlopokra hivatkoznia, ami azt jelzi, hogy az adathalmaz kiválasztása opcionális konfiguráció. Az adathalmaz kiválasztása nem befolyásolja a kiértékelési eredményt.

Ha egy kiértékelési módszer nagy nyelvi modelleket (LLM-eket) használ a folyamatválasz teljesítményének mérésére, a kiértékelési módszerekben az LLM-csomópontok kapcsolatait is be kell állítania.

Feljegyzés

Egyes kiértékelési módszerek futtatásához a GPT-4 vagy a GPT-3 szükséges. A használatuk előtt érvényes kapcsolatokat kell megadnia ezekhez a kiértékelési módszerekhez. Egyes kiértékelési folyamatok sok jogkivonatot is igénybe vehetnek, ezért ajánlott olyan modellt használni, amely támogatja >az =16k tokeneket.

Miután befejezte a bemeneti leképezést, válassza a "Tovább" lehetőséget a beállítások áttekintéséhez, majd a "Küldés" lehetőséget választva indítsa el a kötegelt futtatásokat a kiértékeléssel.

Feljegyzés

A batch-futtatások maximális időtartama 10 óra. Ha egy kötegfuttatás túllépi ezt a korlátot, az leáll, és sikertelenként lesz megjelölve. Javasoljuk, hogy a szabályozás elkerülése érdekében monitorozza a nagy nyelvi modell (LLM) kapacitását. Szükség esetén fontolja meg az adatok méretének csökkentését. Ha továbbra is problémákat tapasztal, vagy további segítségre van szüksége, forduljon termékcsapatunkhoz a visszajelzési űrlapon vagy a támogatási kérésen keresztül.

A kiértékelési eredmény és a metrikák megtekintése

A beküldés után az elküldött kötegfuttatást a futtatási lista lapon találja a parancssori folyamat lapján.

Válassza ki a futtatás lehetőséget a Futtatás eredményoldalra való navigáláshoz a kötegelt futtatás eredményeinek ellenőrzéséhez.

Hozam

Alapszintű eredmény és nyomkövetés

Ez először a Kimenet lapra irányítja a bemenetek és kimenetek soronkénti megtekintéséhez. A kimeneti lap oldal megjeleníti az eredmények táblázatos listáját, beleértve a sorazonosítót, a bemenetet, a kimenetet, az állapotot, a rendszermetrikákat és a létrehozott időt.

Az egyes sorokban a Nyomkövetés megtekintése lehetőséget választva megfigyelheti és hibakeresést végezhet az adott tesztesetben a részletes nyomkövetési lapon.

A kiértékelési eredmény és a nyomkövetés hozzáfűzése

A Hozzáfűzési kiértékelési kimenet kiválasztásával kiválaszthatja a kapcsolódó kiértékelési futtatásokat, és a táblázat végén a hozzáfűzött oszlopok láthatók, amelyek az egyes adatsorok kiértékelési eredményét jelenítik meg. Összehasonlítás céljából több kiértékelési kimenet is hozzáfűzhető.

A legújabb értékelési metrikákat a bal oldali Áttekintés panelen tekintheti meg.

Alapvető áttekintés

A jobb oldalon az Áttekintés átfogó információkat nyújt a futtatásról, például az adatpontonkénti végrehajtások számát, az összes jogkivonatot és a futtatás időtartamát.

A legutóbbi kiértékelési futtatás összesített metrikái alapértelmezés szerint itt jelennek meg, a kiértékelési futtatás megtekintése lehetőség kiválasztásával ugrahat a próbafuttatás megtekintéséhez.

Itt kibonthatja és összecsukhatja az áttekintést, és kiválaszthatja a Teljes információ megtekintése lehetőséget, amely a Kimenet lap Mellett található Áttekintés lapra irányítja, ahol részletesebb információk találhatók a futtatásról.

Új kiértékelési kör indítása

Ha már végzett egy kötegfuttatással, elindíthat egy újabb kiértékelési kört, amely új kiértékelési futtatás beküldésével kiszámítja a kimenetek metrikáit anélkül, hogy újra futtatta volna a folyamatot. Ez hasznos, és a folyamat újrafuttatásának költségeit a következő esetekben takaríthatja meg:

Nem választott ki egy kiértékelési módszert a metrikák kiszámításához a kötegfuttatás elküldésekor, és úgy döntött, hogy most megteszi.
már használt kiértékelési módszert egy metrika kiszámításához. Egy másik metrika kiszámításához elindíthat egy újabb kiértékelési kört.
a kiértékelési futtatás sikertelen volt, de a folyamat sikeresen generált kimeneteket. Újra beküldheti az értékelést.

A Kiértékelés lehetőséget választva újabb kiértékelési kört indíthat el.

A konfiguráció beállítása után kiválaszthatja a "Küldés" lehetőséget az új kiértékelési körhöz. A beküldés után egy új rekord jelenik meg a parancssori folyamat futtatásának listájában. A kiértékelési futtatás befejezése után a kötegelt futtatás részletei panel "Kimenetek" lapján is ellenőrizheti a kiértékelés eredményét. Az eredmény megtekintéséhez ki kell választania az új próbafuttatást.

A beépített kiértékelési módszerek által kiszámított metrikákkal kapcsolatos további információkért keresse meg a beépített kiértékelési metrikákat.

Áttekintés

Az Áttekintés lapra kattintva átfogó információkat jelenít meg a futtatásról, beleértve a futtatási tulajdonságokat, a bemeneti adatkészletet, a kimeneti adatkészletet, a címkéket és a leírást.

Naplók

A Naplók lapon megtekintheti a futtatási naplókat, amelyek a végrehajtási hibák részletes hibakereséséhez hasznosak lehetnek. A naplófájlokat letöltheti a helyi gépére.

Pillanatkép

A Pillanatkép lapra kattintva megtekintheti a futtatott pillanatképet. Megtekintheti a folyamat DAG-ját. Emellett lehetősége van klónozni, hogy új folyamatot hozzon létre. Online végpontként is üzembe helyezheti .

A kötegelt futtatási előzmények ellenőrzése és a metrikák összehasonlítása

Bizonyos esetekben a folyamat módosítása a teljesítmény javítása érdekében. Több kötegfuttatást is beküldhet, hogy összehasonlítsa a folyamat teljesítményét a különböző verziókkal. A különböző kiértékelési módszerek által kiszámított metrikákat is összehasonlíthatja, hogy melyik felel meg jobban a folyamatnak.

A folyamat kötegelt futtatási előzményeinek ellenőrzéséhez válassza a folyamatoldal jobb felső sarkában található "Kötegelt futtatás megtekintése" gombot. Megjelenik a folyamathoz elküldött kötegfuttatások listája.

Az egyes kötegfuttatások esetében kiválaszthatja a részleteket. Több kötegfuttatást is kijelölhet, és a "Kimenetek vizualizációja" lehetőséget választva összehasonlíthatja a kötegfuttatások metrikáit és kimeneteit.

A "Kimenet megjelenítése" panelEn a Futtatások > metrikák tábla a kijelölt futtatások adatait jeleníti meg kiemeléssel. Az egyéb futtatások, amelyek a kiválasztott futtatások kimeneteit bemenetként veszik fel, szintén szerepelnek a listán.

A "Kimenetek" táblában összehasonlíthatja a kiválasztott kötegfuttatásokat a mintasorok alapján. Ha a "Futtatások > metrikák" táblában a "szemvizualizáció" ikont választja, a futtatás kimenetei hozzá lesznek fűzve a megfelelő alapfuttatáshoz.

A beépített kiértékelési metrikák ismertetése

A gyors folyamat során több beépített kiértékelési módszert biztosítunk a folyamat kimenetének méréséhez. Minden kiértékelési módszer különböző metrikákat számít ki. Most kilenc beépített kiértékelési módszert biztosítunk. Az alábbi táblázatban talál egy gyorshivatkozást:

Kiértékelési módszer	Mérőszámok	Leírás	Kapcsolat szükséges	Kötelező bemenet	Pontszám értéke
Besorolás pontosságának kiértékelése	Pontosság	A besorolási rendszer teljesítményét méri a kimenetek és a valóság összehasonlításával.	Nem	előrejelzés, alapigazság	tartományban [0, 1].
QnA relevancia pontszámok párirányú értékelés	Pontszám, győzelem/veszítés	Felméri a kérdések megválaszolási rendszere által generált válaszok minőségét. Ez magában foglalja a relevanciapontokat az egyes válaszokhoz annak alapján, hogy mennyire felel meg a felhasználói kérdésnek, összehasonlítja a különböző válaszokat egy alapszintű válaszsal, és az eredményeket összesítve olyan metrikákat hoz létre, mint az átlagolt nyerési arányok és a relevanciaértékek.	Igen	kérdés, válasz (nincs alapigazság vagy kontextus)	Pontszám: 0-100, win/lose: 1/0
QnA-alapértékek kiértékelése	Alapozottság	Azt méri, hogy a modell előrejelzett válaszai mennyire megalapozottak a bemeneti forrásban. Még akkor is, ha az LLM válaszai igazak, ha nem ellenőrizhetők a forráson, akkor a rendszer nem lesz látható.	Igen	kérdés, válasz, kontextus (nincs alapigazság)	1-5, és 1 a legrosszabb és 5 a legjobb.
QnA GPT-hasonlóság kiértékelése	GPT-hasonlóság	Méri a felhasználó által megadott alapigaz válaszok és a GPT-modell használatával előrejelzett válasz közötti hasonlóságot.	Igen	kérdés, válasz, alapigazság (a kontextus nem szükséges)	1-5, és 1 a legrosszabb és 5 a legjobb.
QnA relevancia értékelése	Relevancia	Méri, hogy a modell előrejelzett válaszai mennyire relevánsak a feltett kérdésekre.	Igen	kérdés, válasz, kontextus (nincs alapigazság)	1-5, és 1 a legrosszabb és 5 a legjobb.
QnA koherencia-kiértékelése	Koherencia	Méri a modell előrejelzett válaszában szereplő mondatok minőségét, és azt, hogy ezek hogyan illeszkednek egymáshoz természetesen.	Igen	kérdés, válasz (nincs alapigazság vagy kontextus)	1-5, és 1 a legrosszabb és 5 a legjobb.
QnA Fluency Evaluation	Folyékonyság	A modell előrejelzett válaszának nyelvtani és nyelvi helyességét méri.	Igen	kérdés, válasz (nincs alapigazság vagy kontextus)	1-5, 1 a legrosszabb és 5 a legjobb
QnA f1 pontszámok kiértékelése	F1 pontszám	A modell előrejelzése és az alapigazság közötti közös szavak számának arányát méri.	Nem	kérdés, válasz, alapigazság (a kontextus nem szükséges)	tartományban [0, 1].
QnA Ada hasonlóság kiértékelése	Ada hasonlóság	Mondatszintű beágyazásokat számít ki az Ada embeddings API használatával az alapigazság és az előrejelzés szempontjából is. Ezután kiszámítja közöttük a koszinusz hasonlóságát (egy lebegőpontos szám)	Igen	kérdés, válasz, alapigazság (a kontextus nem szükséges)	tartományban [0, 1].

A folyamat teljesítményének javítása

A kiértékelésből származó beépített metrikák ellenőrzése után az alábbi módszerekkel javíthatja a folyamat teljesítményét:

Ellenőrizze a kimeneti adatokat a folyamat esetleges hibáinak hibakereséséhez.
Módosítsa a folyamatot a teljesítmény javítása érdekében. Ez magában foglalja, de nem kizárólagosan a következőket:
- A kérés módosítása
- A rendszerüzenet módosítása
- A folyamat paramétereinek módosítása
- A folyamatlogika módosítása

A gyors építés nehéz lehet. Bevezetést nyújtunk a gyors tervezésbe , hogy megismerje a cél elérésére alkalmas parancssor létrehozásának fogalmát. A parancssori mérnöki technikák segítségével többet tudhat meg arról, hogyan hozhat létre egy kérést, amely képes elérni a célját.

Rendszerüzenet, más néven metaprompt vagy rendszerkérés , amely az AI-rendszerek viselkedésének irányítására és a rendszer teljesítményének javítására használható. Olvassa el ezt a dokumentumot a rendszerüzenet-keretrendszerről és a nagy nyelvi modellekre (LLM-ek) vonatkozó sablonjavaslatokról, és ismerje meg, hogyan javíthatja a folyamat teljesítményét a rendszerüzenetekkel.

További olvasmány: Útmutató a Copilot minőségbiztosításához használt Golden Datasets létrehozásához

A nagyméretű nyelvi modelleket (LLM-eket) használó copilotok létrehozása általában a modell valós, forrásadatkészletek használatával történő alapozását foglalja magában. Ahhoz azonban, hogy az LLM-ek a legpontosabb és legpontosabb választ adják az ügyfél-lekérdezésekre, szükség van egy "Golden Dataset"-ra.

A Golden Dataset valósághű ügyfélkérdések és szakértők által összeállított válaszok gyűjteménye. Minőségbiztosítási eszközként szolgál a copilot által használt LLM-ekhez. A Golden Datasets nem használható LLM betanítása vagy környezet injektálására egy LLM-parancssorba. Ehelyett az LLM által generált válaszok minőségének értékelésére használják őket.

Ha a forgatókönyvben egy másodpilóta szerepel, vagy ha a saját copilot készítésén dolgozik, javasoljuk, hogy hivatkozz erre a konkrét dokumentumra: Golden Datasets létrehozása: Útmutató a Copilot minőségbiztosításához használt Golden-adatkészletek létrehozásához részletesebb útmutatásért és ajánlott eljárásokért.

Következő lépések

Ebben a dokumentumban megtanulta, hogyan küldhet be kötegelt futtatásokat, és hogyan mérheti a folyamat kimenetének minőségét egy beépített kiértékelési módszerrel. Azt is megtanulta, hogyan tekintheti meg a kiértékelési eredményeket és a metrikákat, és hogyan indíthat el egy új kiértékelési kört egy másik módszerrel vagy variánsok részhalmazával. Reméljük, hogy ez a dokumentum segít a folyamat teljesítményének javításában és a célok elérésében a Prompt folyamattal.

Megosztás a következőn keresztül:

Kötegelt futtatás elküldése és folyamat kiértékelése

Előfeltételek

Kötegelt futtatás elküldése és beépített kiértékelési módszer használata

A kiértékelési eredmény és a metrikák megtekintése

Hozam

Alapszintű eredmény és nyomkövetés

A kiértékelési eredmény és a nyomkövetés hozzáfűzése

Alapvető áttekintés

Új kiértékelési kör indítása

Áttekintés

Naplók

Pillanatkép

A kötegelt futtatási előzmények ellenőrzése és a metrikák összehasonlítása

A beépített kiértékelési metrikák ismertetése

A folyamat teljesítményének javítása

További olvasmány: Útmutató a Copilot minőségbiztosításához használt Golden Datasets létrehozásához

Következő lépések

Visszajelzés

További források