Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka vysvětluje, jak pomocí srovnávacích testů vyhodnotit přesnost prostoru Genie.
Přehled
Srovnávací testy umožňují vytvořit sadu testovacích otázek, které můžete spustit, abyste posoudili celkovou přesnost odpovědí Genie. Dobře navržená sada srovnávacích testů, které pokrývají nejčastější dotazy uživatelů, pomáhá vyhodnotit přesnost prostoru Genie při jeho zpřesnění. Každý prostor Genie může obsahovat až 500 otázek srovnávacích testů.
Srovnávací otázky běží jako nové konverzace. Nenabízejí stejný kontext jako konverzace Genie s vlákny. Každá otázka se zpracuje jako nový dotaz pomocí pokynů definovaných v prostoru, včetně jakéhokoli zadaného příkladu SQL a funkcí SQL.
Přidání otázek k srovnávacím testům
Srovnávací dotazy by měly odrážet různé způsoby formulace běžných otázek, které uživatelé ptají. Můžete je použít ke kontrole odpovědi Genie na varianty v otazních formulacích nebo různých formátech otázek.
Při vytváření srovnávací otázky můžete volitelně zahrnout dotaz SQL, jehož sada výsledků je správná odpověď. Během srovnávacích běhů se přesnost posuzuje porovnáním sady výsledků z dotazu SQL s tím, který vygeneroval Genie. Funkce SQL katalogu Unity můžete také použít jako zlaté standardní odpovědi na srovnávací testy.
Přidání otázky srovnávacího testu:
V horní části prostoru Genie klikněte na Srovnávací testy.
Klikněte na Přidat srovnávací test.
Do pole Otázka zadejte srovnávací otázku, která se má testovat.
(Volitelné) Zadejte dotaz SQL, který odpovídá na otázku. Vlastní dotaz můžete napsat zadáním do textového pole SQL Answer, včetně SQL funkcí Unity Catalogu. Případně můžete kliknout na Vygenerovat SQL , aby Genie za vás napsal dotaz SQL. Použijte příkaz SQL, který přesně odpovídá na zadaná otázka.
Poznámka:
Tento krok se doporučuje. Přesnost je možné automaticky vyhodnotit pouze na otázky, které obsahují tento ukázkový příkaz SQL. Všechny otázky, které neobsahují odpověď SQL, vyžadují ruční kontrolu, aby bylo možné určit skóre. Pokud použijete tlačítko Generovat SQL , zkontrolujte příkaz a ujistěte se, že na tuto otázku přesně odpovídá.
(Volitelné) Kliknutím na Spustit spusťte dotaz a zobrazte výsledky.
Po dokončení úprav klikněte na Přidat srovnávací test.
Pokud chcete po uložení aktualizovat otázku, klikněte na ikonu
ikonu tužky a otevřete dialogové okno Aktualizovat otázku.
Použití srovnávacích testů k otestování alternativních formulací otázek
Při vyhodnocování přesnosti prostoru Genie je důležité strukturovat testy tak, aby odrážely reálné scénáře. Uživatelé můžou položit stejnou otázku různými způsoby. Databricks doporučuje přidat více frází stejné otázky a použít stejný příklad SQL v srovnávacích testech k úplnému posouzení přesnosti. Většina prostorů Genie by měla obsahovat dvě až čtyři fráze stejné otázky.
Spuštění otázek srovnávacích testů
Uživatelé s alespoň oprávněními CAN EDIT v prostoru Genie můžou kdykoli spustit vyhodnocení srovnávacích testů. Můžete spustit všechny otázky srovnávacího testu nebo vybrat podmnožinu otázek, které chcete testovat.
Pro každou otázku Genie interpretuje vstup, vygeneruje SQL a vrací výsledky. Vygenerované SQL a výsledky se pak porovnávají s odpovědí SQL definovanou v otázce srovnávacího testu.
Pro spuštění všech otázek srovnávacích testů:
- V horní části prostoru Genie klikněte na Srovnávací testy.
- Kliknutím na Spustit srovnávací testy spusťte testovací běh.
Spustit podmnožinu otázek z benchmarkových testů:
- V horní části prostoru Genie klikněte na Srovnávací testy.
- Zaškrtněte políčka vedle otázek, které chcete testovat.
- Kliknutím na tlačítko Spustit spustíte testovací běh u vybraných otázek.
Můžete také vybrat podmnožinu otázek z předchozího výsledku srovnávacího testu a znovu spustit tyto konkrétní otázky a otestovat vylepšení.
Srovnávací testy se budou dál spouštět, když přejdete mimo stránku. Po dokončení spuštění můžete zkontrolovat výsledky na kartě Vyhodnocení .
Interpretace hodnocení
Následující kritéria určují, jak jsou hodnoceny odpovědi Genie:
| Podmínka | Rating |
|---|---|
| Genie vygeneruje SQL, který přesně odpovídá zadané odpovědi SQL. | Dobré |
| Genie vygeneruje sadu výsledků, která přesně odpovídá sadě výsledků vytvořené odpovědí SQL. | Dobré |
| Genie vygeneruje sadu výsledků se stejnými daty jako sql Answer , ale seřadí se jinak. | Dobré |
| Genie vygeneruje sadu výsledků s číselnými hodnotami, které zaokrouhlují na stejné 4 platné číslice jako odpověď SQL. | Dobré |
| Genie vygeneruje SQL, který vytvoří prázdnou sadu výsledků nebo vrátí chybu. | Špatné |
| Genie vygeneruje sadu výsledků, která obsahuje další sloupce ve srovnání se sadou výsledků vytvořenou odpovědí SQL. | Špatné |
| Genie vygeneruje jeden výsledek buňky, který se liší od výsledku jediné buňky vytvořeného odpovědí SQL. | Špatné |
Potřebná ruční kontrola: Odpovědi jsou označeny tímto popiskem, pokud Genie nemůže vyhodnotit správnost nebo když výsledky dotazu vygenerované Genie neobsahují přesnou shodu s výsledky z poskytnuté odpovědi SQL. Všechny dotazy týkající se srovnávacích testů, které neobsahují odpověď SQL, se musí zkontrolovat ručně.
Vyhodnocení srovnávacích testů přístupu
Můžete získat přístup ke všem hodnocením srovnávacích testů a sledovat tak přesnost výsledků ve svém prostoru Genie v průběhu času. Při otevření srovnávacích testů prostoru se na kartě Vyhodnocení zobrazí časově označený seznam vyhodnocovacích spuštění. Pokud se nenajdou žádná vyhodnocovací spuštění, přečtěte si téma Jak přidat otázky ke srovnávacím testům nebo Jak spustit srovnávací testy.
Na kartě Vyhodnocení se zobrazí přehled vyhodnocení a jejich výkon v následujících kategoriích:
Název vyhodnocení: Časové razítko, které označuje, kdy došlo ke spuštění vyhodnocení. Kliknutím na časové razítko zobrazíte podrobnosti pro toto hodnocení. Stav spuštění: Označuje, jestli je vyhodnocení dokončeno, pozastaveno nebo neúspěšné. Pokud testovací běh obsahuje otázky srovnávacího testu, které nemají předdefinované odpovědi SQL, označí se k revizi v tomto sloupci. Přesnost: Číselné posouzení přesnosti ve všech otázkách srovnávacích testů. U zkušebních spuštění, která vyžadují ruční kontrolu, se míra přesnosti zobrazí až po kontrole těchto otázek. Autor: Označuje jméno uživatele, který spustil vyhodnocení.
Kontrola jednotlivých vyhodnocení
Můžete zkontrolovat jednotlivá vyhodnocení a podívat se na jednotlivé odpovědi. Posouzení můžete upravit pro libovolnou otázku a aktualizovat všechny položky, které potřebují ruční kontrolu.
Kontrola jednotlivých hodnocení:
V horní části prostoru Genie klikněte na Srovnávací testy.
Kliknutím na časové razítko pro jakékoli vyhodnocení ve sloupci Název vyhodnocení otevřete podrobné zobrazení tohoto testovacího spuštění.
Pokud chcete zobrazit podrobné zobrazení jednotlivých otázek, použijte seznam otázek na levé straně obrazovky.
Zkontrolujte a porovnejte výstupní odpověď modelu s odpovědí základní pravdy.
V případě nesprávných výsledků se zobrazí vysvětlení popisující, proč byl výsledek hodnocen jako Chybný. To vám pomůže pochopit konkrétní rozdíly mezi vygenerovaným výstupem a očekávanou základní pravdou.
Poznámka:
Výsledky těchto odpovědí se objevují v podrobnostech hodnocení po dobu jednoho týdne. Po jednom týdnu se výsledky už nezobrazují. Vygenerovaný příkaz SQL a ukázkový příkaz SQL zůstanou zachovány.
Klikněte na Aktualizovat Ground Truth a uložte odpověď jako nový Ground truth pro tuto otázku. To je užitečné, pokud neexistuje žádná základní pravda nebo pokud je odpověď lepší nebo přesnější než existující základní pravdivý výrok.
Klikněte na
na popisku k úpravě posouzení.Označte každý výsledek jako Dobrý nebo Chybný, abyste získali přesné skóre pro toto hodnocení.