Einführung

Abgeschlossen

Große Sprachmodelle (LLMs) haben transformiert, wie wir Anwendungen erstellen und alles von Chatbots bis hin zu Systemen zur Inhaltsgenerierung ermöglichen. Wenn Sie diese Modelle für die Produktion bereitstellen, müssen Sie ermitteln, ob Ihre LLM gut funktioniert.

Die Auswertung ist für die erfolgreiche Bereitstellung von LLMs in der Produktion unerlässlich. Sie müssen verstehen, wie gut Ihr Modell funktioniert, ob es zuverlässige Ausgaben erzeugt und wie es sich in verschiedenen Szenarien verhält.

In diesem Modul lernen Sie, LLMs zu bewerten, indem Sie Bewertungsansätze vergleichen und verstehen, wie die individuelle Modellbewertung in eine umfassendere KI-Systembewertung passt. Außerdem erfahren Sie mehr über Standardmetriken wie Genauigkeit und Verwirrung sowie die Implementierung von LLM-as-a-judge-Techniken für die skalierbare Auswertung.