Evaluer språkmodeller med Azure Databricks

Modul
8 Enheter

Mellomnivå

Datatekniker

Azure Databricks

Lær hvordan du sammenligner evalueringer av stor språkmodell (LLM) og tradisjonell maskinlæring (ML), forstår deres forhold til systemevaluering av kunstig intelligens og utforsker ulike LLM-evalueringsmåledata og spesifikke oppgaverelaterte evalueringer.

Læringsmål

I denne modulen lærer du hvordan du:

Sammenlign LLM og tradisjonelle ML-evalueringer.
Beskriv forholdet mellom LLM-evaluering og evaluering av hele AI-systemer.
Beskriv generiske MÅLEDATA for LLM-evaluering, for eksempel nøyaktighet, forvirring og toksisitet.
Beskriv LLM-as-a-judge for evaluering.

Forutsetninger

Før du starter denne modulen, bør du være kjent med Azure Databricks. Vurder å fullføre Utforsk Azure Databricks før du starter denne modulen.

Introduksjon min
Sammenlign LLM og tradisjonelle ML-evalueringer min
Evaluer LLM-er og AI-systemer min
Evaluer LLM-er med standard måledata min
Beskriv LLM-as-a-judge for evaluering min
Øvelse – Evaluer en Azure OpenAI-modell min
Modulvurdering min
Sammendrag min