Träna en modell för förutsägelsekodning (förhandsversion)

När du har skapat en förutsägelsekodningsmodell i Microsoft Purview eDiscovery (Premium) är nästa steg att utföra den första träningsrundan för att träna modellen på vad som är relevant och icke-relevant innehåll i din granskningsuppsättning. När du har slutfört den första träningsrundan kan du utföra efterföljande träningsrundor för att förbättra modellens förmåga att förutsäga relevant och icke-relevant innehåll.

Om du vill granska arbetsflödet för förutsägelsekodning kan du läsa Mer om förutsägelsekodning i eDiscovery (Premium)

Tips

Om du inte är E5-kund kan du prova alla premiumfunktioner i Microsoft Purview kostnadsfritt. Använd den 90 dagar långa utvärderingsversionen av Purview-lösningar för att utforska hur robusta Purview-funktioner kan hjälpa din organisation att hantera datasäkerhets- och efterlevnadsbehov. Börja nu på efterlevnadsportal i Microsoft Purview utvärderingshubben. Läs mer om registrering och utvärderingsvillkor.

Innan du tränar en modell

  • Under en träningsrunda etiketterar du objekt som relevanta eller inte relevanta baserat på innehållets relevans i dokumentet. Basera inte ditt beslut på värdena i metadatafälten. För e-postmeddelanden eller Teams-konversationer ska du till exempel inte basera etiketteringsbeslutet på meddelandedeltagarna.

Träna en modell för första gången

  1. I efterlevnadsportal i Microsoft Purview öppnar du ett eDiscovery-ärende (Premium) och väljer sedan fliken Granska uppsättningar.

  2. Öppna en granskningsuppsättning och välj sedan Analys>Hantera förutsägelsekodning (förhandsversion).

  3. På sidan Förutsägelsekodningsmodeller (förhandsversion) väljer du den modell som du vill träna.

  4. På fliken Översikt går du till Omgång 1 och väljer Starta nästa träningsrunda.

    Fliken Utbildning visas och innehåller 50 objekt som du kan etikettera.

  5. Granska varje dokument och välj sedan knappen Relevant eller Inte relevant längst ned i läsfönstret för att märka det.

    Märk varje dokument som relevant eller inte relevant.

  6. När du har etiketterat alla 50 objekt väljer du Slutför.

    Det tar några minuter för systemet att "lära sig" av din etikettering och uppdatera modellen. När den här processen är klar visas statusen Klar för modellen på sidan Förutsägelsekodningsmodeller (förhandsversion).

Utföra ytterligare träningsrundor

När du har slutfört den första träningsrundan kan du utföra efterföljande träningsrundor genom att följa stegen i föregående avsnitt. Den enda skillnaden är att antalet träningsrundan uppdateras på fliken Översikt för modellen. När du har utfört den första träningsrundan kan du till exempel välja Starta nästa träningsrunda för att starta den andra träningsrundan. Och så vidare.

Varje träningsrunda (både pågående och slutförda) visas på fliken Träning för modellen. När du väljer en träningsrunda visas en utfälld sida med information och mått för rundan.

Vad händer när du har kört en träningsrunda?

När du har slutfört den första träningsrundan startas ett jobb som gör följande:

  • Baserat på hur du etiketterade de 40 objekten i träningsuppsättningen lär sig modellen från din etikettering och uppdaterar sig själv för att bli mer exakt.

  • Modellen bearbetar sedan varje objekt i hela granskningsuppsättningen och tilldelar en förutsägelsepoäng mellan 0 (inte relevant) och 1 (relevant).

  • Modellen tilldelar en förutsägelsepoäng till de 10 objekten i kontrolluppsättningen som du etiketterade under träningsrundan. Modellen jämför förutsägelsepoängen för dessa 10 objekt med den faktiska etikett som du tilldelade objektet under träningsrundan. Baserat på den här jämförelsen identifierar modellen följande klassificering (kallas felmatris för kontrolluppsättningar) för att utvärdera modellens förutsägelseprestanda:



Etikett Modellen förutsäger att objektet är relevant Modellen förutsäger att objektet inte är relevant
Granskaren etiketterar objektet som relevant Sann positiv Falsk positiv identifiering
Granskaren etiketterar objektet som inte relevant Falskt negativt Sant negativt

Baserat på dessa jämförelser härleder modellen värden för måtten F-poäng, precision och träffsäkerhet och felmarginalen för var och en. Poäng för dessa modellprestandamått visas på en utfälld sida för träningsrundan. En beskrivning av dessa mått finns i Referens för förutsägelsekodning.

  • Slutligen bestämmer modellen de kommande 50 objekten som ska användas för nästa träningsrunda. Den här gången kan modellen välja 20 objekt från kontrolluppsättningen och 30 nya objekt från granskningsuppsättningen och utse dem till träningsuppsättningen för nästa omgång. Samplingen för nästa träningsrunda samplas inte på ett enhetligt sätt. Modellen optimerar samplingsvalet av objekt från granskningsuppsättningen för att välja objekt där förutsägelsen är tvetydig, vilket innebär att förutsägelsepoängen ligger inom intervallet 0,5. Den här processen kallas för partisk markering.

Vad händer när du utför efterföljande träningsrundor?

När du har kört efterföljande träningsrundor (efter den första träningsrundan) gör modellen följande:

  • Modellen uppdateras baserat på de etiketter som du tillämpade på träningsuppsättningen i den träningsrundan.
  • Systemet utvärderar modellens förutsägelsepoäng för objekten i kontrolluppsättningen och kontrollerar om poängen överensstämmer med hur du etiketterade objekt i kontrolluppsättningen. Utvärderingen utförs på alla märkta objekt från kontrolluppsättningen för alla träningsrundor. Resultatet av den här utvärderingen ingår i instrumentpanelen på fliken Översikt för modellen.
  • Den uppdaterade modellen ombearbetar varje objekt i granskningsuppsättningen och tilldelar varje objekt en uppdaterad förutsägelsepoäng.

Nästa steg

När du har genomfört den första träningsrundan kan du utföra fler träningsrundor eller tillämpa modellens förutsägelsepoängfilter på granskningsuppsättningen för att visa de objekt som modellen har förutsagt som relevanta eller inte relevanta. Mer information finns i Tillämpa ett förutsägelsepoängfilter på en granskningsuppsättning.