Automatisch labelen gebruiken voor aangepaste tekstclassificatie
Het labelproces is een belangrijk onderdeel van het voorbereiden van uw gegevensset. Omdat dit proces veel tijd en moeite kost, kunt u de functie voor automatisch labelen gebruiken om uw documenten automatisch te labelen met de klassen waar u ze in wilt categoriseren. U kunt momenteel taken automatisch labelen op basis van een model met behulp van GPT-modellen, waarbij u onmiddellijk een taak voor automatisch labelen kunt activeren zonder voorafgaande modeltraining. Met deze functie kunt u tijd en moeite besparen bij het handmatig labelen van uw documenten.
Vereisten
Voordat u autolabeling met GPT kunt gebruiken, hebt u het volgende nodig:
- Een project is gemaakt met een geconfigureerd Azure Blob Storage-account.
- Tekstgegevens die zijn geĆ¼pload naar uw opslagaccount.
- Klassenamen die zinvol zijn. De GPT-modellen labelen documenten op basis van de namen van de klassen die u hebt opgegeven.
- Gelabelde gegevens zijn niet vereist.
- Een Azure OpenAI-resource en -implementatie.
Een taak voor automatisch labelen activeren
Wanneer u een taak voor automatisch labelen activeert met GPT, worden er kosten in rekening gebracht bij uw Azure OpenAI-resource op basis van uw verbruik. Er wordt een schatting in rekening gebracht van het aantal tokens in elk document dat automatisch wordt gelabeld. Raadpleeg de pagina met prijzen voor Azure OpenAI voor een gedetailleerde specificatie van de prijzen per token van verschillende modellen.
Selecteer gegevenslabels in het linkernavigatiemenu.
Selecteer de knop Autolabel onder het deelvenster Activiteit rechts van de pagina.
Kies Automatisch labelen met GPT en selecteer Volgende.
Kies uw Azure OpenAI-resource en -implementatie. U moet een Azure OpenAI-resource maken en een model implementeren om door te gaan.
Selecteer de klassen die u wilt opnemen in de taak voor automatisch labelen. Standaard zijn alle klassen geselecteerd. Het gebruik van beschrijvende namen voor klassen en het opnemen van voorbeelden voor elke klasse wordt aanbevolen om goede kwaliteitslabels te bereiken met GPT.
Kies de documenten die u automatisch wilt labelen. Het is raadzaam om de niet-gelabelde documenten in het filter te kiezen.
Notitie
- Als een document automatisch is gelabeld, maar dit label al door de gebruiker is gedefinieerd, wordt alleen het door de gebruiker gedefinieerde label gebruikt.
- U kunt de documenten weergeven door op de naam van het document te klikken.
Selecteer Taak starten om de taak voor automatisch labelen te activeren. U wordt omgeleid naar de pagina voor automatisch labelen met de gestarte taken voor automatisch labelen. Het automatisch labelen van taken kan enkele seconden tot een paar minuten duren, afhankelijk van het aantal documenten dat u hebt opgenomen.
De automatisch gelabelde documenten controleren
Wanneer de taak voor automatisch labelen is voltooid, ziet u de uitvoerdocumenten op de pagina Gegevenslabeling van Language Studio. Selecteer Documenten met automatische labels controleren om de documenten weer te geven waarop het filter Automatisch is toegepast.
Documenten die automatisch zijn geclassificeerd, hebben voorgestelde labels in het activiteitsvenster paars gemarkeerd. Elk voorgesteld label heeft twee selectors (een vinkje en een annuleringspictogram) waarmee u het automatische label kunt accepteren of weigeren.
Zodra een label is geaccepteerd, verandert de paarse kleur in de standaardblauwe kleur en wordt het label opgenomen in elke verdere modeltraining om een door de gebruiker gedefinieerd label te worden.
Nadat u de labels voor de automatisch gelabelde documenten hebt geaccepteerd of afgewezen, selecteert u Labels opslaan om de wijzigingen toe te passen.
Notitie
- U wordt aangeraden automatisch gelabelde documenten te valideren voordat u ze accepteert.
- Alle labels die niet zijn geaccepteerd, worden verwijderd wanneer u uw model traint.
Volgende stappen
- Meer informatie over het labelen van uw gegevens.
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor