Een tekstlabelproject instellen en labels exporteren
In Azure Machine Learning leert u hoe u projecten voor gegevenslabels maakt en uitvoert om tekstgegevens te labelen. Geef één label of meerdere labels op die op elk tekstitem moeten worden toegepast.
U kunt ook het hulpprogramma voor gegevenslabels in Azure Machine Learning gebruiken om een afbeeldingslabelproject te maken.
Mogelijkheden voor tekstlabels
Azure Machine Learning-gegevenslabels is een hulpprogramma dat u kunt gebruiken om projecten voor gegevenslabels te maken, beheren en bewaken. Gebruik deze voor het volgende:
- Coördineer gegevens, labels en teamleden om labeltaken op efficiënte wijze te beheren.
- Houd de voortgang bij en onderhoud de wachtrij met onvolledige labeltaken.
- Start en stop het project en beheer de voortgang van het labelen.
- Controleer en exporteer de gelabelde gegevens als een Azure Machine Learning-gegevensset.
Belangrijk
De tekstgegevens waarmee u werkt in het hulpprogramma voor gegevenslabels van Azure Machine Learning moeten beschikbaar zijn in een Azure Blob Storage-gegevensarchief. Als u geen bestaand gegevensarchief hebt, kunt u uw gegevensbestanden uploaden naar een nieuw gegevensarchief wanneer u een project maakt.
Deze gegevensindelingen zijn beschikbaar voor tekstgegevens:
- .txt: Elk bestand vertegenwoordigt één item dat moet worden gelabeld.
- .csv of .tsv: Elke rij vertegenwoordigt één item dat aan de labeler wordt gepresenteerd. U bepaalt welke kolommen de labeler kan zien wanneer de rij wordt gelabeld.
Vereisten
U gebruikt deze items om tekstlabels in te stellen in Azure Machine Learning:
- De gegevens die u wilt labelen, in lokale bestanden of in Azure Blob Storage.
- De set labels die u wilt toepassen.
- De instructies voor het labelen.
- Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.
- Een Azure Machine Learning-werkruimte. Raadpleeg Een Azure Machine Learning-werkruimte maken.
Een tekstlabelproject maken
Labelprojecten worden beheerd in Azure Machine Learning. Gebruik de pagina Gegevenslabeling in Machine Learning om uw projecten te beheren.
Als uw gegevens zich al in Azure Blob Storage bevinden, moet u ervoor zorgen dat deze beschikbaar zijn als een gegevensarchief voordat u het labelproject maakt.
Als u een project wilt maken, selecteert u Project toevoegen.
Voer voor projectnaam een naam in voor het project.
U kunt de projectnaam niet opnieuw gebruiken, zelfs niet als u het project verwijdert.
Als u een project voor tekstlabels wilt maken, selecteert u Tekst voor mediatype.
Selecteer een optie voor het type labeltaak voor uw scenario:
- Als u slechts één label wilt toepassen op elk stuk tekst uit een set labels, selecteert u Tekstclassificatie multiklasse.
- Als u een of meer labels wilt toepassen op elk stuk tekst uit een set labels, selecteert u Meerdere labels voor tekstclassificatie.
- Als u labels wilt toepassen op afzonderlijke tekstwoorden of op meerdere tekstwoorden in elk item, selecteert u Herkenning van benoemde entiteiten.
Selecteer Volgende om door te gaan.
Personeel toevoegen (optioneel)
Selecteer Alleen een leverancierlabelbedrijf uit Azure Marketplace gebruiken als u een gegevenslabelbedrijf hebt ingeschakeld vanuit Azure Marketplace. Selecteer vervolgens de leverancier. Als uw leverancier niet in de lijst wordt weergegeven, schakelt u deze optie uit.
Zorg ervoor dat u eerst contact op neemt met de leverancier en een contract ondertekent. Zie Werken met een leverancier van gegevenslabels (preview) voor meer informatie.
Selecteer Volgende om door te gaan.
Een gegevensset selecteren of maken
Als u al een gegevensset hebt gemaakt die uw gegevens bevat, selecteert u deze in de vervolgkeuzelijst Een bestaande gegevensset selecteren. U kunt ook Een gegevensset maken selecteren om een bestaand Azure-gegevensarchief te gebruiken of lokale bestanden te uploaden.
Notitie
Een project mag niet meer dan 500.000 bestanden bevatten. Als uw gegevensset het aantal bestanden overschrijdt, worden alleen de eerste 500.000 bestanden geladen.
Een gegevensset maken uit een Azure-gegevensopslag
In veel gevallen kunt u lokale bestanden uploaden. Azure Storage Explorer biedt echter een snellere en krachtigere manier om een grote hoeveelheid gegevens over te dragen. We raden Storage Explorer aan als de standaardmanier om bestanden te verplaatsen.
Een gegevensset maken op basis van gegevens die al zijn opgeslagen in Blob Storage:
- Selecteer Maken.
- Voer bij Naam een naam in voor uw gegevensset. Voer desgewenst een beschrijving in.
- Kies het type gegevensset:
- Als u een .csv- of TSV-bestand gebruikt en elke rij een antwoord bevat, selecteert u Tabellair.
- Als u afzonderlijke .txt bestanden voor elk antwoord gebruikt, selecteert u Bestand.
- Selecteer Volgende.
- Selecteer In Azure Storage en selecteer vervolgens Volgende.
- Selecteer het gegevensarchief en selecteer vervolgens Volgende.
- Als uw gegevens zich in een submap in Blob Storage bevinden, kiest u Bladeren om het pad te selecteren.
- Als u alle bestanden in de submappen van het geselecteerde pad wilt opnemen, voegt u het pad toe
/**
. - Als u alle gegevens in de huidige container en de bijbehorende submappen wilt opnemen, voegt
**/*.*
u het pad toe.
- Als u alle bestanden in de submappen van het geselecteerde pad wilt opnemen, voegt u het pad toe
- Selecteer Maken.
- Selecteer de gegevensasset die u hebt gemaakt.
Een gegevensset maken uit geüploade gegevens
Uw gegevens rechtstreeks uploaden:
- Selecteer Maken.
- Voer bij Naam een naam in voor uw gegevensset. Voer desgewenst een beschrijving in.
- Kies het type gegevensset:
- Als u een .csv- of TSV-bestand gebruikt en elke rij een antwoord bevat, selecteert u Tabellair.
- Als u afzonderlijke .txt bestanden voor elk antwoord gebruikt, selecteert u Bestand.
- Selecteer Volgende.
- Selecteer Uit lokale bestanden en selecteer vervolgens Volgende.
- (Optioneel) Selecteer een gegevensarchief. De standaarduploads naar het standaard-blobarchief (workspaceblobstore) voor uw Machine Learning-werkruimte.
- Selecteer Volgende.
- Selecteer Uploadbestanden>uploaden of Uploadmap uploaden> om de lokale bestanden of mappen te selecteren die u wilt uploaden.
- Zoek uw bestanden of map in het browservenster en selecteer Vervolgens Openen.
- Ga door met het selecteren van Uploaden totdat u al uw bestanden en mappen opgeeft.
- Schakel desgewenst het selectievakje Overschrijven in als dit al bestaat . Controleer de lijst met bestanden en mappen.
- Selecteer Volgende.
- Bevestig de details. Selecteer Terug om de instellingen te wijzigen of selecteer Maken om de gegevensset te maken.
- Selecteer ten slotte de gegevensasset die u hebt gemaakt.
Incrementeel vernieuwen configureren
Als u nieuwe gegevensbestanden aan uw gegevensset wilt toevoegen, gebruikt u incrementeel vernieuwen om de bestanden aan uw project toe te voegen.
Wanneer incrementeel vernieuwen met regelmatige tussenpozen is ingesteld, wordt de gegevensset periodiek gecontroleerd of nieuwe bestanden aan een project worden toegevoegd op basis van de voltooiingssnelheid van labels. De controle op nieuwe gegevens stopt wanneer het project maximaal 500.000 bestanden bevat.
Selecteer Incrementeel vernieuwen met regelmatige tussenpozen inschakelen wanneer u wilt dat uw project voortdurend controleert op nieuwe gegevens in het gegevensarchief.
Schakel de selectie uit als u niet wilt dat nieuwe bestanden in het gegevensarchief automatisch worden toegevoegd aan uw project.
Belangrijk
Wanneer incrementeel vernieuwen is ingeschakeld, maakt u geen nieuwe versie voor de gegevensset die u wilt bijwerken. Als u dit wel doet, worden de updates niet weergegeven omdat het gegevenslabelproject is vastgemaakt aan de eerste versie. Gebruik in plaats daarvan Azure Storage Explorer om uw gegevens te wijzigen in de juiste map in Blob Storage.
Verwijder ook geen gegevens. Als u gegevens verwijdert uit de gegevensset die uw project gebruikt, wordt er een fout in het project veroorzaakt.
Nadat het project is gemaakt, gebruikt u het tabblad Details om incrementeel vernieuwen te wijzigen, bekijkt u het tijdstempel voor de laatste vernieuwing en vraagt u een onmiddellijke vernieuwing van gegevens aan.
Notitie
Projecten die gegevenssetinvoer in tabelvorm (.csv of .tsv) gebruiken, kunnen incrementeel vernieuwen gebruiken. Met incrementeel vernieuwen worden echter alleen nieuwe tabellaire bestanden toegevoegd. Tijdens het vernieuwen worden wijzigingen in bestaande tabellaire bestanden niet herkend.
Labelcategorieën opgeven
Geef op de pagina Labelcategorieën een set klassen op om uw gegevens te categoriseren.
De nauwkeurigheid en snelheid van uw labelers worden beïnvloed door hun vermogen om te kiezen tussen klassen. Gebruik bijvoorbeeld, in plaats van het hele geslacht en soort van planten, alleen een veldcode op of gebruik een afkorting voor het plantengeslacht.
U kunt een platte lijst gebruiken of groepen labels maken.
Als u een platte lijst wilt maken, selecteert u Labelcategorie toevoegen om elk label te maken.
Als u labels in verschillende groepen wilt maken, selecteert u Labelcategorie toevoegen om de labels op het hoogste niveau te maken. Selecteer vervolgens het plusteken (+) onder elk hoogste niveau om het volgende niveau van labels voor die categorie te maken. U kunt maximaal zes niveaus maken voor elke groepering.
U kunt labels op elk niveau selecteren tijdens het tagproces. De labelsAnimal
, Animal/Cat
, Animal/Dog
, , Color
, Color/Black
en Color/Silver
Color/White
zijn bijvoorbeeld allemaal beschikbare opties voor een label. In een project met meerdere labels hoeft u geen van elke categorie te kiezen. Als dat uw bedoeling is, moet u deze informatie in uw instructies opnemen.
De tekstlabeltaak beschrijven
Het is belangrijk om de labeltaak duidelijk uit te leggen. Op de pagina Labelinstructies kunt u een koppeling toevoegen aan een externe site met labelinstructies of u kunt instructies opgeven in het invoervak op de pagina. Houd de instructies taakgericht en geschikt voor de doelgroep. Houd rekening met deze vragen:
- Wat zijn de labels die labelaars zien en hoe kiezen ze ertussen? Is er een referentietekst waarnaar kan worden verwezen?
- Wat moeten ze doen als er geen geschikt label aanwezig is?
- Wat moeten ze doen als meerdere labels geschikt zijn?
- Welke drempelwaarde voor betrouwbaarheid moeten ze toepassen op een label? Wilt u de beste schatting van de labeler als ze het niet zeker weten?
- Wat moeten labelaars doen met belangrijke objecten die gedeeltelijk buiten beeld vallen of overlappen?
- Wat moeten ze doen wanneer een belangrijk object wordt afgesneden door de rand van de afbeelding?
- Wat moeten ze doen als ze denken dat ze een fout hebben gemaakt nadat ze een label hebben ingediend?
- Wat moeten ze doen als ze problemen met de beeldkwaliteit ontdekken, waaronder slechte lichtomstandigheden, reflecties, verlies van focus, ongewenste achtergrond, abnormale camerahoeken, enzovoort?
- Wat moeten ze doen als meerdere revisoren verschillende meningen hebben over het toepassen van een label?
Notitie
Labelers kunnen de eerste negen labels selecteren met nummertoetsen 1 tot en met 9.
Kwaliteitscontrole (preview)
Als u nauwkeurigere labels wilt krijgen, gebruikt u de pagina Kwaliteitscontrole om elk item naar meerdere labelaars te verzenden.
Belangrijk
Consensuslabeling is momenteel beschikbaar als openbare preview.
De preview-versie wordt aangeboden zonder Service Level Agreement en wordt niet aanbevolen voor productieworkloads. Misschien worden bepaalde functies niet ondersteund of zijn de mogelijkheden ervan beperkt.
Zie Aanvullende gebruiksvoorwaarden voor Microsoft Azure-previews voor meer informatie.
Als u elk item naar meerdere labelaars wilt laten verzenden, selecteert u Consensuslabeling inschakelen (preview). Stel vervolgens waarden in voor Minimumlabels en Maximumlabels om op te geven hoeveel labelers moeten worden gebruikt. Zorg ervoor dat u zoveel labelers beschikbaar hebt als uw maximumaantal. U kunt deze instellingen niet wijzigen nadat het project is gestart.
Als een consensus wordt bereikt vanaf het minimum aantal labelaars, wordt het item gelabeld. Als er geen consensus wordt bereikt, wordt het item naar meer labelaars verzonden. Als er geen consensus is nadat het item naar het maximum aantal labelers is gegaan, is de status Controle vereist en is de projecteigenaar verantwoordelijk voor het labelen van het item.
Met ML ondersteund labelen van gegevens gebruiken
Als u labeltaken wilt versnellen, kan de pagina met door ML ondersteunde labels automatische machine learning-modellen activeren. Met machine learning (ML)-ondersteunde labels kunnen zowel bestandsgegevensinvoer (.txt) als in tabelvorm (.csv) worden verwerkt.
Met ML ondersteunde labels gebruiken:
- Selecteer Met ML ondersteund labelen inschakelen.
- Selecteer de gegevenssettaal voor het project. Deze lijst bevat alle talen die de Klasse TextDNNLanguages ondersteunt.
- Geef een rekendoel op dat moet worden gebruikt. Als u geen rekendoel in uw werkruimte hebt, maakt u met deze stap een rekencluster en voegt u dit toe aan uw werkruimte. Het cluster wordt gemaakt met een minimum van nul knooppunten en kost niets wanneer het niet in gebruik is.
Meer informatie over door ML ondersteund labelen
Aan het begin van het labelproject worden de items in een willekeurige volgorde geplaatst om potentiële vooroordelen te verminderen. Het getrainde model weerspiegelt echter eventuele vooroordelen die aanwezig zijn in de gegevensset. Als bijvoorbeeld 80 procent van uw items van één klasse is, komt ongeveer 80 procent van de gegevens die worden gebruikt voor het trainen van het model in die klasse terecht.
Als u het DNN-model wilt trainen dat door ML ondersteund labelen wordt gebruikt, is de invoertekst per trainingsvoorbeeld beperkt tot ongeveer de eerste 128 woorden in het document. Voor tabellaire invoer worden alle tekstkolommen samengevoegd voordat deze limiet wordt toegepast. Met deze praktische limiet kan de modeltraining binnen een redelijke tijd worden voltooid. De werkelijke tekst in een document (voor bestandsinvoer) of een set tekstkolommen (voor invoer in tabelvorm) kan groter zijn dan 128 woorden. De limiet heeft alleen betrekking op wat het model intern gebruikt tijdens het trainingsproces.
Het aantal gelabelde items dat nodig is om geassisteerde labels te starten, is geen vast nummer. Dit aantal kan aanzienlijk verschillen van het ene labelproject naar het andere. De variantie is afhankelijk van veel factoren, waaronder het aantal labelklassen en de labeldistributie.
Wanneer u consensuslabels gebruikt, wordt het consensuslabel gebruikt voor training.
Omdat de uiteindelijke labels nog steeds afhankelijk zijn van invoer van de labeler, wordt deze technologie ook wel human-in-the-loop labeling genoemd.
Notitie
Door ML ondersteunde gegevenslabels bieden geen ondersteuning voor standaardopslagaccounts die zijn beveiligd achter een virtueel netwerk. U moet een niet-standaardopslagaccount gebruiken voor door ML ondersteunde gegevenslabels. Het niet-standaard opslagaccount kan worden beveiligd achter het virtuele netwerk.
Vooraf labelen
Nadat u voldoende labels voor training hebt ingediend, wordt het getrainde model gebruikt om tags te voorspellen. De labeler ziet nu pagina's met voorspelde labels die al aanwezig zijn op elk item. De taak omvat vervolgens het controleren van deze voorspellingen en het corrigeren van eventuele verkeerd gelabelde items vóór het indienen van pagina's.
Nadat u het machine learning-model hebt getraind op uw handmatig gelabelde gegevens, wordt het model geëvalueerd op een testset met handmatig gelabelde items. De evaluatie helpt bij het bepalen van de nauwkeurigheid van het model bij verschillende betrouwbaarheidsdrempels. In het evaluatieproces wordt een betrouwbaarheidsdrempel ingesteld waarboven het model nauwkeurig genoeg is om prelabels weer te geven. Het model wordt vervolgens geëvalueerd op basis van niet-gelabelde gegevens. Items met voorspellingen die betrouwbaarder zijn dan de drempelwaarde, worden gebruikt voor vooraf labelen.
Het project voor tekstlabels initialiseren
Nadat het labelproject is geïnitialiseerd, kunnen sommige aspecten van het project niet meer worden gewijzigd. U kunt het taaktype of de gegevensset niet wijzigen. U kunt labels en de URL voor de taakbeschrijving wel wijzigen. Controleer zorgvuldig de instellingen voordat u het project maakt. Nadat u het project hebt ingediend, keert u terug naar de overzichtspagina gegevenslabels , waarin het project wordt weergegeven als Initialiseren.
Notitie
De overzichtspagina wordt mogelijk niet automatisch vernieuwd. Vernieuw de pagina na een pauze handmatig om de status van het project te zien als Gemaakt.
Probleemoplossing
Zie Problemen met het maken van een project of het openen van gegevens oplossen problemen met labelen van gegevens.