Wat is 'menselijke gegevens' en waarom is het belangrijk om op verantwoorde wijze bron te maken?
VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)
Menselijke gegevens zijn gegevens die rechtstreeks van of over mensen worden verzameld. Menselijke gegevens kunnen persoonlijke gegevens bevatten, zoals namen, leeftijd, afbeeldingen of spraakclips en gevoelige gegevens, zoals genetische gegevens, biometrische gegevens, genderidentiteit, religieuze overtuigingen of politieke relaties.
Het verzamelen van deze gegevens kan belangrijk zijn voor het bouwen van AI-systemen die voor alle gebruikers werken. Maar bepaalde praktijken moeten worden vermeden, met name praktijken die fysieke en psychologische schade kunnen veroorzaken aan gegevensbijdragers.
De aanbevolen procedures in dit artikel helpen u bij het handmatig verzamelen van gegevens van vrijwilligers waar iedereen betrokken wordt behandeld met respect, en potentiële schade, met name de personen die worden geconfronteerd met kwetsbare groepen, worden verwacht en verholpen. Dit betekent het volgende:
- Mensen die gegevens bijdragen, worden op geen enkele manier gedroegd of misbruikt en hebben controle over welke persoonsgegevens worden verzameld.
- Mensen die gegevens verzamelen en labelen, hebben voldoende training.
Deze procedures kunnen er ook voor zorgen dat gegevenssets van betere kwaliteit en een beter beheer van menselijke gegevens worden gegarandeerd.
Dit zijn opkomende procedures en we leren voortdurend. De aanbevolen procedures in de volgende sectie zijn een uitgangspunt wanneer u begint met uw eigen verantwoordelijke verzamelingen voor menselijke gegevens. Deze aanbevolen procedures worden alleen ter informatie verstrekt en mogen niet worden behandeld als juridisch advies. Alle verzamelingen van menselijke gegevens moeten specifieke privacy- en juridische beoordelingen ondergaan.
Algemene aanbevolen procedures
We raden de volgende aanbevolen procedures aan voor het handmatig verzamelen van menselijke gegevens rechtstreeks van personen.
Best practice
Waarom?
Vrijwillig geïnformeerde toestemming verkrijgen.
- Deelnemers moeten begrijpen en toestemming geven voor het verzamelen van gegevens en hoe hun gegevens worden gebruikt.
- Gegevens mogen alleen worden opgeslagen, verwerkt en gebruikt voor doeleinden die deel uitmaken van de oorspronkelijke gedocumenteerde geïnformeerde toestemming.
- Toestemmingsdocumentatie moet correct worden opgeslagen en gekoppeld aan de verzamelde gegevens.
Compenseert gegevensbijdragers op de juiste wijze.
- Gegevensbijdragers mogen niet onder druk worden gezet of worden afgedwongen in gegevensverzamelingen en moeten redelijk worden gecompenseerd voor hun tijd en gegevens.
- Ongepaste compensatie kan misbruikt of dwingend zijn.
Laat inzenders zelf demografische gegevens identificeren.
- Demografische gegevens die niet zelf worden gerapporteerd door inzenders van gegevens, maar die door gegevensverzamelaars worden toegewezen, kunnen 1) leiden tot onjuiste metagegevens en 2) respectvol zijn voor inzenders van gegevens.
Houd rekening met schadelijke effecten bij het werven van kwetsbare groepen.
- Het verzamelen van gegevens van kwetsbare populatiegroepen introduceert risico's voor gegevensbijdragers en uw organisatie.
Behandel gegevensbijdragers met respect.
- Onjuiste interacties met inzenders voor gegevens in elke fase van de gegevensverzameling kunnen de kwaliteit van gegevens negatief beïnvloeden, evenals de algehele ervaring voor het verzamelen van gegevens voor inzenders en gegevensverzamelaars.
Zorg ervoor dat externe leveranciers zorgvuldig in aanmerking komen.
- Gegevensverzamelingen met niet-gekwalificeerde leveranciers kunnen leiden tot gegevens van lage kwaliteit, slecht gegevensbeheer, onprofessionele praktijken en mogelijk schadelijke resultaten voor inzenders en gegevensverzamelaars (inclusief schendingen van de mensenrechten).
- Aantekeningen of labelwerk (bijvoorbeeld audiotranscriptie, afbeeldingstags) met niet-gekwalificeerde leveranciers kunnen leiden tot gegevenssets met lage kwaliteit of bevooroordeelde gegevenssets, onveilig gegevensbeheer, onprofessionele praktijken en mogelijk schadelijke resultaten voor inzenders van gegevens (inclusief schendingen van de mensenrechten).
Communiceer duidelijk verwachtingen in de Verklaring van Werk (SOW) (contracten of overeenkomsten) met leveranciers.
- Een contract dat niet voldoet aan vereisten voor het verzamelen van verantwoordelijke gegevens, kan leiden tot slechte of slecht verzamelde gegevens.
In aanmerking komende geografische gebieden zorgvuldig.
- Indien van toepassing, kan het verzamelen van gegevens op gebieden met een hoog geopolitieke risico en/of onbekende geografische gebieden leiden tot onbruikbare of lage kwaliteit gegevens en kan dit van invloed zijn op de veiligheid van betrokken partijen.
Wees een goede steward van uw gegevenssets.
- Onjuist gegevensbeheer en slechte documentatie kunnen leiden tot misbruik van gegevens.
Notitie
Dit artikel richt zich op aanbevelingen voor menselijke gegevens, waaronder persoonlijke gegevens en gevoelige gegevens, zoals biometrische gegevens, gezondheidsgegevens, ras- of etnische gegevens, gegevens die handmatig worden verzameld van het grote publiek of de werknemers van het bedrijf, evenals metagegevens met betrekking tot menselijke kenmerken, zoals leeftijd, afkomst en geslachtsidentiteit, die kunnen worden gemaakt via aantekeningen of labels.
Download hier de volledige aanbevelingen
Best practices voor het verzamelen van leeftijd, afkomst en genderidentiteit
Om ervoor te zorgen dat AI-systemen goed werken voor iedereen, moeten de gegevenssets die worden gebruikt voor training en evaluatie, de diversiteit weerspiegelen van personen die door deze systemen zullen worden gebruikt of beïnvloed. In veel gevallen kunnen leeftijd, afkomst en geslachtsidentiteit helpen bij benadering van het bereik van factoren die van invloed kunnen zijn op hoe goed een product presteert voor verschillende personen; het verzamelen van deze informatie vereist echter speciale overwegingen.
Als u deze gegevens verzamelt, laat u gegevensbijdragers altijd zelf identificeren (hun eigen antwoorden kiezen) in plaats van dat gegevensverzamelaars veronderstellingen maken, wat mogelijk onjuist is. Neem ook een optie 'liever niet te beantwoorden' op voor elke vraag. Deze praktijken tonen respect voor de inzenders van gegevens en leveren evenwichtigere en hoogwaardigere gegevens op.
Deze best practices zijn ontwikkeld op basis van drie jaar onderzoek met beoogde belanghebbenden en samenwerking met veel teams bij Microsoft: fairness and inclusiveness working groups, Global Diversity & Inclusion, Global Readiness, Office of Responsible AI en anderen.
Als u wilt dat personen zichzelf kunnen identificeren, kunt u overwegen de volgende enquêtevragen te gebruiken.
Leeftijd
Hoe oud ben je?
Selecteer uw leeftijdsbereik
[Neem geschikte leeftijdsbereiken op zoals gedefinieerd door projectdoel, geografische regio en begeleiding van domeinexperts]
- # naar #
- # naar #
- # naar #
- Liever niet beantwoorden
Afstamming
Selecteer de categorieën die het beste uw afkomst beschrijven
Kan meerdere selecteren
[Neem de juiste categorieën op zoals gedefinieerd door projectdoel, geografische regio en richtlijnen van domeinexperts]
- Groep Voorcestry
- Groep Voorcestry
- Groep Voorcestry
- Multiple (multiracial, mixed Ancestry)
- Niet vermeld, ik beschrijf mezelf als: _________________
- Liever niet beantwoorden
Geslachtsidentiteit
Hoe identificeert u dit?
Kan meerdere selecteren
[Neem de juiste geslachtsidentiteiten op zoals gedefinieerd door projectdoel, geografische regio en richtlijnen van domeinexperts]
- Geslachtsidentiteit
- Geslachtsidentiteit
- Geslachtsidentiteit
- Geef de voorkeur aan zelfbeschrijf: _________________
- Liever niet beantwoorden
Let op
In sommige delen van de wereld zijn er wetten die specifieke geslachtscategorieën criminaliseren, dus het kan gevaarlijk zijn voor gegevensbijdragers om deze vraag eerlijk te beantwoorden. Geef mensen altijd een manier om zich af te afmelden. En werk samen met regionale deskundigen en advocaten om een zorgvuldige beoordeling van de wetten en culturele normen uit te voeren van elke plaats waar u van plan bent om gegevens te verzamelen en, indien nodig, te voorkomen dat u deze vraag volledig stelt.
Download hier de volledige richtlijnen.
Volgende stappen
Voor meer informatie over het werken met uw gegevens:
- Gegevenstoegang beveiligen in Azure Machine Learning
- Opties voor gegevensopname voor Azure Machine Learning-werkstromen
- Gegevensverwerking optimaliseren met Azure Machine Learning
Volg deze handleidingen om met uw gegevens te werken nadat u deze hebt verzameld: