Che cosa si intende per "dati umani" e perché è importante reperirli in modo responsabile?
SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)
I dati umani sono dati raccolti direttamente da o su persone. I dati umani possono includere dati personali, ad esempio nomi, età, immagini o clip vocali e dati sensibili, ad esempio dati genetici, dati biometrici, identità di genere, convinzioni religiose o affiliazioni politiche.
La raccolta di questi dati può essere importante per la creazione di sistemi di intelligenza artificiale che funzionano per tutti gli utenti. Tuttavia, alcune pratiche devono essere evitate, soprattutto quelle che possono causare danni fisici e psicologici ai collaboratori dati.
Le procedure consigliate in questo articolo consentiranno di condurre progetti manuali di raccolta dei dati dai volontari in cui tutti i partecipanti vengono trattati con rispetto e potenziali danni, soprattutto quelli affrontati dai gruppi vulnerabili, sono previsti e mitigati. Ciò significa che:
- Gli utenti che contribuiscono ai dati non sono costretti o sfruttati in alcun modo e hanno il controllo sui dati personali raccolti.
- Le persone che raccolgono ed etichettano i dati hanno una formazione adeguata.
Queste procedure possono anche contribuire a garantire set di dati più bilanciati e di qualità superiore e una migliore gestione dei dati umani.
Si tratta di pratiche emergenti e stiamo imparando continuamente. Le procedure consigliate nella sezione successiva sono un punto di partenza quando si iniziano le raccolte di dati umane responsabili. Queste procedure consigliate vengono fornite solo a scopo informativo e non devono essere considerate come consulenza legale. Tutte le raccolte di dati umani devono essere sottoposte a revisioni legali e di privacy specifiche.
Procedure consigliate generali
È consigliabile seguire le procedure consigliate seguenti per raccogliere manualmente i dati umani direttamente dalle persone.
Procedure consigliate
Perché?
Ottenere il consenso informato volontario.
- I partecipanti devono comprendere e fornire il consenso per la raccolta dei dati e il modo in cui verranno usati i dati.
- I dati devono essere archiviati, elaborati e usati solo per scopi che fanno parte del consenso informato documentato originale.
- La documentazione del consenso deve essere archiviata correttamente e associata ai dati raccolti.
Compensare i collaboratori ai dati in modo appropriato.
- I collaboratori ai dati non devono subire pressioni o essere costretti alle raccolte di dati e devono essere compensati in modo equo per il tempo e i dati.
- Un risarcimento inappropriato può essere considerato sfruttamento o atto coercitivo.
Consentire ai collaboratori di identificare automaticamente le informazioni demografiche.
- Le informazioni demografiche che non sono auto-segnalate dai collaboratori ai dati, ma assegnate dagli agenti di raccolta dati possono 1) comportare metadati non accurati e 2) non essere rispettosi dei collaboratori ai dati.
Prevedere la possibilità di danni quando si reclutano gruppi vulnerabili.
- La raccolta di dati da gruppi di popolazione vulnerabili introduce il rischio per i collaboratori ai dati e per l'organizzazione.
Trattare i collaboratori ai dati in relazione.
- Le interazioni non corrette con i collaboratori ai dati in qualsiasi fase della raccolta dati possono influire negativamente sulla qualità dei dati, nonché sull'esperienza complessiva di raccolta dei dati per collaboratori e agenti di raccolta dati.
Qualificare attentamente i fornitori esterni.
- Le raccolte di dati con fornitori non qualificati possono comportare dati di bassa qualità, gestione dei dati scadenti, procedure non professionali e risultati potenzialmente dannosi per collaboratori e agenti di raccolta dati (incluse violazioni dei diritti umani).
- Le attività di annotazione o etichettatura (ad esempio, trascrizione audio, assegnazione di tag alle immagini) con fornitori non qualificati possono comportare set di dati di bassa qualità o distorti, gestione dei dati scadenti, procedure non professionali e risultati potenzialmente dannosi per collaboratori (incluse violazioni dei diritti umani).
Comunicare chiaramente le aspettative nella dichiarazione di lavoro (SOW) (contratti o contratti) con i fornitori.
- Un contratto che non prevede requisiti per il lavoro responsabile della raccolta dei dati può comportare dati di scarsa qualità o di scarsa raccolta.
Qualificare attentamente le aree geografiche.
- Se applicabile, la raccolta di dati in aree ad alto rischio geopolitico e/o aree geografiche sconosciute può comportare dati inutilizzabili o di bassa qualità e può influire sulla sicurezza delle parti coinvolte.
SI consiglia di essere un buon amministratore dei set di dati.
- La gestione impropria dei dati e la documentazione non corretta possono causare un uso improprio dei dati.
Nota
Questo articolo è incentrato sulle raccomandazioni per i dati umani, inclusi dati personali e dati sensibili, ad esempio dati biometrici, dati sanitari, dati razziali o etnici, dati raccolti manualmente dai dipendenti pubblici o aziendali generali, nonché metadati relativi alle caratteristiche umane, ad esempio età, origine e identità di genere, che possono essere creati tramite annotazione o etichettatura.
Scaricare le raccomandazioni complete qui
Procedure consigliate per raccogliere l'età, l'origine e l'identità di genere
Affinché i sistemi di intelligenza artificiale funzionino bene per tutti, i set di dati usati per il training e la valutazione devono riflettere la diversità delle persone che useranno o saranno interessate da tali sistemi. In molti casi, l'età, l'origine e l'identità di genere possono aiutare a approssimare la gamma di fattori che potrebbero influire sul grado di prestazioni di un prodotto per varie persone; tuttavia, la raccolta di queste informazioni richiede una particolare considerazione.
Se si raccolgono questi dati, consentire sempre ai collaboratori ai dati di identificare autonomamente (scegliere le proprie risposte) invece di fare ipotesi da agenti di raccolta dati, che potrebbero non essere corretti. Includere anche un'opzione "preferirei non rispondere" per ogni domanda. Queste procedure mostreranno il rispetto per i collaboratori ai dati e produrranno dati più equilibrati e di qualità superiore.
Queste procedure consigliate sono state sviluppate in base a tre anni di ricerca con stakeholder e collaborazione con molti team di Microsoft: equità e inclusività gruppi di lavoro, Global Diversity & Inclusion, Global Readiness, Office of Responsible AI, e altri.
Per consentire alle persone di autoidentificarsi, è consigliabile usare le domande del sondaggio seguenti.
Età
Quanti anni hai?
Selezionare l'intervallo di età
[Includere intervalli di età appropriati come definito dallo scopo del progetto, dall'area geografica e dalle linee guida degli esperti di dominio]
- # a #
- # a #
- # a #
- Preferisce non rispondere
Cronologia
Selezionare le categorie che descrivono meglio le origini
È possibile la selezione multipla
[Includere categorie appropriate come definito dallo scopo del progetto, dall'area geografica e dalle linee guida degli esperti di dominio]
- Gruppo antenati
- Gruppo antenati
- Gruppo antenati
- Multipla (multirazziale, antenati misti)
- Non elencato, mi descrivo come: _________________
- Preferisce non rispondere
Identità di genere
Come si identifica l’intervistato?
È possibile la selezione multipla
[Includere identità di genere appropriate come definito dallo scopo del progetto, dall'area geografica e dalle linee guida degli esperti di dominio]
- Identità di genere
- Identità di genere
- Identità di genere
- Preferisce descrivere in modo autonomo: _________________
- Preferisce non rispondere
Attenzione
In alcune parti del mondo ci sono leggi che criminalizzano categorie di genere specifiche, quindi potrebbe essere pericoloso per i collaboratori ai dati rispondere a questa domanda onestamente. Dare sempre alle persone un modo per rifiutare esplicitamente. E collaborare con esperti regionali e avvocati per condurre un'attenta revisione delle leggi e delle norme culturali di ogni luogo in cui si prevede di raccogliere i dati e, se necessario, evitare di porre interamente questa domanda.
Scaricare le indicazioni complete qui.
Passaggi successivi
Per altre informazioni su come usare i dati:
- Proteggere l'accesso ai dati in Azure Machine Learning
- Opzioni di inserimento dati per i flussi di lavoro di Azure Machine Learning
- Ottimizzare l'elaborazione dei dati con Azure Machine Learning
Seguire queste guide pratiche per lavorare con i dati dopo averla raccolta: