Sdílet prostřednictvím


Co jsou "lidská data" a proč je důležité zdroj zodpovědně?

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

Lidské údaje jsou data shromážděná přímo od lidí nebo o lidech. Lidské údaje můžou zahrnovat osobní údaje, jako jsou jména, věk, obrázky nebo hlasové klipy a citlivá data, jako jsou genetická data, biometrická data, genderová identita, náboženské přesvědčení nebo politické vztahy.

Shromažďování těchto dat může být důležité pro vytváření systémů AI, které fungují pro všechny uživatele. Určité postupy by se ale měly vyhnout, zejména ty, které můžou způsobit fyzické a psychologické škody přispěvatelům dat.

Osvědčené postupy v tomto článku vám pomůžou provádět projekty ručního shromažďování dat od dobrovolníků, u kterých se každý, kdo se zabývá respektem, a potenciální škody , zejména těch, kterým čelí zranitelné skupiny, se očekává a zmírní. To znamená, že:

  • Lidé, kteří přispívají k datům, nejsou žádným způsobem přetěžováni ani zneužívají a mají kontrolu nad tím, jaké osobní údaje se shromažďují.
  • Lidé, kteří shromažďují a označují data, mají odpovídající školení.

Tyto postupy mohou také pomoci zajistit vyváženější a kvalitnější datové sady a lepší správu lidských dat.

Jedná se o nově vznikající postupy a neustále se učíme. Osvědčené postupy v další části jsou výchozím bodem při zahájení shromažďování vlastních zodpovědných lidských dat. Tyto osvědčené postupy jsou poskytovány pouze pro informační účely a neměly by se považovat za právní poradenství. Všechny kolekce lidských dat by měly procházet konkrétními zásadami ochrany osobních údajů a právní kontroly.

Obecné osvědčené postupy

Doporučujeme následující osvědčené postupy pro ruční shromažďování lidských dat přímo od lidí.

Osvědčený postup

Proč?


Získání dobrovolného informovaného souhlasu

  • Účastníci by měli porozumět shromažďování dat a souhlasit s jejich daty a jejich používáním.
  • Data by měla být uložena, zpracována a používána pouze pro účely, které jsou součástí původního zdokumentovaného informovaného souhlasu.
  • Dokumentace k vyjádření souhlasu by měla být správně uložená a přidružená ke shromážděným datům.

Odpovídajícím způsobem vyrovnávat přispěvatele dat.

  • Přispěvatelé dat by neměli být nuceni ani přetěžováni do kolekcí dat a měli by být poměrně kompenzováni pro jejich čas a data.
  • Nevhodné kompenzace může být zneužitelné nebo vynucené.

Umožňuje přispěvatelům identifikovat demografické informace sami.

  • Demografické informace, které přispěvatelé dat neoznamují sami, ale které jim přidělují kolektory dat, můžou 1) vést k nepřesným metadatům a 2) nebudou pro přispěvatele dat neslušné.

Předvídejte škody při náboru ohrožených skupin.

  • Shromažďování dat z ohrožených skupin obyvatel představuje riziko pro přispěvatele dat a vaši organizaci.

Zacházejte s přispěvateli dat s respektem.

  • Nesprávné interakce s přispěvateli dat v jakékoli fázi shromažďování dat můžou negativně ovlivnit kvalitu dat a také celkové prostředí shromažďování dat pro přispěvatele dat a kolektory dat.

Kvalifikujte externí dodavatele pečlivě.

  • Shromažďování dat s nekvalifikovanými dodavateli může vést k nízké kvalitě dat, špatné správě dat, neprofesionálním postupům a potenciálně škodlivým výsledkům pro přispěvatele dat a kolektory dat (včetně porušení lidských práv).
  • Práce s poznámkami nebo popisky (např. přepis zvuku, označování obrázků) u nekvalifikovaných dodavatelů může vést k nízké kvalitě nebo zkresleným datovým sadám, nezabezpečenému správě dat, neprofesionálním postupům a potenciálně škodlivým výsledkům pro přispěvatele dat (včetně porušení lidských práv).

Jasně sdělit očekávání v prohlášení o práci (SOW) (smlouvy nebo dohody) s dodavateli.

  • Smlouva, která nemá požadavky na zodpovědnou práci shromažďování dat, může vést k nízké kvalitě nebo špatně shromážděným datům.

Kvalifikujte zeměpisné oblasti pečlivě.

  • Pokud je to možné, může shromažďování dat v oblastech s vysokým geopolitickým rizikem nebo neznámých zeměpisných oblastí vést k nepoužitelným nebo nekvalitním údajům a může mít vliv na bezpečnost zúčastněných stran.

Buďte dobrým správcem datových sad.

  • Nesprávná správa dat a špatná dokumentace můžou vést ke zneužití dat.

Poznámka:

Tento článek se zaměřuje na doporučení pro lidské údaje, včetně osobních údajů a citlivých údajů, jako jsou biometrická data, zdravotní údaje, rasová nebo etnická data, data shromážděná ručně od obecných zaměstnanců nebo zaměstnanců společnosti a také metadata týkající se lidských charakteristik, jako je věk, původ a identita pohlaví, která mohou být vytvořena prostřednictvím poznámek nebo popisků.

Stáhněte si zde úplná doporučení.

Osvědčené postupy pro shromažďování věku, ancestry a genderové identity

Aby systémy AI dobře fungovaly pro všechny, měly by datové sady používané pro trénování a hodnocení odrážet rozmanitost lidí, kteří budou tyto systémy používat nebo budou ovlivněny. V mnoha případech může věk, rodná identita a identita pohlaví pomoci odhadnout rozsah faktorů, které mohou ovlivnit, jak dobře produkt funguje pro různé lidi; shromažďování těchto informací však vyžaduje zvláštní pozornost.

Pokud tato data shromáždíte, vždy nechte přispěvatele dat, aby se sami identifikovali (zvolili vlastní odpovědi) místo toho, aby kolektory dat měly předpoklady, což může být nesprávné. Pro každou otázku také uveďte možnost "preferovat nezodpovědět". Tyto postupy ukazují respekt pro přispěvatele dat a poskytují vyváženější a kvalitnější data.

Tyto osvědčené postupy byly vyvinuty na základě tří let výzkumu se zamýšlenými zúčastněnými stranami a spolupráce s mnoha týmy v Microsoftu: pracovní skupiny spravedlnosti a inkluzi, globální rozmanitost a začlenění, globální připravenost, office zodpovědné umělé inteligence a další.

Pokud chcete lidem umožnit vlastní identifikaci, zvažte použití následujících otázek průzkumu.

Věk

Kolik je ti let?

Vyberte váš věkový rozsah.

[Zahrnout odpovídající věkové rozsahy definované podle účelu projektu, zeměpisné oblasti a pokynů od odborníků na doménu]

  • # to #
  • # to #
  • # to #
  • Radši nezodpovědět

Původ

Vyberte kategorie, které nejlépe popisují vaši předváděnou verzi.

Může vybrat více

[Zahrňte vhodné kategorie definované podle účelu projektu, geografické oblasti a pokynů od odborníků na doménu]

  • Skupina Ancestry
  • Skupina Ancestry
  • Skupina Ancestry
  • Násobek (multiracial, smíšený Ancestry)
  • Není uvedeno, popíšem sám sebe jako: _________________
  • Radši nezodpovědět

Genderová identita

Jak zjistíte?

Může vybrat více

[Zahrňte odpovídající genderové identity definované podle účelu projektu, geografické oblasti a pokynů odborníků na doménu.

  • Genderová identita
  • Genderová identita
  • Genderová identita
  • Preferovat vlastní popis: _________________
  • Radši nezodpovědět

Upozornění

Vněkterýchch právech může být v některých částechsvětach Vždy dejte lidem způsob, jak se odhlásit. A spolupracujte s regionálními odborníky a advokáty na pečlivém přezkoumání zákonů a kulturních norem na každém místě, kde plánujete shromažďovat data, a v případě potřeby se této otázce zcela vyhněte.

Úplné pokyny si můžete stáhnout zde.

Další kroky

Další informace o tom, jak pracovat s daty:

Po shromáždění těchto návodů vám po shromáždění dat pomůžou pracovat s daty: