Compartilhar via


O que são "dados pessoais" e por que é importante extraí-los com responsabilidade?

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)SDK do Python azure-ai-ml v2 (atual)

Os dados pessoais são dados coletados diretamente de pessoas ou sobre elas. Os dados humanos podem incluir dados pessoais, como nomes, idade, imagens ou clipes de voz, e dados confidenciais, como dados genéticos, dados biométricos, identidade de gênero, crenças religiosas ou afiliações políticas.

A coleta desses dados pode ser importante para a criação de sistemas de IA que funcionem para todos os usuários. Mas determinadas práticas devem ser evitadas, principalmente as que podem causar danos físicos e psicológicos às pessoas que contribuem com os dados.

As práticas recomendadas neste artigo ajudam você a realizar projetos manuais de coleta de dados de voluntários em que todos os envolvidos são tratados com respeito e é feita a previsão e a redução de possíveis danos, principalmente dos direcionados a grupos vulneráveis. Isso significa que:

  • As pessoas que contribuem com dados não são coagidas ou exploradas de forma alguma e têm controle sobre quais dados pessoais são coletados.
  • As pessoas que coletam e rotulam dados têm treinamento adequado.

Essas práticas também ajudam a garantir conjuntos de dados mais equilibrados e de qualidade superior, além de aprimorarem a administração de dados pessoais.

Essas são práticas emergentes, e estamos aprendendo continuamente. As melhores práticas da próxima seção são um ponto de partida para iniciar suas próprias coletas de dados humanos responsáveis. Essas melhores práticas são fornecidas apenas para fins informativos e não devem ser tratadas como aconselhamento jurídico. Todas as coleções de dados pessoais devem passar por revisões jurídicas e de privacidade específicas.

Práticas recomendadas gerais

Sugerimos as práticas recomendadas a seguir para coletar manualmente dados pessoais diretamente de pessoas.

Melhor prática

Por quê?


Obter consentimento voluntário informado.

  • Os participantes devem entender e consentir com a coleta de dados e com o modo de uso dos dados.
  • Os dados devem ser armazenados, processados e usados apenas para finalidades que façam parte do consentimento informado documentado originalmente.
  • A documentação de consentimento deve ser armazenada corretamente e associada aos dados coletados.

Compensar os colaboradores de dados de maneira adequada.

  • Os colaboradores de dados não devem ser pressionados ou coagidos a permitir a coleta de dados e devem ser bastante compensados pelo tempo dedicado e pelos dados oferecidos.
  • Uma compensação inadequada pode ser exploratória ou coercitiva.

Permitir que os colaboradores identifiquem informações demográficas.

  • As informações demográficas que não são relatadas pelos colaboradores de dados, mas atribuídas pelos coletores de dados podem 1) resultar em metadados imprecisos e 2) desrespeitarem os colaboradores de dados.

Prever os danos ao recrutar grupos vulneráveis.

  • A coleta de dados de grupos populacionais vulneráveis apresenta riscos aos colaboradores de dados e à sua organização.

Tratar os colaboradores de dados com respeito.

  • Interações inadequadas com colaboradores de dados em qualquer fase da coleta de dados podem prejudicar a qualidade dos dados, bem como a experiência geral de coleta de dados para os colaboradores de dados e os coletores de dados.

Qualificar os fornecedores externos com cuidado.

  • As coletas de dados com fornecedores não qualificados podem resultar em dados de baixa qualidade, gerenciamento de dados ruim, práticas não profissionais e resultados potencialmente prejudiciais para os colaboradores de dados e os coletores de dados (incluindo violações de direitos humanos).
  • O trabalho de anotação ou rotulagem (por exemplo, transcrição de áudio, marcação de imagem) com fornecedores não qualificados pode resultar em conjuntos de dados de baixa qualidade ou tendenciosos, gerenciamento de dados não seguro, práticas não profissionais e resultados potencialmente prejudiciais para os colaboradores de dados (incluindo violações de direitos humanos).

Comunicar claramente as expectativas na SOW (declaração de trabalho) (contratos ou acordos) aos fornecedores.

  • Um contrato que não tem requisitos de trabalho de coleta de dados responsável pode resultar em dados de baixa qualidade ou mal coletados.

Qualificar as regiões geográficas com cuidado.

  • Quando aplicável, a coleta de dados em áreas de alto risco geopolítico e/ou em regiões geográficas desconhecidas pode resultar em dados inutilizáveis ou de baixa qualidade e afetar a segurança das partes envolvidas.

Ser um bom administrador de conjuntos de dados.

  • O gerenciamento de dados inadequado e a documentação incorreta podem resultar em uso indevido de dados.

Observação

Este artigo se concentra em recomendações para dados pessoais, incluindo dados de informações pessoais e dados confidenciais, como dados biométricos, dados de saúde, dados raciais ou étnicos, dados coletados manualmente de funcionários públicos ou de empresas em geral, bem como metadados relacionados a características humanas, como idade, ancestralidade e identidade de gênero, que podem ser criados por meio de anotação ou rotulagem.

Baixe as recomendações completas aqui.

Práticas recomendadas para coletar idade, ancestralidade e identidade de gênero

Para que os sistemas de IA funcionem bem para todos, os conjuntos de dados usados para treinamento e avaliação devem refletir a diversidade de pessoas que usarão ou serão afetadas por esses sistemas. Em muitos casos, a idade, a ascendência e a identidade de gênero podem ajudar a aproximar a gama de fatores que podem afetar o desempenho de um produto para várias pessoas; no entanto, a coleta dessas informações requer considerações especiais.

Ao coletar esses dados, sempre permita que os colaboradores de dados se identifiquem (escolham suas próprias respostas) em vez de permitir que os coletores de dados façam suposições, que possam ser incorretas. Inclua também uma opção "prefiro não responder" para cada pergunta. Essas práticas demonstrarão respeito pelos colaboradores de dados e produzirão dados mais equilibrados e de qualidade mais alta.

Essas melhores práticas foram desenvolvidas com base em três anos de pesquisa com os principais stakeholders e em colaboração com várias equipes da Microsoft: grupos de trabalho de equidade e inclusão, Inclusão e diversidade globais, Preparação global, Escritório de IA responsável e outros.

Para permitir que as pessoas se identifiquem, considere usar as seguintes perguntas de pesquisa.

Idade

Quantos anos você tem?

Selecione sua faixa etária

[Inclua faixas etárias apropriadas, de acordo com a definição de finalidade do projeto, região geográfica e diretrizes de especialistas no domínio]

  • # a #
  • # a #
  • # a #
  • Prefiro não responder

Ancestralidade

Selecione as categorias que melhor descrevem sua ancestralidade

É possível selecionar várias opções

[Inclua categorias apropriadas, de acordo com a definição de finalidade do projeto, região geográfica e diretrizes de especialistas no domínio]

  • Grupo de ancestralidade
  • Grupo de ancestralidade
  • Grupo de ancestralidade
  • Múltiplo (multiracial, ancestralidade mista)
  • Não listado, eu me descrevo como: ________________
  • Prefiro não responder

Identidade de gênero

Como você identifica?

É possível selecionar várias opções

[Inclua identidades de gênero apropriadas, de acordo com a definição de finalidade do projeto, região geográfica e diretrizes de especialistas no domínio]

  • Identidade de gênero
  • Identidade de gênero
  • Identidade de gênero
  • Prefiro me descrever: __________________
  • Prefiro não responder

Cuidado

Em algumas partes do mundo, há leis que criminalizam categorias de gênero específicas, portanto, pode ser perigoso que os colaboradores de dados respondam a essa pergunta honestamente. Sempre ofereça às pessoas uma forma de recusar a pergunta. E trabalhe com especialistas regionais e advogados para realizar uma revisão cuidadosa das leis e normas culturais de cada lugar em que você planeja coletar dados e, se necessário, evite fazer essa pergunta.

Baixe as diretrizes completas aqui.

Próximas etapas

Para obter mais informações sobre como trabalhar com seus dados:

Siga estes guias de instruções para trabalhar com seus dados depois de coletá-los: