¿Qué son los “datos humanos” y por qué es importante abastecerse de forma responsable?

SE APLICA A:Extensión ML de la CLI de Azure v2 (actual)SDK de Python azure-ai-ml v2 (actual)

Los datos humanos son datos recopilados directamente de personas o sobre ellas. Los datos humanos podrían incluir datos personales, como nombres, edades, imágenes o clips de voz, y datos confidenciales, como datos genéticos, datos biométricos, identidad de género, creencias religiosas o afiliaciones políticas.

Recopilarlos puede ser importante para crear sistemas de inteligencia artificial que funcionen para todos los usuarios. Sin embargo, se deben evitar ciertas prácticas, especialmente aquellas que pueden causar daños físicos y psicológicos a los colaboradores de datos.

Los procedimientos recomendados de este artículo le ayudarán a llevar a cabo proyectos manuales de recopilación de datos de voluntarios en los que todos los implicados se tratan con respeto, además de que los posibles daños, especialmente aquellos a los que se enfrentan los grupos vulnerables, se prevén y mitigan. Esto significa que:

  • Las personas que aportan datos no son coaccionadas ni explotadas de ninguna manera, y tienen control sobre qué datos personales se recopilan.
  • Las personas que recopilan y etiquetan datos tienen un entrenamiento adecuado.

Estas prácticas también pueden ayudar a garantizar conjuntos de datos más equilibrados y de mayor calidad, además de mejorar su administración.

Se trata de prácticas emergentes y estamos aprendiendo continuamente. Los procedimientos recomendados de la sección siguiente son un punto de partida para comenzar sus propias recopilaciones de datos humanos responsables. Estos procedimientos recomendados se proporcionan únicamente con fines informativos y no deberían tratarse como asesoramiento legal. Todas las recopilaciones de datos humanos deben someterse a revisiones legales y de privacidad específicas.

Procedimientos recomendados generales

Se sugieren los siguientes procedimientos recomendados para recopilar de manera manual datos humanos directamente de personas.

Procedimiento recomendado

¿Por qué?


Obtener consentimiento informado voluntario.

  • Los participantes deben comprender y consentir la recopilación de datos y el uso que se hará de ellos.
  • Los datos solo deben almacenarse, procesarse y usarse con fines que formen parte del consentimiento informado y documentado original.
  • La documentación de consentimiento debe almacenarse correctamente y asociarse con los datos recopilados.

Compensar adecuadamente a los colaboradores de datos.

  • Los colaboradores de datos no deben ser presionados ni coaccionados para que acepten la recolección de datos y se los debe compensar adecuadamente por su tiempo y datos.
  • La compensación inapropiada puede ser explotadora o coercitiva.

Permitir que los colaboradores identifiquen automáticamente la información demográfica.

  • La información demográfica no notificada por los colaboradores de datos, pero asignada por los recopiladores puede 1) dar lugar a metadatos inexactos y 2) ser irrespetuosa para los colaboradores de datos.

Anticipar daños al contratar grupos vulnerables.

  • La recopilación de datos de grupos de población vulnerables presenta riesgos para los colaboradores de datos y su organización.

Tratar a los colaboradores de datos con respeto.

  • Las interacciones incorrectas con los colaboradores de datos en cualquier fase de la recopilación de datos pueden afectar negativamente a la calidad de los mismos, así como a la experiencia general de recopilación para los colaboradores y recopiladores de datos.

Calificar cuidadosamente a proveedores externos.

  • Las recopilaciones de datos con proveedores no calificados pueden dar lugar a datos de baja calidad, administración de datos deficientes, prácticas no profesionales y resultados potencialmente perjudiciales para los colaboradores y recopiladores de datos (incluidas las violaciones de los derechos humanos).
  • El trabajo de anotación o etiquetado (por ejemplo, transcripción de audio, etiquetado de imágenes) con proveedores no calificados puede dar lugar a conjuntos de datos sesgados o de baja calidad, administración de datos no seguros, prácticas no profesionales y resultados potencialmente perjudiciales para los colaboradores (incluidas las violaciones a los derechos humanos).

Comunicar claramente las expectativas en la declaración del trabajo (SOW) (contratos o acuerdos) con los proveedores.

  • Un contrato que no refleja los requisitos de un trabajo de recopilación de datos responsable puede dar lugar a datos de baja calidad o mal recopilados.

Calificar cuidadosamente las zonas geográficas.

  • Cuando proceda, la recopilación de datos en áreas de alto riesgo geopolítico o zonas geográficas desconocidas puede dar lugar a datos inutilizables o de baja calidad y puede afectar a la seguridad de las partes implicadas.

Ser un buen administrador de los conjuntos de datos.

  • La administración incorrecta de datos y la documentación deficiente pueden dar lugar a un uso incorrecto de los mismos.

Nota

Este artículo se centra en recomendaciones sobre datos humanos, incluidos los datos personales y confidenciales, como los datos biométricos, de salud, raciales o étnicos, los datos recopilados manualmente del público general o de empleados de la empresa, así como los metadatos relativos a las características humanas, como la edad, la ascendencia y la identidad de género, que se pueden crear mediante anotación o etiquetado.

Descargue las recomendaciones completas aquí

Procedimientos recomendados para recopilar la edad, la ascendencia y la identidad de género

Para que los sistemas de inteligencia artificial funcionen bien para todos, los conjuntos de datos usados para el entrenamiento y la evaluación deben reflejar la diversidad de personas que usarán o se verán afectadas dichos sistemas. En muchos casos, la edad, la ascendencia y la identidad de género pueden ayudar a aproximarse a la gama de factores que podrían afectar al rendimiento de un producto para varias personas; sin embargo, la recopilación de esta información requiere consideración especial.

Si recopila estos datos, permita siempre que los colaboradores de datos se identifiquen a sí mismos (elijan sus propias respuestas) en lugar de que los recopiladores de datos hagan suposiciones, que podrían ser incorrectas. También incluya la opción "prefiero no responder" para cada pregunta. Estas prácticas mostrarán respeto a los colaboradores y producirán datos más equilibrados y de mayor calidad.

Estos procedimientos recomendados se han desarrollado a partir de tres años de investigación con las partes interesadas previstas y la colaboración con muchos equipos de Microsoft: Grupos de trabajo para la equidad e inclusión, Inclusión y diversidad globales, Preparación global, Oficina de inteligencia artificial responsable y otros.

Para permitir que las personas se identifiquen a sí mismas, considere la posibilidad de usar las siguientes preguntas de encuesta.

Age

¿Cuántos años tiene?

Seleccione su rango de edad

[Incluya rangos de edad adecuados, definidos por el propósito del proyecto, la región geográfica y la guía de los expertos en la materia]

  • # a #
  • # a #
  • # a #
  • Prefiero no responder

Ascendencia

Seleccione las categorías que mejor describan su ascendencia

Puede seleccionar varias

[Incluya categorías adecuadas, definidas por el propósito del proyecto, la región geográfica y la guía de los expertos en la materia]

  • Grupo de ascendencia
  • Grupo de ascendencia
  • Grupo de ascendencia
  • Varios (multiracial, ascendencia mixta)
  • No aparece, me describo como: _____________
  • Prefiero no responder

Identidad de género

¿Cómo se identifica?

Puede seleccionar varias

[Incluya identidades de género adecuadas, definidas por el propósito del proyecto, la región geográfica y la guía de los expertos en la materia]

  • Identidad de género
  • Identidad de género
  • Identidad de género
  • Prefiere autodescribirse como: ________
  • Prefiero no responder

Precaución

En algunas partes del mundo, hay leyes que penalizan ciertas categorías de género, por lo que puede ser peligroso que los colaboradores de datos respondan honestamente a esta pregunta. Ofrezca siempre a la gente la oportunidad de no participar. Y trabaje con expertos y abogados regionales para realizar una revisión cuidadosa de las leyes y normas culturales de cada lugar en el que planea recopilar datos y, si es necesario, evite formular esta pregunta.

Descargue la guía completa aquí.

Pasos siguientes

Para más información sobre cómo trabajar con los datos:

Siga estas guías paso a paso para trabajar con los datos después de recopilarlos: