Что такое "данные о людях" и почему важно ответственно подходить к выбору источника таких данных?

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

Данные о людях — это информация, полученная непосредственно от людей или собранная о них. Данные человека могут включать персональные данные, такие как имена, возраст, изображения или голосовые клипы и конфиденциальные данные, такие как генетические данные, биография метрические данные, гендерное удостоверение, религиозные убеждения или политические принадлежности.

Сбор этих данных может быть важным для создания систем искусственного интеллекта, подходящих для всех пользователей. Однако следует избегать определенных методов, особенно тех, которые могут причинить физический и психологический вред тем, кто предоставляет данные.

Рекомендации в этой статье помогут вам реализовать проект по сбору данных добровольцев вручную, где ко всем участникам относятся с уважением, а потенциальные последствия, особенно те, с которыми сталкиваются уязвимые группы, учитываются и сводятся к минимуму. Это означает следующее.

  • Люди, которые вносят вклад в данные, не являются принудительными или эксплуатируются каким-либо образом, и они контролируют сбор персональных данных.
  • Люди, которые собирают и маркируют данные, проходят надлежащее обучение.

Эти методы также помогают создавать более сбалансированные и качественные наборы данных и более эффективно управлять данными о людях.

Это новые методики, и мы постоянно обучаемся. Рекомендации, приведенные в следующем разделе, являются отправной точкой, когда вы начинаете собственные ответственные коллекции данных человека. Эти рекомендации предоставляются только в информационных целях и не должны рассматриваться как юридические консультации. Все процедуры сбора данных о людях должны проходить конкретные проверки в отношении обеспечения конфиденциальности и соблюдения законов.

Общие рекомендации

Следующие рекомендации помогут вручную собирать информацию о людях непосредственно у них самих.

рекомендациях;

Почему?


Получите добровольное информированное согласие

  • Участники должны понимать, какая информация будет собираться и как она будет использоваться, и дать свое согласие на это.
  • Данные должны храниться, обрабатываться и использоваться только в целях, указанных в исходном задокументированном информированном согласии.
  • Документация о согласии должна правильно храниться и соответствовать собираемым данным.

Предоставьте участникам подходящее вознаграждение

  • Участники не должны принуждаться к сбору данных и должны получить справедливое вознаграждение за потраченное время и предоставленные сведения.
  • Проект с неуместным вознаграждением может расцениваться как предполагающий эксплуатацию или принуждение участников.

Позвольте участникам самостоятельно указывать демографические сведения

  • Демографические данные, которые сообщают не сами участники, а предоставляют сборщики данных, могут стать причиной 1) неточности метаданных и 2) неуважительного отношения к участникам.

Спрогнозируйте угрозы, возникающие при работе с уязвимыми группами

  • Сбор данных у уязвимых групп населения представляет риск для участников и вашей организации.

Относитесь к участникам с уважением

  • Неправильное взаимодействие с участниками на любом этапе сбора данных может негативно повлиять на качество данных, а также на общее впечатление участников и сборщиков данных.

Тщательно отбирайте внешних поставщиков

  • Сбор данных совместно с неквалифицированными поставщиками может привести к низкому качеству данных, плохому управлению данными, применению непрофессиональных методов и потенциально пагубным результатам для участников и сборщиков данных (включая нарушения прав человека).
  • Если созданием заметок и маркировкой (например, транскрибированием звуковых файлов и добавлением тегов для изображений) занимаются неквалифицированные поставщики, это может привести к низкому качеству наборов данных или погрешностях в них, небезопасному управлению данными, применению непрофессиональных методов и потенциально опасным результатам для участников (включая нарушения прав человека).

Четко сообщайте требования поставщикам в описании работы (контрактах или соглашениях).

  • Контракт, в котором указаны не все требования в отношении ответственного сбора данных, может стать причиной низкого качества данных или сбора не всех данных.

Тщательно подбирайте географические регионы

  • В зависимости от ситуации сбор данных в областях с высоким геополитическим риском или незнакомых географических регионах может привести к получению непригодных для использования или низкокачественных данным и может повлиять на безопасность участвующих сторон.

Организуйте хорошее управление наборами данных

  • Неправильное управление данными и неподходящая документация могут привести к неправильному использованию данных.

Примечание.

В этой статье рассматриваются рекомендации в отношении данных людей, включая персональную и конфиденциальную информацию, такую как биометрические данные, данные о здоровье, расовые или этнические данные, данные, собранные вручную от государственных или корпоративных сотрудников, а также метаданные, связанные с человеческими характеристиками, такими как возраст, происхождение и гендерная идентичность, которые могут быть созданы с помощью заметок или маркировки.

Скачайте подробные рекомендации здесь

Рекомендации по сбору сведений о возрасте, происхождении и гендерной идентичности

Чтобы системы искусственного интеллекта хорошо работали для всех, наборы данных, используемые для обучения и оценки, должны отражать разнообразие людей, которые будут использовать такие системы или зависеть от них. Во многих случаях возраст, происхождение и гендерное удостоверение могут помочь приблизить диапазон факторов, которые могут повлиять на то, насколько хорошо продукт работает для различных людей; однако для сбора этой информации требуется особое внимание.

Если вы собираете эти данные, всегда разрешайте участникам самостоятельно себя идентифицировать (выбирать собственные ответы) вместо того, чтобы сборщики данных делали предположения, которые могут быть неверными. Также включите параметр "не отвечать" для каждого вопроса. Эти методы помогут продемонстрировать уважение к участникам и получить более сбалансированные и качественные данные.

Эти рекомендации были разработаны на основе трех лет исследований с предполагаемыми заинтересованными лицами и сотрудничеством со многими командами в Корпорации Майкрософт: справедливость и инклюзивность рабочих групп, глобальное разнообразие и включение, глобальная готовность, Офис ответственного ИИ и другие.

Чтобы люди могли самостоятельно идентифицировать себя, рассмотрите возможность использования следующих вопросов.

Возраст

Сколько вам лет?

Выберите свой возрастной диапазон

[Включите соответствующие возрастные диапазоны согласно назначению проекта, географическому региону и рекомендациям экспертов предметной области]

  • От # до #
  • От # до #
  • От # до #
  • Предпочитаю не отвечать

Происхождение

Выберите категории, которые лучше всего описывают ваше происхождение

Можно указать несколько вариантов

[Включите соответствующие категории согласно назначению проекта, географическому региону и рекомендациям экспертов предметной области]

  • Группа происхождения
  • Группа происхождения
  • Группа происхождения
  • Несколько (несколько рас, смешанное происхождение)
  • Не указано, я описываю себя так: _________________
  • Предпочитаю не отвечать

Гендерная идентичность.

Как вы себя идентифицируете?

Можно указать несколько вариантов

[Включите соответствующие гендерные идентичности согласно назначению проекта, географическому региону и рекомендациям экспертов предметной области]

  • Гендерная идентичность.
  • Гендерная идентичность.
  • Гендерная идентичность.
  • Предпочитаю описывать тебя так: _________________
  • Предпочитаю не отвечать

Внимание

В некоторых странах определенные гендерные категории незаконны, поэтому честный ответ на этот вопрос может быть опасным для участников. Всегда оставляйте людям возможность отказаться отвечать на вопрос. Обратитесь к региональным экспертам и адвокатам, чтобы провести тщательный анализ законов и культурных норм каждого региона, где вы планируете собирать данные. При необходимости опустите этот вопрос.

Скачайте подробное руководство здесь.

Следующие шаги

Дополнительные сведения о работе с данными:

Следуйте приведенным ниже руководствам по работе с данными после сбора: