Анализ наборов данных

Модели машинного обучения "обучаются" на основе исторических решений и действий, полученных из данных обучения. В результате их производительность в реальных сценариях сильно влияет на данные, на основе которых они обучаются. Если распределение признаков в наборе данных неравномерно, это может привести к неправильному прогнозированию точек данных, принадлежащих к недопредставленной группе, или оптимизации на основе неподходящей метрики.

Например, в то время как модель обучала систему искусственного интеллекта для прогнозирования цен на жилье, обучающий набор представлял 75 процентов новых домов с ценами ниже медианы. В результате, он был гораздо менее точным в успешном выявлении более дорогих исторических домов. Исправление заключалась в добавлении старых и дорогих домов в обучающие данные и дополнении функций для включения аналитических сведений об исторической ценности. Это расширение данных улучшило результаты.

Компонент анализа данных панели мониторинга ответственного применения ИИ помогает визуализировать наборы данных на основе прогнозируемых и фактических результатов, групп ошибок и конкретных признаков. Это помогает выявить проблемы, связанные с избыточной и недостаточной репрезентацией, а также узнать, как данные кластеризуются в наборе данных. Визуализации данных состоят из статистических диаграмм или отдельных точек данных.

Когда следует использовать анализ данных

Используйте анализ данных, когда необходимо:

  • изучить статистику набора данных, выбрав различные фильтры, чтобы разделить данные на различные измерения (также называемые когортами);
  • понять процесс распределения набора данных между различными когортами и группами возможностей;
  • Определите, являются ли результаты, связанные с справедливостью, анализом ошибок и причинно-следственной связи (производными от других компонентов панели мониторинга), результатом распределения набора данных.
  • Определите, в каких областях следует собирать дополнительные данные для устранения ошибок, связанных с проблемами представления, шумом меток, шумом признаков, смещением меток и аналогичными факторами.

Дальнейшие действия