Анализ наборов данных
Модели машинного обучения "обучаются" на основе исторических решений и действий, полученных из данных обучения. В результате их производительность в реальных сценариях сильно влияет на данные, на основе которых они обучаются. Если распределение признаков в наборе данных неравномерно, это может привести к неправильному прогнозированию точек данных, принадлежащих к недопредставленной группе, или оптимизации на основе неподходящей метрики.
Например, в то время как модель обучала систему искусственного интеллекта для прогнозирования цен на жилье, обучающий набор представлял 75 процентов новых домов с ценами ниже медианы. В результате, он был гораздо менее точным в успешном выявлении более дорогих исторических домов. Исправление заключалась в добавлении старых и дорогих домов в обучающие данные и дополнении функций для включения аналитических сведений об исторической ценности. Это расширение данных улучшило результаты.
Компонент анализа данных панели мониторинга ответственного применения ИИ помогает визуализировать наборы данных на основе прогнозируемых и фактических результатов, групп ошибок и конкретных признаков. Это помогает выявить проблемы, связанные с избыточной и недостаточной репрезентацией, а также узнать, как данные кластеризуются в наборе данных. Визуализации данных состоят из статистических диаграмм или отдельных точек данных.
Когда следует использовать анализ данных
Используйте анализ данных, когда необходимо:
- изучить статистику набора данных, выбрав различные фильтры, чтобы разделить данные на различные измерения (также называемые когортами);
- понять процесс распределения набора данных между различными когортами и группами возможностей;
- Определите, являются ли результаты, связанные с справедливостью, анализом ошибок и причинно-следственной связи (производными от других компонентов панели мониторинга), результатом распределения набора данных.
- Определите, в каких областях следует собирать дополнительные данные для устранения ошибок, связанных с проблемами представления, шумом меток, шумом признаков, смещением меток и аналогичными факторами.
Дальнейшие действия
- Узнайте, как создать панель мониторинга ответственного ИИ с помощью CLI и пакета SDK или пользовательского интерфейса Студии Машинного обучения Azure.
- Изучите поддерживаемые визуализации анализа данных на панели мониторинга ответственного использования ИИ.
- Узнайте, как создать систему показателей ответственного применения ИИ на основе аналитических сведений, наблюдаемых на панели мониторинга ответственного применения ИИ.