모델 성능 및 공정성
이 문서에서는 Azure Machine Learning의 모델 성능 및 공정성을 이해하는 데 사용할 수 있는 방법을 설명합니다.
기계 학습 공정성이란 무엇인가요?
AI와 기계 학습 시스템이 불공정한 동작을 보일 수 있습니다. 불공정한 동작을 정의하는 한 가지 방법은 사람들에게 미치는 피해 또는 영향입니다. AI 시스템은 여러 가지 유형의 피해를 입힐 수 있습니다. 자세한 내용은 Kate Crawford의 NeurIPS 2017 키 노트를 참조하세요.
다음 두 가지는 AI로 인한 대표적인 피해 유형입니다.
할당 피해: AI 시스템이 특정 그룹에 대한 기회, 리소스 또는 정보를 확장하거나 알려주지 않습니다. 예를 들어 채용, 입학 및 대출 심사에서 모델이 다른 그룹보다 특정 그룹에서 유력 후보를 선택하는 경향을 보일 수 있습니다.
서비스 품질 피해: AI 시스템이 특정 그룹에 대해서는 다른 그룹에 하는 것처럼 작동하지 않습니다. 예를 들어 음성 인식 시스템이 여성에게는 남성에게 하듯이 작동하지 않을 수 있습니다.
AI 시스템의 불공정한 동작을 줄이려면 이러한 피해를 평가하고 완화해야 합니다. 책임 있는 AI 대시보드의 모델 개요 구성 요소는 전체 데이터 세트와 식별된 데이터 코호트에 대한 모델 성능 메트릭을 생성하여 모델 수명 주기의 식별 단계에 기여합니다. 중요한 기능 또는 중요한 특성 측면에서 식별된 하위 그룹에서 이러한 메트릭을 생성합니다.
참고 항목
공정성은 사회 기술적 과제입니다. 정량적 공정성 메트릭은 공평, 적법 절차 등 공정성의 여러 측면을 캡처하지 않습니다. 또한 여러 정성적 공정성 메트릭을 모두 동시에 만족할 수는 없습니다.
Fairlearn 오픈 소스 패키지의 목표는 인간이 영향 및 완화 전략을 평가할 수 있도록 하는 것입니다. 결국 시나리오에 적합하도록 절충하는 것은 AI 및 기계 학습 모델을 빌드하는 사람에 달렸습니다.
이 책임 있는 AI 대시보드의 구성 요소에서 공정성은 그룹 공정성이라고 하는 방법을 사용하여 개념화됩니다. 이 방법에서는 "피해를 입을 위험에 노출되는 개인 그룹은 누구인가요?"라는 질문을 던집니다. 민감 정보라는 용어는 시스템 디자이너가 그룹 공정성을 평가할 때 이러한 정보에 민감해야 한다는 것을 시사합니다.
평가 단계에서 공정성은 차이 메트릭을 통해 정량화됩니다. 차이 메트릭은 여러 그룹의 모델의 동작을 평가하고 비율 또는 차이로 비교할 수 있습니다. 책임 있는 AI 대시보드는 두 가지 차이 메트릭 클래스를 지원합니다.
모델 성능의 차이: 이 메트릭 세트는 데이터 하위 그룹에서 선택한 성능 메트릭 값의 차이를 계산합니다. 다음은 몇 가지 예입니다.
- 정확도 차이
- 오류율 차이
- 정확도 차이
- 재현율 차이
- MAE(평균 절대 오차)의 차이
선택 비율의 차이: 이 메트릭은 하위 그룹 간의 선택 비율 차이(우호적인 예측)를 포함합니다. 대출 승인율의 차이를 예로 들 수 있습니다. 선택 비율은 각 클래스에서 1로 분류된 데이터 요소의 비율(이진 분류) 또는 예측 값의 분포(회귀)를 의미합니다.
이 구성 요소의 공정성 평가 기능은 Fairlearn 패키지에 제공됩니다. Fairlearn은 모델 공정성 평가 메트릭 및 불공정성 완화 알고리즘 컬렉션을 제공합니다.
참고 항목
공정성 평가는 순전히 기술적인 활동이 아닙니다. Fairlearn 오픈 소스 패키지는 모델의 공정성을 평가하는 데 도움이 되는 정량적 메트릭을 파악할 수는 있지만 평가를 자동으로 수행하지는 않습니다. 자체 모델의 공정성을 평가하려면 정성적 분석을 수행해야 합니다. 위에서 언급한 민감 정보는 이러한 정성적 분석의 한 예입니다.
불공정을 완화하기 위한 패리티 제약 조건
모델의 공정성 문제를 이해한 후에는 Fairlearn 오픈 소스 패키지의 완화 알고리즘을 사용하여 이러한 문제를 완화할 수 있습니다. 이러한 알고리즘은 예측 요인의 동작에 대한 패리티 제약 조건 또는 조건이라는 제약 조건 세트를 지원합니다.
패리티 제약 조건을 사용하려면 민감 정보가 정의하는 그룹(예: 여러 인종)에서 예측 요인 동작의 일부 측면을 비교할 수 있어야 합니다. Fairlearn 오픈 소스 패키지의 완화 알고리즘은 이러한 패리티 제약 조건을 사용하여 관찰된 공정성 문제를 완화합니다.
참고 항목
Fairlearn 오픈 소스 패키지의 불공정 완화 알고리즘은 기계 학습 모델에서 불공정을 줄이는 완화 전략을 제안할 수 있지만, 이러한 전략이 불공정을 제거하지는 않습니다. 개발자는 기계 학습 모델에 대한 다른 패리티 제약 조건 또는 조건을 고려해야 할 수 있습니다. Azure Machine Learning을 사용하는 개발자는 완화 조치가 기계 학습 모델의 의도된 사용 및 배포에서 불공정성을 충분히 완화하는지 스스로 결정해야 합니다.
Fairlearn 패키지는 다음 유형의 패리티 제약 조건을 지원합니다.
패리티 제약 조건 | 목적 | 기계 학습 작업 |
---|---|---|
인구 통계 패리티 | 할당 피해 완화 | 이진 분류, 회귀 |
균등 배당률 | 할당 및 서비스 품질 피해 진단 | 이진 분류 |
평등한 기회 | 할당 및 서비스 품질 피해 진단 | 이진 분류 |
제한된 그룹 손실 | 서비스 품질 피해 완화 | 회귀 |
완화 알고리즘
Fairlearn 오픈 소스 패키지는 다음과 같은 두 가지 유형의 불공정 완화 알고리즘을 제공합니다.
축소: 이 알고리즘은 표준 블랙박스 기계 학습 예측 도구(예: LightGBM 모델)를 통해 일련의 재가중치 학습 데이터 세트를 사용하여 재학습된 모델 세트를 생성합니다.
예를 들어 특정 성별의 신청자에게 가중치를 더하거나 빼서 모델을 다시 학습시켜 성별 그룹 간의 차이를 줄일 수 있습니다. 그러면 사용자는 비즈니스 규칙과 비용 계산을 기반으로 정확도(또는 다른 성능 메트릭)와 차이 간에 적절하게 절충하는 모델을 선택할 수 있습니다.
후처리: 이 알고리즘은 기존 분류자와 민감 정보를 입력으로 사용합니다. 그런 다음, 분류자의 예측을 변환하여 지정된 공정성 제약 조건을 적용합니다. 후처리 알고리즘인 임계값 최적화의 가장 큰 장점은 모델을 다시 학습시킬 필요가 없기 때문에 간단하고 유연하다는 점입니다.
알고리즘 | 설명 | 기계 학습 작업 | 중요한 기능 | 지원되는 패리티 제약 조건 | 알고리즘 형식 |
---|---|---|---|---|---|
ExponentiatedGradient |
공정 분류에 대한 축소 접근 방식에 설명된 공정성 분류에 대한 블랙박스 접근 방식. | 이진 분류 | 범주 | 인구 통계 패리티, 균등 배당률 | 축소 |
GridSearch |
공정 분류에 대한 축소 접근 방식에 설명된 블랙박스 접근 방식. | 이진 분류 | 이진 | 인구 통계 패리티, 균등 배당률 | 축소 |
GridSearch |
공정 회귀: 정량적 정의 및 축소 기반 알고리즘에 설명된 제한된 그룹 손실에 대한 알고리즘을 사용하여 공정 회귀의 그리드 검색 변형을 구현하는 블랙박스 접근 방식. | 회귀 | 이진 | 제한된 그룹 손실 | 축소 |
ThresholdOptimizer |
감독 학습의 기회 균등 논문을 기반으로 하는 후처리 알고리즘입니다. 이 기술은 기존 분류자 및 민감 정보를 입력으로 사용합니다. 그런 다음, 분류자의 예측을 모노톤으로 변환하여 지정된 패리티 제약 조건을 적용합니다. | 이진 분류 | 범주 | 인구 통계 패리티, 균등 배당률 | 후처리 |
다음 단계
- CLI 및 SDK 또는 Azure Machine Learning 스튜디오 UI를 통해 책임 있는 AI 대시보드를 생성하는 방법을 알아봅니다.
- 책임 있는 AI 대시보드의 지원되는 모델 개요 및 공정성 평가 시각화를 살펴봅니다.
- 책임 있는 AI 대시보드에서 관찰된 인사이트를 기반으로 하여 책임 있는 AI 성과 기록표를 생성하는 방법을 알아봅니다.
- Fairlearn의 GitHub 리포지토리, 사용자 가이드, 예제 및 샘플 Notebook를 확인하여 구성 요소 사용 방법을 알아봅니다.