데이터 세트 이해

기계 학습 모델은 학습 데이터로부터 얻은 이전의 의사 결정과 조치로부터 “학습”을 수행합니다. 따라서 학습에 사용된 데이터는 실제 시나리오에서 기계 학습 모델의 성능에 큰 영향을 줍니다. 데이터 세트의 기능 분포가 편향된 경우에는 모델이 표본이 부족한 그룹에 속하는 데이터 포인트를 잘못 예측하거나 부적합한 메트릭을 사용해서 최적화하도록 만들 수 있습니다.

예를 들어 모델이 주택 가격을 예측하기 위해 AI 시스템을 학습하는 경우 학습 세트는 중간 가격보다 더 저렴한 신규 주택의 75%를 나타냅니다. 그 결과 이전에 가격이 더 높았던 주택을 정확하게 식별하지 못할 수 있습니다. 이를 해결하기 위해 학습 데이터에 오래되고 가격도 높은 주택을 추가해서 이전 가격에 대한 인사이트를 포함하도록 기능을 보강했다고 가정해보세요. 이러한 데이터 보강은 결과를 향상시켰습니다.

책임 있는 AI 대시보드의 데이터 분석 구성 요소는 예측 및 실제 결과, 오류 그룹, 특정 기능을 기준으로 데이터 세트를 시각화할 수 있게 해줍니다. 이를 통해 과다 표본 또는 과소 표본 문제를 식별하고, 데이터 세트에서의 데이터 클러스터링 방식을 확인할 수 있습니다. 데이터 시각화는 집계 플롯 또는 개별 데이터 포인트로 구성됩니다.

데이터 분석을 사용해야 하는 경우

다음이 필요한 경우 데이터 분석을 사용합니다.

  • 데이터를 여러 차원(코호트라고도 부름)으로 분할하기 위해 다른 필터를 선택하여 데이터 세트 통계를 탐색합니다.
  • 여러 코호트 및 기능 그룹 간의 데이터 세트 분포를 이해합니다.
  • 공정성, 오류 분석 및 인과관계(다른 대시보드 구성 요소에서 파생되는)와 관련된 발견 항목이 데이터 세트의 분포로 인한 결과인지 확인합니다.
  • 표본 문제, 레이블 노이즈, 기능 노이즈, 레이블 편견 및 비슷한 요소로부터 발생하는 오류를 해결하기 위해 데이터를 더 수집해야 할 영역을 판단합니다.

다음 단계