다음을 통해 공유


NormalizingEstimator 클래스

정의

public sealed class NormalizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.NormalizingTransformer>
type NormalizingEstimator = class
    interface IEstimator<NormalizingTransformer>
Public NotInheritable Class NormalizingEstimator
Implements IEstimator(Of NormalizingTransformer)
상속
NormalizingEstimator
구현

설명

예측 도구 특성

이 추정기는 매개 변수를 학습하기 위해 데이터를 확인해야 합니까?
입력 열 데이터 형식 Single 또는 Double 이러한 형식의 알려진 크기 벡터입니다.
출력 열 데이터 형식 입력 열과 동일한 데이터 형식
ONNX로 내보낼 수 있습니다.

결과 NormalizingEstimator는 생성된 방법에 따라 다음 방법 중 하나로 데이터를 정규화합니다.

  • 최소 최대값 - 각 행의 최소값과 최대값을 기반으로 하는 선형 크기 조정입니다.
  • 평균 차이 - 각 행의 크기를 단위 차이로 다시 조정하고 필요에 따라 평균이 0입니다.
  • 로그 평균 차이 - 각 행의 크기를 단위 차이로 다시 조정하고, 필요에 따라 로그 배율의 계산에 따라 평균이 0입니다.
  • 범주화 - 각 행의 데이터를 버킷화하고 계산된 bin에 따라 선형 크기 조정을 수행합니다.
  • 감독된 Binning - 각 행의 데이터를 버킷화하고 계산된 bin에 따라 선형 다시 크기 조정을 수행합니다. bin 계산은 레이블 열의 상관 관계를 기반으로합니다.
  • 강력한 크기 조정 - 필요에 따라 데이터 범위와 제공된 분위수 최소값 및 최대값에 따라 데이터 및 크기 조정을 중점적으로 처리합니다. 이 메서드는 이상값에 더 강력합니다.

예측 도구 세부 정보

정규화된 데이터의 간격은 fixZero가 지정되었는지 여부에 따라 달라집니다. fixZero 기본값은 true입니다. fixZero가 false이면 정규화된 간격은 $[0,1]$이고 정규화된 값의 분포는 정규화 모드에 따라 달라집니다. 예를 들어 최소 최대값과 최댓값은 각각 0과 1로 매핑되고 나머지 값은 그 사이에 있습니다. fixZero가 설정되면 정규화된 간격은 정규화 모드에 따라 정규화된 값의 분포가 있는 $[-1,1]$이지만 동작은 다릅니다. Min Max의 경우 분포는 숫자가 0에서 얼마나 멀리 떨어져 있는지에 따라 달라지며, 양수인 경우 가장 큰 거리가 1로 매핑되고 음수인 경우 -1로 매핑됩니다. 0에서의 거리는 0으로 정규화될수록 더 가까운 수의 분포에 영향을 줍니다. 강력한 크기 조정은 fixZero를 사용하지 않으며 해당 값은 $[0,1]$ 또는 $[-1,1]$로 제한되지 않습니다. 크기 조정은 데이터 범위와 제공된 분위수 최소 및 최대값을 기반으로합니다.

CDF 옵션을 사용하지 않고 입력 $x$에 평균 분산 및 로그 평균 분산을 모두 적용하는 출력 $y$의 수식은 $y = (x - \text{offset}) \text{scale}$입니다. 학습 중에 오프셋 및 크기 조정이 계산되는 위치입니다.

CDF 옵션을 사용하면 다음과 같습니다. $y = 0.5 * (1 + \text{ERF}((x - \text{mean}) / (\text{standard deviation} * sqrt(2))$. 여기서 ERF는 일반적으로 분산된 것으로 간주되는 임의 변수의 CDF를 근사치로 만드는 데 사용되는 오류 함수 입니다. 평균 및 표준 편차는 학습 중에 계산됩니다.

이 추정기를 만들려면 다음 중 하나를 사용합니다.

위의 링크에서 사용 예제를 확인합니다.

메서드

Fit(IDataView)

를 학습하고 반환합니다 NormalizingTransformer.

GetOutputSchema(SchemaShape)

변환기에서 SchemaShape 생성할 스키마를 반환합니다. 파이프라인에서 스키마 전파 및 확인에 사용됩니다.

확장 메서드

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

추정기 체인에 '캐싱 검사점'을 추가합니다. 이렇게 하면 다운스트림 추정기가 캐시된 데이터에 대해 학습됩니다. 여러 데이터 전달을 수행하는 트레이너 앞에 캐싱 검사점을 두는 것이 유용합니다.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

추정기가 지정된 경우 대리자를 호출한 후 Fit(IDataView) 호출되는 래핑 개체를 반환합니다. 예측 도구가 적합한 항목에 대한 정보를 반환하는 것이 중요한 경우가 많습니다. 따라서 Fit(IDataView) 메서드는 일반 ITransformer개체가 아닌 특별히 형식화된 개체를 반환합니다. 그러나 동시에 IEstimator<TTransformer> 개체가 많은 파이프라인으로 형성되는 경우가 많으므로 변압기를 가져올 추정기가 이 체인의 어딘가에 묻혀 있는 위치를 통해 EstimatorChain<TLastTransformer> 추정기 체인을 빌드해야 할 수도 있습니다. 이 시나리오에서는 fit이 호출되면 호출되는 대리자를 이 메서드를 통해 연결할 수 있습니다.

적용 대상