다음을 통해 공유


WordEmbeddingEstimator 클래스

정의

미리 학습된 embeddings 모델을 사용하여 텍스트 토큰의 벡터를 숫자 벡터로 변환하는 텍스트 기능 변환기입니다.

public sealed class WordEmbeddingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.WordEmbeddingTransformer>
type WordEmbeddingEstimator = class
    interface IEstimator<WordEmbeddingTransformer>
Public NotInheritable Class WordEmbeddingEstimator
Implements IEstimator(Of WordEmbeddingTransformer)
상속
WordEmbeddingEstimator
구현

설명

예측 도구 특성

이 추정기는 매개 변수를 학습하기 위해 데이터를 확인해야 합니까? 아니요
입력 열 데이터 형식 텍스트 벡터
출력 열 데이터 형식 의 알려진 크기 벡터 Single
ONNX로 내보낼 수 있습니다. 아니요

출력 WordEmbeddingTransformer 열 이름 매개 변수에 지정된 대로 명명된 새 열을 생성합니다. 여기서 각 입력 벡터는 사용된 포함 모델의 크기가 3 * 차원인 숫자 벡터에 매핑됩니다. 이는 입력 벡터의 크기와는 무관합니다.

예를 들어 50차원인 GloVe50D를 사용하는 경우 출력 열은 크기 150의 벡터입니다. 슬롯의 첫 번째 3분의 1은 입력 벡터의 각 문자열에 해당하는 포함 항목의 최소값을 포함합니다. 두 번째 세 번째는 포함의 평균을 포함합니다. 슬롯의 마지막 3분의 1에는 발생한 포함의 최대 값이 포함됩니다. min/max는 단어 포함 공간의 단어에 대한 경계 하이퍼 사각형을 제공합니다. 이것은 많은 단어의 평균이 유용한 신호를 익사 긴 구에 도움이 될 수 있습니다.

사용자는 미리 학습된 사용자 지정 embeddings 모델 또는 사용 가능한 미리 학습된 모델 중 하나를 지정할 수 있습니다. 사용 가능한 옵션은 다양한 버전의 GloVe 모델, FastTextSSWE입니다.

사용 예제에 대한 링크는 참고 섹션을 참조하세요.

메서드

Fit(IDataView)

를 학습하고 반환합니다 WordEmbeddingTransformer.

GetOutputSchema(SchemaShape)

변환기에서 SchemaShape 생성할 스키마를 반환합니다. 파이프라인에서 스키마 전파 및 확인에 사용됩니다.

확장 메서드

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

추정기 체인에 '캐싱 검사점'을 추가합니다. 이렇게 하면 다운스트림 추정기가 캐시된 데이터에 대해 학습됩니다. 여러 데이터 전달을 수행하는 트레이너 앞에 캐싱 검사점을 두는 것이 유용합니다.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

추정기가 지정된 경우 대리자를 호출한 후 Fit(IDataView) 호출되는 래핑 개체를 반환합니다. 예측 도구가 적합한 항목에 대한 정보를 반환하는 것이 중요한 경우가 많습니다. 따라서 Fit(IDataView) 메서드는 일반 ITransformer개체가 아닌 특별히 형식화된 개체를 반환합니다. 그러나 동시에 IEstimator<TTransformer> 개체가 많은 파이프라인으로 형성되는 경우가 많으므로 변압기를 가져올 추정기가 이 체인의 어딘가에 묻혀 있는 위치를 통해 EstimatorChain<TLastTransformer> 추정기 체인을 빌드해야 할 수도 있습니다. 이 시나리오에서는 fit이 호출되면 호출되는 대리자를 이 메서드를 통해 연결할 수 있습니다.

적용 대상

추가 정보