다음을 통해 공유


WordTokenizingEstimator 클래스

정의

지정된 구분 기호를 사용하여 입력 텍스트를 토큰화합니다.

public sealed class WordTokenizingEstimator : Microsoft.ML.Data.TrivialEstimator<Microsoft.ML.Transforms.Text.WordTokenizingTransformer>
type WordTokenizingEstimator = class
    inherit TrivialEstimator<WordTokenizingTransformer>
Public NotInheritable Class WordTokenizingEstimator
Inherits TrivialEstimator(Of WordTokenizingTransformer)
상속

설명

예측 도구 특성

이 추정기는 매개 변수를 학습하기 위해 데이터를 확인해야 합니까? 아니요
입력 열 데이터 형식 텍스트의 스칼라 또는 벡터
출력 열 데이터 형식 텍스트의 가변 크기 벡터
ONNX로 내보낼 수 있습니다.

그러면 WordTokenizingTransformer 출력 열 이름 매개 변수에 지정된 대로 명명된 새 열이 만들어집니다. 여기서 각 입력 문자열은 사용자 정의 구분 기호에 따라 입력 문자열을 분할하여 얻은 하위 문자열의 벡터에 매핑됩니다. 공백 문자는 기본 구분 기호입니다.

공백만 포함하는 빈 문자열과 문자열은 삭제됩니다.

사용 예제에 대한 링크는 참고 섹션을 참조하세요.

메서드

Fit(IDataView)

지정된 구분 기호를 사용하여 입력 텍스트를 토큰화합니다.

(다음에서 상속됨 TrivialEstimator<TTransformer>)
GetOutputSchema(SchemaShape)

변환기에서 SchemaShape 생성할 스키마를 반환합니다. 파이프라인에서 스키마 전파 및 확인에 사용됩니다.

확장 메서드

AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment)

추정기 체인에 '캐싱 검사점'을 추가합니다. 이렇게 하면 다운스트림 추정기가 캐시된 데이터에 대해 학습됩니다. 여러 데이터 전달을 수행하는 트레이너 앞에 캐싱 검사점을 두는 것이 유용합니다.

WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>)

추정기가 지정된 경우 대리자를 호출한 후 Fit(IDataView) 호출되는 래핑 개체를 반환합니다. 예측 도구가 적합한 항목에 대한 정보를 반환하는 것이 중요한 경우가 많습니다. 따라서 Fit(IDataView) 메서드는 일반 ITransformer개체가 아닌 특별히 형식화된 개체를 반환합니다. 그러나 동시에 IEstimator<TTransformer> 개체가 많은 파이프라인으로 형성되는 경우가 많으므로 변압기를 가져올 추정기가 이 체인의 어딘가에 묻혀 있는 위치를 통해 EstimatorChain<TLastTransformer> 추정기 체인을 빌드해야 할 수도 있습니다. 이 시나리오에서는 fit이 호출되면 호출되는 대리자를 이 메서드를 통해 연결할 수 있습니다.

적용 대상

추가 정보