TextFeaturizingEstimator 클래스
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
텍스트 문서 컬렉션을 숫자 기능 벡터로 바꾸는 예측 도구입니다. 기능 벡터는 제공된 옵션에 따라 단어 및/또는 문자 n그램의 정규화된 개수입니다.
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- 상속
-
TextFeaturizingEstimator
- 구현
설명
예측 도구 특성
이 예측 도구는 매개 변수를 학습하기 위해 데이터를 확인해야 합니까? | 예. |
입력 열 데이터 형식 | text |
출력 열 데이터 형식 | Single 벡터 |
ONNX로 내보낼 수 있습니다. | 예 |
이 예측 도구는 사용자에게 다음 작업을 위한 원스톱 솔루션을 제공합니다.
- 언어 검색
- 토큰화
- 텍스트 정규화
- 미리 정의된 사용자 지정 중지 단어 제거
- [Word 기반 또는 문자 기반 Ngram 추출 및 SkipGram 추출(고급 옵션을 통해)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF 또는 TF-IDF
- [L-p 벡터 정규화] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
기본적으로 기능은 (단어/문자) n-gram/skip-gram으로 구성되며 기능 수는 데이터를 분석하여 찾은 어휘 크기와 같습니다. 토큰이 생성된 추가 열을 출력하려면 OutputTokensColumnName을 사용합니다. 예측 도구를 추가로 튜닝할 수 있는 에 TextFeaturizingEstimator.Options유지할 최대 n그램 수를 선택하여 기능 수를 지정할 수도 있습니다.
사용 예제에 대한 링크는 참고 섹션을 참조하세요.
메서드
Fit(IDataView) |
를 학습하고 를 반환합니다 ITransformer. |
GetOutputSchema(SchemaShape) |
SchemaShape 변환기에서 생성할 스키마의 를 반환합니다. 파이프라인에서 스키마 전파 및 확인에 사용됩니다. |
확장 메서드
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
추정기 체인에 '캐싱 검사점'을 추가합니다. 이렇게 하면 다운스트림 예측 도구가 캐시된 데이터에 대해 학습됩니다. 여러 데이터 전달을 수행하는 트레이너 앞에 캐싱 검사점이 있으면 도움이 됩니다. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
예측 도구가 지정된 경우 가 호출되면 Fit(IDataView) 대리자를 호출할 래핑 개체를 반환합니다. 예측 도구에서 적합한 항목에 대한 정보를 반환하는 것이 중요한 경우가 많습니다. 따라서 Fit(IDataView) 메서드는 일반 ITransformer가 아닌 구체적으로 형식화된 개체를 반환합니다. 그러나 동시에 IEstimator<TTransformer> 많은 개체가 있는 파이프라인으로 형성되는 경우가 많으므로 변환기를 가져오려는 추정기가 이 체인의 어딘가에 묻혀 있는 위치를 통해 EstimatorChain<TLastTransformer> 예측 도구 체인을 빌드해야 할 수 있습니다. 이 시나리오에서는 fit이 호출되면 호출될 대리자를 이 메서드를 통해 연결할 수 있습니다. |