LatentDirichletAllocationEstimator 클래스
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
LDA 변환은 Latent Dirichlet 할당의 최신 구현인 LightLDA를 구현합니다.
public sealed class LatentDirichletAllocationEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.LatentDirichletAllocationTransformer>
type LatentDirichletAllocationEstimator = class
interface IEstimator<LatentDirichletAllocationTransformer>
Public NotInheritable Class LatentDirichletAllocationEstimator
Implements IEstimator(Of LatentDirichletAllocationTransformer)
- 상속
-
LatentDirichletAllocationEstimator
- 구현
설명
예측 도구 특성
이 추정기는 매개 변수를 학습하기 위해 데이터를 확인해야 합니까? | 예 |
입력 열 데이터 형식 | Single 벡터 |
출력 열 데이터 형식 | Single 벡터 |
ONNX로 내보낼 수 있습니다. | 아니요 |
Latent Dirichlet 할당은 텍스트 데이터에서 의미 체계 구조를 유추하는 잘 알려진 토픽 모델링 알고리즘이며 궁극적으로 "이 문서는 무엇인가요?"에 대한 질문에 대답하는 데 도움이 됩니다. 텍스트 필드를 저차원 토폴로지 벡터로 기능화하는 데 사용할 수 있습니다. LightLDA는 다양한 최적화 기술을 통합하는 매우 효율적인 LDA 구현입니다. LDA 변환을 사용하면 ML.NET 사용자가 10억 개의 토큰 문서에 100만 단어 어휘를 사용하여 100만 개의 토픽을 생성하도록 토픽 모델을 학습시킬 수 있습니다(일반적으로 이 규모의 LDA에는 며칠이 걸리고 큰 클러스터가 필요함). 가장 중요한 혁신은 매우 효율적인 $O(1)$입니다. 메트로폴리스-헤이스팅스 샘플링 알고리즘은 실행 비용이 모델 크기에 구애받지 않으므로 다른 Gibbs 샘플러보다 거의 더 빠르게 수렴할 수 있습니다.
ML.NET 파이프라인에서 이 예측 도구에는 일부 전처리의 출력이 입력으로 필요합니다. 텍스트에서 작동하는 일반적인 파이프라인에는 텍스트 정규화, 토큰화 및 LDA 예측 도구에 제공할 n-gram 생성이 필요합니다. 사용 제안에 대해서는 참고 섹션의 사용 예제를 참조하세요.
다음 세 가지 텍스트 예제를 데이터 요소로 사용하고 항목 수가 3으로 설정된 LDA 변환을 사용하는 경우 아래 표에 결과가 표시됩니다. 예제 문서:
- 나는 바나나를 먹는 것을 좋아한다.
- 나는 매일 바나나를 먹는다.
- 1970년에 처음 기념된 지구의 날은 현재 193개국 이상에서 열리는 행사를 포함하고 있으며, 현재 지구의 날 네트워크에 의해 전 세계적으로 조정되고 있습니다.
첫 번째 행과 두 번째 행의 값이 세 번째 행에 비해 유사한지 확인하고 이러한 값이 텍스트의 두(작은) 본문 사이의 유사성을 나타내는 방법을 확인합니다.
항목1 | 항목2 | 항목 3 |
---|---|---|
0.5714 | 0.0000 | 0.4286 |
0.5714 | 0.0000 | 0.4286 |
0.2400 | 0.3200 | 0.4400 |
자세한 기술 정보는 다음 문서를 참조하세요.
사용 예제에 대한 링크는 참고 섹션을 참조하세요.
메서드
Fit(IDataView) |
를 학습하고 반환합니다 LatentDirichletAllocationTransformer. |
GetOutputSchema(SchemaShape) |
변환기에서 SchemaShape 생성할 스키마를 반환합니다. 파이프라인에서 스키마 전파 및 확인에 사용됩니다. |
확장 메서드
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
추정기 체인에 '캐싱 검사점'을 추가합니다. 이렇게 하면 다운스트림 추정기가 캐시된 데이터에 대해 학습됩니다. 여러 데이터 전달을 수행하는 트레이너 앞에 캐싱 검사점을 두는 것이 유용합니다. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
추정기가 지정된 경우 대리자를 호출한 후 Fit(IDataView) 호출되는 래핑 개체를 반환합니다. 예측 도구가 적합한 항목에 대한 정보를 반환하는 것이 중요한 경우가 많습니다. 따라서 Fit(IDataView) 메서드는 일반 ITransformer개체가 아닌 특별히 형식화된 개체를 반환합니다. 그러나 동시에 IEstimator<TTransformer> 개체가 많은 파이프라인으로 형성되는 경우가 많으므로 변압기를 가져올 추정기가 이 체인의 어딘가에 묻혀 있는 위치를 통해 EstimatorChain<TLastTransformer> 추정기 체인을 빌드해야 할 수도 있습니다. 이 시나리오에서는 fit이 호출되면 호출되는 대리자를 이 메서드를 통해 연결할 수 있습니다. |