다음을 통해 공유


TextCatalog.ProduceHashedWordBags 메서드

정의

오버로드

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimator새 열에서 해시된 inputColumnNames n-gram 개수의 벡터에 지정된 여러 열을 outputColumnName매핑하는 를 만듭니다.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimator새 열에서 해시된 inputColumnName n-gram 개수의 벡터에 지정된 열을 outputColumnName매핑하는 을 만듭니다.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimator새 열에서 해시된 inputColumnNames n-gram 개수의 벡터에 지정된 여러 열을 outputColumnName매핑하는 를 만듭니다.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

매개 변수

catalog
TransformsCatalog.TextTransforms

변환의 카탈로그입니다.

outputColumnName
String

의 변환에서 생성된 열의 inputColumnNames이름입니다. 이 열의 데이터 형식은 알려진 크기의 벡터입니다 Single.

inputColumnNames
String[]

데이터를 가져와야 하는 여러 열의 이름입니다. 이 추정기는 텍스트의 벡터에서 작동합니다.

numberOfBits
Int32

해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.

ngramLength
Int32

Ngram 길이입니다.

skipLength
Int32

n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.

useAllLengths
Boolean

모든 n-gram 길이를 포함할지 또는 최대 1개까지 ngramLengthngramLength포함할지 여부입니다.

seed
UInt32

해시 시드입니다.

useOrderedHashing
Boolean

각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).

maximumNumberOfInverts
Int32

해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다. 원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나의 값에 매핑할 수 있습니다. maximumNumberOfInverts 는 보존해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다. 0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 매핑되는 모든 입력 값을 유지합니다.

반환

설명

WordHashBagEstimator 는 전자가 내부적으로 텍스트를 토큰화하고 후자는 토큰화된 텍스트를 입력으로 사용하는 것과 다릅니다 NgramHashingEstimator .

적용 대상

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimator새 열에서 해시된 inputColumnName n-gram 개수의 벡터에 지정된 열을 outputColumnName매핑하는 을 만듭니다.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

매개 변수

catalog
TransformsCatalog.TextTransforms

변환의 카탈로그입니다.

outputColumnName
String

의 변환에서 생성된 열의 inputColumnName이름입니다. 이 열의 데이터 형식은 알려진 크기의 벡터입니다 Single.

inputColumnName
String

데이터를 받을 열의 이름입니다. 이 추정기는 텍스트의 벡터에서 작동합니다.

numberOfBits
Int32

해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다.

ngramLength
Int32

Ngram 길이입니다.

skipLength
Int32

n-gram을 생성할 때 건너뛸 최대 토큰 수입니다.

useAllLengths
Boolean

모든 n-gram 길이를 포함할지 또는 최대 1개까지 ngramLengthngramLength포함할지 여부입니다.

seed
UInt32

해시 시드입니다.

useOrderedHashing
Boolean

각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우).

maximumNumberOfInverts
Int32

해시하는 동안 원래 값과 생성된 해시 값 간에 매핑을 생성합니다. 원래 값의 텍스트 표현은 새 열에 대한 주석의 슬롯 이름에 저장됩니다. 따라서 해시는 많은 초기 값을 하나의 값에 매핑할 수 있습니다. maximumNumberOfInverts 는 보존해야 하는 해시에 매핑되는 고유 입력 값 수의 상한을 지정합니다. 0 은 입력 값을 유지하지 않습니다. -1 은 각 해시에 매핑되는 모든 입력 값을 유지합니다.

반환

설명

WordHashBagEstimator 는 전자가 내부적으로 텍스트를 토큰화하고 후자는 토큰화된 텍스트를 입력으로 사용하는 것과 다릅니다 NgramHashingEstimator .

적용 대상