CountVectorizerModel Třída
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
public class CountVectorizerModel : Microsoft.Spark.ML.Feature.FeatureBase<Microsoft.Spark.ML.Feature.CountVectorizerModel>
type CountVectorizerModel = class
inherit FeatureBase<CountVectorizerModel>
Public Class CountVectorizerModel
Inherits FeatureBase(Of CountVectorizerModel)
- Dědičnost
Konstruktory
| CountVectorizerModel(List<String>) |
Vytvoří bez CountVectorizerModel parametrů. |
| CountVectorizerModel(String, List<String>) |
CountVectorizerModel Vytvoří s UID, které slouží k poskytnutí jedinečného CountVectorizerModel ID. |
Metody
| Clear(Param) |
Vymaže všechny hodnoty, které byly dříve nastaveny pro tento Microsoft.Spark.ML.Feature.Paramparametr . Hodnota se resetuje na výchozí hodnotu. (Zděděno od FeatureBase<T>) |
| ExplainParam(Param) |
Vrátí popis toho, jak konkrétní Microsoft.Spark.ML.Feature.Param funkce funguje a jak je aktuálně nastavena. (Zděděno od FeatureBase<T>) |
| ExplainParams() |
Vrátí popis toho, jak fungují všechny Microsoft.Spark.ML.Feature.Paramobjekty, které platí pro tento objekt, a jak jsou aktuálně nastaveny. (Zděděno od FeatureBase<T>) |
| GetBinary() |
Získá binární přepínač pro ovládání výstupních vektorových hodnot. Pokud má hodnotu True, nastaví se všechny nenulové počty (po použití filtru minTF) na hodnotu 1. To je užitečné pro diskrétní pravděpodobnostní modely, které modelují binární události spíše než celočíselné počty. Výchozí hodnota: false |
| GetInputCol() |
Získá sloupec, ze kterého CountVectorizerModel by měl číst a převést na kontejnery. Toto nastavení by nastavil SetInputCol. |
| GetMaxDF() |
Získá maximální počet různých dokumentů, ve které se termín může objevit, aby byly zahrnuty do slovníku. Termín, který je větší než prahová hodnota, bude ignorován. Pokud se jedná o celé číslo větší nebo rovno 1, určuje maximální počet dokumentů, ve které se termín může objevit; Pokud se jedná o dvojnásobek v hodnotě [0,1), určuje se maximální část dokumentů, ve které by se termín mohl objevit. |
| GetMinDF() |
Získá minimální počet různých dokumentů, které musí být výraz zobrazen v, aby byly zahrnuty do slovníku. Pokud se jedná o celé číslo větší než nebo rovno 1, určuje počet dokumentů, ve které musí být výraz uveden; Pokud se jedná o dvojnásobek v hodnotě [0,1), určuje se zlomek dokumentů. |
| GetMinTF() |
Získá filtr pro ignorování vzácných slov v dokumentu. U každého dokumentu se ignorují termíny s četností nebo počtem nižším, než je daná prahová hodnota. Pokud se jedná o celé číslo větší než nebo rovno 1, určuje počet (kolikrát se termín musí v dokumentu objevit); Pokud se jedná o dvojnásobek v hodnotě [0,1), určuje se zlomek (mimo počet tokenů dokumentu). Všimněte si, že parametr se používá pouze v transformaci CountVectorizerModel a nemá vliv na přizpůsobení. |
| GetOutputCol() |
Získá název nového sloupce, který CountVectorizerModel vytvoří v datovém rámci. |
| GetParam(String) |
Načte Microsoft.Spark.ML.Feature.Param objekt tak, aby jej bylo možné použít k nastavení hodnoty objektu Microsoft.Spark.ML.Feature.Param . (Zděděno od FeatureBase<T>) |
| GetVocabSize() |
Získá maximální velikost slovníku. CountVectorizerModel vytvoří slovní zásobu, která bere v úvahu pouze termíny top vocabSize seřazené podle četnosti termínů v celém korpusu. |
| Load(String) |
Načte soubor CountVectorizerModel uložený dříve pomocí příkazu Uložit. |
| Save(String) |
Uloží objekt, aby ho bylo možné později načíst pomocí funkce Načíst. Všimněte si, že tyto objekty lze sdílet s jazykem Scala načtením nebo uložením v jazyce Scala. (Zděděno od FeatureBase<T>) |
| Set(Param, Object) |
Nastaví hodnotu konkrétního Microsoft.Spark.ML.Feature.Paramparametru . (Zděděno od FeatureBase<T>) |
| SetBinary(Boolean) |
Nastaví binární přepínač pro ovládání hodnot výstupních vektorů. Pokud má hodnotu True, nastaví se všechny nenulové počty (po použití filtru minTF) na hodnotu 1. To je užitečné pro diskrétní pravděpodobnostní modely, které modelují binární události spíše než celočíselné počty. Výchozí hodnota: false |
| SetInputCol(String) |
Nastaví sloupec, ze CountVectorizerModel kterého se má číst. |
| SetMinTF(Double) |
Nastaví filtr tak, aby ignoroval vzácná slova v dokumentu. U každého dokumentu se ignorují termíny s četností nebo počtem nižším, než je daná prahová hodnota. Pokud se jedná o celé číslo větší než nebo rovno 1, určuje počet (kolikrát se termín musí v dokumentu objevit); Pokud se jedná o dvojnásobek v hodnotě [0,1), určuje se zlomek (mimo počet tokenů dokumentu). Všimněte si, že parametr se používá pouze v transformaci CountVectorizerModel a nemá vliv na přizpůsobení. |
| SetOutputCol(String) |
Nastaví název nového sloupce, který CountVectorizerModel vytvoří v datovém rámci. |
| ToString() |
Vrátí hodnotu JVM toString místo výchozí hodnoty toString rozhraní .NET. (Zděděno od FeatureBase<T>) |
| Transform(DataFrame) |
Převede datový rámec s textovým dokumentem na řídký vektor počtu tokenů. |
| TransformSchema(StructType) |
Zkontrolujte platnost transformace a odvozujte výstupní schéma ze vstupního schématu. To kontroluje platnost interakcí mezi parametry během transformace a vyvolá výjimku, pokud je některá hodnota parametru neplatná. Typická implementace by měla nejprve provést ověření změny schématu a platnosti parametrů, včetně složitých kontrol interakce parametrů. |
| Uid() |
Identifikátor UID, který byl použit k vytvoření objektu. Pokud se při vytváření objektu nepředá žádné UID, vytvoří se při vytváření objektu náhodné UID. (Zděděno od FeatureBase<T>) |