Compartir a través de


MicrosoftLanguageStemmingTokenizer Clase

Definición

Divide el texto mediante reglas específicas del idioma y reduce las palabras a sus formas base.

[Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer")]
public class MicrosoftLanguageStemmingTokenizer : Microsoft.Azure.Search.Models.Tokenizer
[<Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer")>]
type MicrosoftLanguageStemmingTokenizer = class
    inherit Tokenizer
Public Class MicrosoftLanguageStemmingTokenizer
Inherits Tokenizer
Herencia
MicrosoftLanguageStemmingTokenizer
Atributos
Newtonsoft.Json.JsonObjectAttribute

Constructores

MicrosoftLanguageStemmingTokenizer()

Inicializa una nueva instancia de la clase MicrosoftLanguageStemmingTokenizer.

MicrosoftLanguageStemmingTokenizer(String, Nullable<Int32>, Nullable<Boolean>, Nullable<MicrosoftStemmingTokenizerLanguage>)

Inicializa una nueva instancia de la clase MicrosoftLanguageStemmingTokenizer.

Propiedades

IsSearchTokenizer

Obtiene o establece un valor que indica cómo se usa el tokenizador. Se establece en true si se usa como tokenizador de búsqueda, se establece en false si se usa como tokenizador de indexación. El valor predeterminado es False.

Language

Obtiene o establece el idioma que se va a usar. El valor predeterminado es inglés. Entre los valores posibles se incluyen: 'árabe', 'bangla', 'búlgaro', 'catalán', 'croata', 'checo', 'danés', 'neerlandés', 'inglés', 'estonian', 'finés', 'francés', 'alemán', 'griego', 'gujarati', 'hebreo', 'hindi', 'húngaro', 'islandés', 'islandés', 'indonesia', 'italiano', 'kannada', 'letón', 'lituano', 'malay', 'malayalam', 'marathi', 'norwegianBokmaal', 'polaco', 'portugués', 'portuguésBrazilian', 'punjabi', 'rumano', 'ruso', 'serbianCyrillic', 'serbianLatin', 'eslovaco', 'esloveno', 'español', 'sueco', 'hindi', 'telugu', 'turco', 'ucrania', 'urdu'

MaxTokenLength

Obtiene o establece la longitud máxima del token. Los tokens que sobrepasen la longitud máxima se dividen. La longitud máxima del token que se puede usar es 300 caracteres. Los tokens de más de 300 caracteres se dividen primero en tokens de longitud 300 y, a continuación, cada uno de esos tokens se divide en función del conjunto de longitud máxima del token. El valor predeterminado es 255.

Name

Obtiene o establece el nombre del tokenizador. Solo puede contener letras, dígitos, espacios, guiones o guiones bajos, debe empezar y acabar con caracteres alfanuméricos y no puede superar los 128 caracteres.

(Heredado de Tokenizer)

Métodos

Validate()

Valide el objeto .

Se aplica a