Indexes - Analyze

Menunjukkan bagaimana penganalisis memecah teks menjadi token.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2025-09-01

Parameter URI

Nama Dalam Diperlukan Jenis Deskripsi
endpoint
path True

string

URL titik akhir layanan pencarian.

indexName
path True

string

Nama indeks untuk menguji penganalisis.

api-version
query True

string

Versi Api Klien.

Header Permintaan

Nama Diperlukan Jenis Deskripsi
x-ms-client-request-id

string (uuid)

ID pelacakan yang dikirim dengan permintaan untuk membantu penelusuran kesalahan.

Isi Permintaan

Nama Diperlukan Jenis Deskripsi
text True

string

Teks untuk dipecah menjadi token.

analyzer

LexicalAnalyzerName

Nama penganalisis yang akan digunakan untuk memecah teks yang diberikan. Jika parameter ini tidak ditentukan, Anda harus menentukan tokenizer sebagai gantinya. Parameter tokenizer dan analyzer saling eksklusif.

charFilters

CharFilterName[]

Daftar filter karakter opsional untuk digunakan saat melanggar teks yang diberikan. Parameter ini hanya dapat diatur saat menggunakan parameter tokenizer.

normalizer

LexicalNormalizerName

Nama normalizer yang akan digunakan untuk menormalkan teks yang diberikan.

tokenFilters

TokenFilterName[]

Daftar filter token opsional untuk digunakan saat melanggar teks yang diberikan. Parameter ini hanya dapat diatur saat menggunakan parameter tokenizer.

tokenizer

LexicalTokenizerName

Nama tokenizer yang akan digunakan untuk memecah teks yang diberikan. Jika parameter ini tidak ditentukan, Anda harus menentukan penganalisis sebagai gantinya. Parameter tokenizer dan analyzer saling eksklusif.

Respons

Nama Jenis Deskripsi
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Respons kesalahan.

Contoh

SearchServiceIndexAnalyze

Permintaan sampel

POST https://stableexampleservice.search.windows.net/indexes('stable-test')/search.analyze?api-version=2025-09-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

Respon sampel

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definisi

Nama Deskripsi
AnalyzedTokenInfo

Informasi tentang token yang dikembalikan oleh penganalisis.

AnalyzeRequest

Menentukan beberapa komponen teks dan analisis yang digunakan untuk memecah teks tersebut menjadi token.

AnalyzeResult

Hasil pengujian penganalisis pada teks.

CharFilterName

Menentukan nama semua filter karakter yang didukung oleh mesin pencari.

ErrorAdditionalInfo

Info tambahan kesalahan manajemen sumber daya.

ErrorDetail

Detail kesalahan.

ErrorResponse

Tanggapan kesalahan

LexicalAnalyzerName

Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.

LexicalNormalizerName

Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari.

LexicalTokenizerName

Menentukan nama semua tokenizer yang didukung oleh mesin pencari.

TokenFilterName

Menentukan nama semua filter token yang didukung oleh mesin pencari.

AnalyzedTokenInfo

Informasi tentang token yang dikembalikan oleh penganalisis.

Nama Jenis Deskripsi
endOffset

integer (int32)

Indeks karakter terakhir token dalam teks input.

position

integer (int32)

Posisi token dalam teks input relatif terhadap token lain. Token pertama dalam teks input memiliki posisi 0, berikutnya memiliki posisi 1, dan seterusnya. Bergantung pada penganalisis yang digunakan, beberapa token mungkin memiliki posisi yang sama, misalnya jika mereka sinonim satu sama lain.

startOffset

integer (int32)

Indeks karakter pertama token dalam teks input.

token

string

Token yang dikembalikan oleh penganalisis.

AnalyzeRequest

Menentukan beberapa komponen teks dan analisis yang digunakan untuk memecah teks tersebut menjadi token.

Nama Jenis Deskripsi
analyzer

LexicalAnalyzerName

Nama penganalisis yang akan digunakan untuk memecah teks yang diberikan. Jika parameter ini tidak ditentukan, Anda harus menentukan tokenizer sebagai gantinya. Parameter tokenizer dan analyzer saling eksklusif.

charFilters

CharFilterName[]

Daftar filter karakter opsional untuk digunakan saat melanggar teks yang diberikan. Parameter ini hanya dapat diatur saat menggunakan parameter tokenizer.

normalizer

LexicalNormalizerName

Nama normalizer yang akan digunakan untuk menormalkan teks yang diberikan.

text

string

Teks untuk dipecah menjadi token.

tokenFilters

TokenFilterName[]

Daftar filter token opsional untuk digunakan saat melanggar teks yang diberikan. Parameter ini hanya dapat diatur saat menggunakan parameter tokenizer.

tokenizer

LexicalTokenizerName

Nama tokenizer yang akan digunakan untuk memecah teks yang diberikan. Jika parameter ini tidak ditentukan, Anda harus menentukan penganalisis sebagai gantinya. Parameter tokenizer dan analyzer saling eksklusif.

AnalyzeResult

Hasil pengujian penganalisis pada teks.

Nama Jenis Deskripsi
tokens

AnalyzedTokenInfo[]

Daftar token yang dikembalikan oleh penganalisis yang ditentukan dalam permintaan.

CharFilterName

Menentukan nama semua filter karakter yang didukung oleh mesin pencari.

Nilai Deskripsi
html_strip

Filter karakter yang mencoba menghapus konstruksi HTML. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Info tambahan kesalahan manajemen sumber daya.

Nama Jenis Deskripsi
info

object

Info tambahan.

type

string

Jenis info tambahan.

ErrorDetail

Detail kesalahan.

Nama Jenis Deskripsi
additionalInfo

ErrorAdditionalInfo[]

Info tambahan kesalahan.

code

string

Kode kesalahan.

details

ErrorDetail[]

Detail kesalahan.

message

string

Pesan kesalahan.

target

string

Target kesalahan.

ErrorResponse

Tanggapan kesalahan

Nama Jenis Deskripsi
error

ErrorDetail

Objek kesalahan.

LexicalAnalyzerName

Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.

Nilai Deskripsi
ar.microsoft

Penganalisis Microsoft untuk bahasa Arab.

ar.lucene

Lucene analyzer untuk bahasa Arab.

hy.lucene

Penganalisis Lucene untuk Armenia.

bn.microsoft

Microsoft analyzer untuk Bangla.

eu.lucene

Penganalisis Lucene untuk Basque.

bg.microsoft

Penganalisis Microsoft untuk bahasa Bulgaria.

bg.lucene

Penganalisis Lucene untuk bahasa Bulgaria.

ca.microsoft

Penganalisis Microsoft untuk bahasa Catalan.

ca.lucene

Penganalisis Lucene untuk bahasa Catalan.

zh-Hans.microsoft

Penganalisis Microsoft untuk bahasa Cina (Sederhana).

zh-Hans.lucene

Penganalisis Lucene untuk Cina (Sederhana).

zh-Hant.microsoft

Penganalisis Microsoft untuk bahasa Cina (Tradisional).

zh-Hant.lucene

Lucene analyzer untuk Cina (Tradisional).

hr.microsoft

Penganalisis Microsoft untuk bahasa Kroasia.

cs.microsoft

Penganalisis Microsoft untuk Ceko.

cs.lucene

Penganalisis Lucene untuk Ceko.

da.microsoft

Penganalisis Microsoft untuk Denmark.

da.lucene

Penganalisis Lucene untuk Denmark.

nl.microsoft

Penganalisis Microsoft untuk bahasa Belanda.

nl.lucene

Lucene analyzer untuk bahasa Belanda.

en.microsoft

Penganalisis Microsoft untuk bahasa Inggris.

en.lucene

Penganalisis Lucene untuk bahasa Inggris.

et.microsoft

Penganalisis Microsoft untuk bahasa Estonia.

fi.microsoft

Penganalisis Microsoft untuk bahasa Finlandia.

fi.lucene

Penganalisis Lucene untuk bahasa Finlandia.

fr.microsoft

Penganalisis Microsoft untuk bahasa Prancis.

fr.lucene

Penganalisis Lucene untuk bahasa Prancis.

gl.lucene

Penganalisis Lucene untuk Galicia.

de.microsoft

Penganalisis Microsoft untuk bahasa Jerman.

de.lucene

Penganalisis Lucene untuk bahasa Jerman.

el.microsoft

Penganalisis Microsoft untuk bahasa Yunani.

el.lucene

Penganalisis Lucene untuk bahasa Yunani.

gu.microsoft

Penganalisis Microsoft untuk Gujarati.

he.microsoft

Penganalisis Microsoft untuk bahasa Ibrani.

hi.microsoft

Penganalisis Microsoft untuk bahasa Hindi.

hi.lucene

Penganalisis Lucene untuk bahasa Hindi.

hu.microsoft

Penganalisis Microsoft untuk bahasa Hongaria.

hu.lucene

Penganalisis Lucene untuk bahasa Hongaria.

is.microsoft

Penganalisis Microsoft untuk bahasa Islandia.

id.microsoft

Microsoft analyzer untuk bahasa Indonesia (Bahasa).

id.lucene

Lucene analyzer untuk bahasa Indonesia.

ga.lucene

Penganalisis Lucene untuk Irlandia.

it.microsoft

Penganalisis Microsoft untuk bahasa Italia.

it.lucene

Penganalisis Lucene untuk bahasa Italia.

ja.microsoft

Penganalisis Microsoft untuk bahasa Jepang.

ja.lucene

Penganalisis Lucene untuk bahasa Jepang.

kn.microsoft

Penganalisis Microsoft untuk Kannada.

ko.microsoft

Penganalisis Microsoft untuk bahasa Korea.

ko.lucene

Penganalisis Lucene untuk bahasa Korea.

lv.microsoft

Penganalisis Microsoft untuk bahasa Latvia.

lv.lucene

Penganalisis Lucene untuk bahasa Latvia.

lt.microsoft

Penganalisis Microsoft untuk bahasa Lituania.

ml.microsoft

Penganalisis Microsoft untuk Malayalam.

ms.microsoft

Penganalisis Microsoft untuk bahasa Melayu (Latin).

mr.microsoft

Penganalisis Microsoft untuk Marathi.

nb.microsoft

Penganalisis Microsoft untuk Norwegia (Bokmål).

no.lucene

Penganalisis Lucene untuk Norwegia.

fa.lucene

Penganalisis Lucene untuk Persia.

pl.microsoft

Penganalisis Microsoft untuk bahasa Polandia.

pl.lucene

Lucene analyzer untuk Polandia.

pt-BR.microsoft

Penganalisis Microsoft untuk Portugis (Brasil).

pt-BR.lucene

Penganalisis Lucene untuk Portugis (Brasil).

pt-PT.microsoft

Penganalisis Microsoft untuk Portugis (Portugal).

pt-PT.lucene

Penganalisis Lucene untuk Portugis (Portugal).

pa.microsoft

Penganalisis Microsoft untuk Punjabi.

ro.microsoft

Penganalisis Microsoft untuk bahasa Rumania.

ro.lucene

Penganalisis Lucene untuk Rumania.

ru.microsoft

Penganalisis Microsoft untuk bahasa Rusia.

ru.lucene

Penganalisis Lucene untuk Rusia.

sr-cyrillic.microsoft

Penganalisis Microsoft untuk bahasa Serbia (Cyrillic).

sr-latin.microsoft

Penganalisis Microsoft untuk bahasa Serbia (Latin).

sk.microsoft

Penganalisis Microsoft untuk bahasa Slovakia.

sl.microsoft

Penganalisis Microsoft untuk bahasa Slovenia.

es.microsoft

Penganalisis Microsoft untuk bahasa Spanyol.

es.lucene

Lucene analyzer untuk bahasa Spanyol.

sv.microsoft

Penganalisis Microsoft untuk bahasa Swedia.

sv.lucene

Penganalisis Lucene untuk bahasa Swedia.

ta.microsoft

Penganalisis Microsoft untuk bahasa Tamil.

te.microsoft

Penganalisis Microsoft untuk Telugu.

th.microsoft

Penganalisis Microsoft untuk bahasa Thailand.

th.lucene

Penganalisis Lucene untuk Thailand.

tr.microsoft

Penganalisis Microsoft untuk bahasa Turki.

tr.lucene

Penganalisis Lucene untuk Turki.

uk.microsoft

Penganalisis Microsoft untuk bahasa Ukraina.

ur.microsoft

Penganalisis Microsoft untuk bahasa Urdu.

vi.microsoft

Penganalisis Microsoft untuk bahasa Vietnam.

standard.lucene

Penganalisis Lucene standar.

standardasciifolding.lucene

Alat analisis Lucene Lipat ASCII Standar. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Memperlakukan seluruh konten bidang sebagai satu token. Ini berguna untuk data seperti kode pos, id, dan beberapa nama produk. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Membagi teks pada non-huruf dan mengubahnya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Penganalisis yang menggunakan tokenizer spasi putih. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari.

Nilai Deskripsi
asciifolding

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Menormalkan teks token menjadi huruf kecil. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Normalizer standar, yang terdiri dari huruf kecil dan asciifolding. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Menormalkan teks token ke huruf besar. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Menentukan nama semua tokenizer yang didukung oleh mesin pencari.

Nilai Deskripsi
classic

Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Memancarkan seluruh input sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Membagi teks dalam non-huruf. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Membagi teks pada non-huruf dan mengubahnya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Membagi teks menggunakan aturan khusus bahasa.

microsoft_language_stemming_tokenizer

Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.

nGram

Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer untuk hierarki seperti jalur. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Penganalisis Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Mentokenisasi url dan email sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Membagi teks di spasi kosong. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Menentukan nama semua filter token yang didukung oleh mesin pencari.

Nilai Deskripsi
arabic_normalization

Filter token yang menerapkan normalisasi Arab untuk menormalkan ortografi. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Melucuti semua karakter setelah apostrof (termasuk apostrof itu sendiri). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Menormalkan perbedaan lebar CJK. Melipat varian ASCII lebar penuh menjadi Latin dasar yang setara, dan varian Katakana setengah lebar ke dalam Kana yang setara. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Menghapus posesif bahasa Inggris, dan titik dari akronim. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Menormalkan karakter Jerman sesuai dengan heuristik algoritma bola salju Jerman2. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Menormalkan teks dalam bahasa Hindi untuk menghilangkan beberapa perbedaan variasi ejaan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Menormalkan representasi teks Unicode dalam bahasa India. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Memancarkan setiap token masuk dua kali, sekali sebagai kata kunci dan sekali sebagai non-kata kunci. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Filter kstem berkinerja tinggi untuk bahasa Inggris. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Membatasi jumlah token saat mengindeks. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Menormalkan teks token ke huruf kecil. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Menghasilkan n-gram dari ukuran yang diberikan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Menerapkan normalisasi untuk bahasa Persia. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Buat token untuk kecocokan fonetik. Lihat https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Menggunakan algoritma stemming Porter untuk mengubah aliran token. Lihat http://tartarus.org/~martin/PorterStemmer

reverse

Membalikkan string token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Menormalkan penggunaan karakter Skandinavia yang dapat dipertukarkan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Melipat karakter Skandinavia åÅäæÄÆ-a> dan öÖøØ-o>. Ini juga membedakan penggunaan vokal ganda aa, ae, ao, oe dan oo, hanya menyisakan yang pertama. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Membuat kombinasi token sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Menormalkan representasi Unicode teks Sorani. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filter stem khusus bahasa. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Menghapus kata berhenti dari aliran token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Memangkas spasi kosong depan dan belakang dari token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Memotong istilah ke panjang tertentu. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Memfilter token dengan teks yang sama dengan token sebelumnya. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Menormalkan teks token ke huruf besar. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata.