Aracılığıyla paylaş


Word ayırıcılarını ve sözcük köklerini

Word ayırıcılarını ve sözcük köklerini üzerindeki tüm tam metin dizini oluşturulmuş veri dilbilimsel çözümlemesi gerçekleştirin.Dilbilimsel çözümlemesi gerektirir word sınırları (sözcük bölme) bulma ve fiiller (dallanma) conjugating.Word ayırıcılarını ve sözcük köklerini dile olan ve dilbilimsel çözümlemesi için kuralları farklı diller için farklıdır.Belirli bir dil için bir sözcük ayırıcı tek tek sözcüklere sözcük sınırlarının nerede sözlü dilin kurallarına göre mevcut belirlenerek tanımlar.Her sözcüğün (olarak da bilinen bir token) boyutunu küçültmek için sıkıştırılmış bir gösterimini kullanarak tam metin dizini eklenir.The stemmer generates inflectional forms of a particular word based on the rules of that language (for example, "running", "ran", and "runner" are various forms of the word "run").

Dile özgü sözcük ayırıcıları kullanılarak elde edilen koşulları bu dil için daha doğru olmasını sağlar.Bir sözcük ayırıcısı dil ailesi, için ancak belirli alt diliyle burada ana dil kullanılır.Örneğin, Fransızca sözcük ayırıcısı, Kanada Fransızca metni işlemek için kullanılır.Belirli bir dil için kullanılabilir hiçbir sözcük ayırıcısı, nötr sözcük ayırıcısı kullanılır.Nötr sözcük ayırıcısı ile boşluk ve noktalama işaretleri gibi nötr karakterler en kopuk sözcüklerdir.

Sözcük ayırıcısı kaydı

İçin kullanılacak bir dil, sözcük ayırıcılarını kayıtlı olmaları gerekir.Kayıtlı sözcük ayırıcılarını için Dil kaynakları ilişkilendirilmiş — sözcük köklerini, gürültü sözcükleri (stopwords) ve eş anlamlılar dosyaları — tam dizin oluşturma ve sorgulama işlemleri metin için de kullanılabilir.Sözcük ayırıcılarını şu anda ile kayıtlı diller listesini görüntülemek için SQL Server, aşağıdakileri kullanın Transact-SQL deyim:

SEÇİN * sys.fulltext_languages gelen

Ekler, kaldırır veya bir sözcük ayırıcı alter, tam dizin oluşturma ve sorgulama metin için desteklenen Microsoft Windows yerel ayar tanımlayıcısı (LCID) listesini yenilemek gerekir.Daha fazla bilgi için bkz: Nasıl yapılır: Kayıtlı sözcük ayırıcılarını ve süzgeçler (Transact-SQL) listesini değiştir.

Birkaç lisanslı üçüncü taraf sözcük ayırıcılarını ile birlikte gelen SQL Server 2008.Çeşitli dillerde (Danca, Lehçe ve Türkçe) ek üçüncü taraf sözcük ayırıcılarını (ve sözcük köklerini) el ile yükleyebilirsiniz.Daha fazla bilgi için bkz: Nasıl yapılır: Lisanslı üçüncü taraf sözcük ayırıcılarını yükle.

Tam metin dili seçeneği

Yerelleştirilmiş sürüm için SQL Server, SQL Server kurulum ayarlar varsayılan tam metin dili uygun bir eşleşme varsa, sunucunun dili için seçenek.Olmayan yerelleştirilmiş sürüm için SQL Server, default full-text language seçenek, İngilizce.

Oluşturma veya bir tam metin dizini değiştirerek her tam metin dizini oluşturulmuş sütun için farklı bir dil belirtebilirsiniz.Hiçbir dil için bir sütun belirtilmezse, varsayılan yapılandırma seçeneği değeridir default full-text language.

Daha fazla bilgi için bkz: Varsayılan seçenek tam metin dili.

Not

Sorguda dil seçeneği belirtilmediği sürece, bir tek tam metin sorgusu işlev yan tümce tümce tümcesinde listelenen tüm sütunlar aynı dili kullanmanız gerekir.tam metin sorgusu yüklemler bağımsız değişkenler üzerinde gerçekleştirilen dilbilimsel çözümlemesi sorgulanan tam metin dizini oluşturulmuş sütun için kullanılan dili belirler (CONTAINS ve freetext) ve işlevleri (CONTAINSTABLE ve freetexttable).

Tam metin, bir sütunun dizin oluşturma, bir dil seçme

Tam metin dizini oluştururken, dizin oluşturulmuş her sütun için bir dil belirtmek öneririz.Bir dil için bir sütun belirtilmezse, sistem varsayılan dil kullanılır.Hangi sözcük ayırıcısı ve sözcük kökü ayırıcı olan sütunun dizin oluşturma için kullanılan sütun dili belirler.Ayrıca, o dilin eş anlamlılar dosyası sütun üzerinde tam metin sorgular tarafından kullanılacaktır.

Bir kelimenin tam metin dizini oluşturmak için sütun dil seçerken göz önünde bulundurulması gereken noktalar vardır.Bu noktalar arasında ilişki nasıl metninizi tokenized için ve tam-metin arama motoru tarafından dizine alınmış.Daha fazla bilgi için bkz: Tam metin dizini oluşturma, bir dil seçme en iyi yöntemler.

sütun sözcük ayırıcısı dil görüntülemek için

sql Server 2008'deki yeni sözcük ayırıcılarını etkisi

SQL Server 2008hangi 23 da var, 50'den fazla farklı diller için sözcük ayırıcılarını içerir SQL Server 2005.Yalnızca İngilizce, Kore dili, Tay dili ve Çince (tüm formlar) için sözcük ayırıcılarını aynı kalır.Diğer diller için SQL Server 2008 Yeni nesil daha iyi dile ait kuralları vardır ve'den daha doğru sözcük ayırıcılarını tanıtırönceki word ayırıcılarını. Yeni sözcük ayırıcılarını davranır biraz farklı sözcük ayırıcılarını içinde gelen potansiyel, içe SQL Server 2005 tam metin dizinleri.Bu tam metin kataloğu ne zaman alındı, önemli bir SQL Server 2005 veritabanı için yükseltme yaptıysanız SQL Server 2008.Şimdi de tam metin kataloğu tam metin dizinleri tarafından kullanılan bir veya birkaç dilde yeni sözcük ayırıcılarını ile ilişkili olabilir.Daha fazla bilgi için bkz: Tam metin arama yükseltme.

Bölücü sürümleri sql Server 2005'te desteklenen dilleri için word

Yalnızca İngilizce, Kore dili, Tay dili ve Çince (tüm formlar) için sözcük ayırıcılarını aynı kalır.Aşağıdaki tablo varolan sözcük ayırıcılarını listeler SQL Server 2005 ve gösterir olup bunlar güncelleştirilmiş SQL Server 2008.Tüm tam listesi için SQL Server 2008 , sözcük ayırıcılarını Bkz: sys.fulltext_languages (Transact-sql).

Not

Çoğu dil için sözcük ayırıcılarını varsayılan olarak kaydedilir.Ancak, çok sayıda lisanslı üçüncü taraf sözcük ayırıcılarını varsayılan olarak devre dışıdır.Bu sözcük ayırıcılarını kaydettirmek bu dilleri ve hakkında daha fazla bilgi için bkz: Nasıl yapılır: Lisanslı üçüncü taraf sözcük ayırıcılarını yükle.

Dil

LCID

Sözcük ayırıcıları

Brezilya

1046

Yeni

Chinese (Hong Kong SAR, PRC)

3076

Değişmeden

Çince (Macao sar)

5124

Değişmeden

Chinese (Singapore)

4100

Değişmeden

Danca (varsayılan olarak devre dışı)

1030

Değişmeden

Felemenkçe

1043

Yeni

İngilizce

1033

Değişmeden

English (United Kingdom)

2057

Değişmeden

Fransızca

1036

Yeni

Almanca

1031

Yeni

İtalyanca

1040

Yeni

Japanese

1041

Yeni

Kore Dili

1042

Değişmeden

Tarafsız

0

Yeni

Lehçe (varsayılan olarak devre dışı)

1045

Değişmeden

Portekizce

2070

Yeni

Rusça

1049

Yeni

Basitleştirilmiş Çince

2052

Değişmeden

İspanyolca

3082

Yeni

İsveççe

1053

Yeni

Thai

1054

Değişmeden

Geleneksel Çince

1028

Değişmeden

Türkçe (varsayılan olarak devre dışı)

1055

Değişmeden

Desteklenen dillerin tam listesi için bkz: sys.fulltext_languages (Transact-sql).

Sözcük sonu zaman aşımı hataları

Sözcük sonu saat aşımı hatası çeşitli durumlar ortaya çıkabilir.Bu gibi durumlarda ve her durumda yanıt hakkında daha fazla bilgi için bkz: MSSQLSERVER_30053.

Sözcük ayırıcılarını hakkında bilgi edinme

Sözcük ayırıcısı, eş anlamlılar ve birleşimi Stoplist Tokenization sonucunu görüntüleme

Kayıtlı sözcük ayırıcılarını hakkında bilgi dönmek için