Aracılığıyla paylaş


Terim ayıklama dönüştürme

Terim ayıklama dönüştürme metinden dönüştürme girdisi sütunda koşulları ayıklar ve sonra bir dönüştürme çıktısı sütun şartları yazar.dönüştürme Ve İngilizce metin ile çalışır, kendi İngilizce Sözlük ve İngilizce dil bilgilerini kullanır.

Terim ayıklama kullanabileceğiniz dönüştürme veri kümesi içeriğini görmek için.Örneğin, geribildirim çözümlemek için bir yol olarak, iletilerdeki tartışma konuları ayıklamak için terim ayıklama dönüştürmeyi kullanabilir, e-posta iletilerini içeren metni ürünleri hakkında yararlı geribildirim sağlayabilir.

Terim ayıklamak dönüştürme yalnızca isimleri, isim tümceleri yalnızca veya her ikisini de isimleri ve isim aşamaları ayıklayabilirsiniz.Ad tek bir isim; ad tümcecikleri ise en az iki sözcük, bir ad ise diğer bir isim veya bir sıfat.Örneğin, dönüştürme yalnızca isimleri seçeneğini kullanır, ayıklar benzer terimleriBisiklet ve dönüştürme ad deyim seçeneği kullanılıyorsa, Yatay ; onu ayıklar koşulları gibi Yeni mavi bisikletBisiklet helmet , Kutulu bisiklet .

Makaleler ve zamirler ayıklanır değil.Örneğin, terim ayıklama dönüştürme terimi ayıklarBisiklet metin Bisiklet , Benim bisiklet ve , bisiklet .

Böylece farklı terimler gibi sözcükleri büyük harfli ve noncapitalized sürümleri kabul terim ayıklama dönüştürme sözcükleri normalleştirir.Örneğin, metindeBirçok bisiklet Seattle'daki Bkz:mavi bisiklet, Bisiklet ve Bisiklet aynı terimi olarak kabul ve dönüştürme tutar yalnızca Bisiklet . Özel isimleri ve dahili sözlükte listelenen sözcükleri normalleştirilmiş değil.

Terim ayıklamak dönüştürme de yalnızca tekil bir isim, çıkarmak isimleri kaynaklandığını.Örneğin, dönüştürme ayıklarADAM from men, mouse from mice, and bicycle from bicycles.Dönüştürmeyi isimleri nedeniyle, sözlük kullanır.Sözlükte, gerunds isimleri kabul edilir.

DT_WSTR veya DT_NTEXT veri türüne sahip sütun bir metinde terim ayıklama dönüştürme çalışabilirsiniz.Bir sütunun metin içeriyor, ancak bu veri türlerine sahip değil, DT_WSTR bir sütun eklemek için kullanılabilir veri dönüşümü dönüştürme veya DT_NTEXT verileri, veri akışı için yazın ve yeni bir sütun için sütun değerleri kopyalamak.Veri dönüştürme dönüştürme çıktısı daha sonra terim ayıklama dönüştürme için giriş olarak kullanılabilir.Daha fazla bilgi için bkz:Veri dönüştürme dönüştürme.

Terim ayıklama dönüştürme, alan her terim için bir puan üretir.Sonuç, TFIDF değeri ya da kaç kez normalleştirilmiş terimi giriş görüntülenir; yani ham sıklığı olabilir.Her iki durumda da sonuç 0'dan büyük olan bir gerçek sayı ile temsil edilir.Örneğin, TFIDF puan 0,5 değerine sahip ve sıklığını 1.0 veya 2.0 gibi bir değer olacaktır.

Terim dönüştürme, dışlama koşulları içeren bir tablodaki bir sütun başvurusu yani ayıklama isteğe bağlı olarak, koşulları, bir veri şartları ayıklar, dönüştürmeyi atlamak, küme.Bu yararlı olduğunda bir küme terimi gibi yüksek sıklığı oluştuğundan, bu etkisiz sözcük olur koşulları zaten inconsequential belirli bir iş ve endüstri, tipik olarak belirlenmiştir.Örneğin, ayıklama terimleri bir veri küme içeren müşteri desteği bilgilerini belirli bir marka otomobilleri, çünkü çok sık öneme sahip açıklanan marka adı dışlanacak.Bu nedenle, Dışlama listesi değerleri çalıştığınız veri kümesi için özelleştirilmesi gerekir.

Eklediğinizde bir terim dışlama listesine tüm koşulları; sözcük veya ad tümcecikleri — terimi içeren da dışarıda.Örneğin, tek sözcük dışlama listesi içerirverive tüm veri , veri madenciliğiveri bütünlüğü ve veri doğrulama gibi bu sözcük içeren koşulları da dışarıda. Yalnızca sözcük içeren bileşimden dışlamak istediğinizveri, açıkça bu bileşik koşulları eklemelisiniz Dışlama listesi. için Örneğin, incidences ayıklamak istiyorsanızveriAncak çıkarma veri doğrulama , veri doğrulama dışlama listesine ekleyin ve veri , Dışlama listesi. kaldırılmış olduğundan emin olun

Başvuru tablo olması gereken bir tablo içinde birSQL Server 2000, aSQL Server, veya bir Access veritabanı.Terim ayıklama dönüştürme ayrı bir OLE DB Bağlantı başvurusunu bağlanır tablo.Daha fazla bilgi için bkz:OLE DB Bağlantı Yöneticisi.

Terim ayıklama dönüştürme tam olarak precached bir modda çalışır.Çalışma zamanında terim ayıklama dönüştürme başvuru tablosu dışlama koşulları okur ve bunu tüm dönüştürme girdisi satırları işler önce özel belleğinde saklar.

Ayıklanan koşulları, bir tabloya yazılır, kullanılabilir olarak diğer arama dönüştürme gibi arama süresi, belirsiz arama ve arama dönüştürme.

Terim ayıklama dönüştürme çıktısı yalnızca iki sütun içerir.Ayıklanan koşullarını bir sütun içerir ve sonuç diğer sütun içerir.Varsayılan sütun adlarıTerm veScore.Giriş metin sütununda birden çok koşulları içerebileceğinden, terim ayıklama dönüştürme çıktısı genellikle daha fazla satır girişi vardır.

Metin ayıklama dönüştürme sonuçlar üretmek için iç algoritmaları ve istatistiksel modellerini kullanır.Terim ayıklama dönüştürmeyi birkaç kez çalıştırmak ve sonuçları metin madenciliği çözümünüz için çalışan sonuçlar türünü oluşturmak için dönüştürme yapılandırmak için İnceleme gerekebilir.

Terim ayıklama dönüştürme, normal bir giriş, bir çıkış ve bir hata çıktı vardır.

Koşulları Metinden ayıklamak

Koşulları Metinden ayıklamak için terim ayıklama dönüştürme şu görevleri gerçekleştirir.

Metin tokenizing

İlk olarak, aşağıdaki görevleri gerçekleştirerek terim ayıklama dönüştürme sözcükleri tanımlar:

  • Metin, boşluk, satır sonları ve diğer sözcük sonlandırıcılar İngilizce olarak kullanarak sözcüklere ayırma.Örneğin, noktalama işaretleri gibi*?* and : sözcük sonu karakteri. olan

  • Tire veya altçizgi ile bağlı olan sözcükleri koruma.Örneğin, sözcüklerkopya korumalı ve salt okunur bir sözcük. kalır

  • Dönemleri dahil olduğu gibi kısaltmalar kalmasını sağlar.ÖrneğinA.B.C Şirket tokenized ABC ve Şirket .

  • Özel karakter, sözcük bölme.Örneğin, sözcük*tarih/saattarihsüresiBisiklet(bisiklet)*olarak ayıklanır ve C# kabul edilir cÖzel karakterler atılır ve lexicalized olamaz.

  • Kesme gibi özel karakterler sözcüklere bölmek, tanıma.Örneğin, sözcükBisiklet'ın iki sözcüklere bölmek ve tek terim Bisiklet (ad) belirtir.

  • saat ifadeleri, parasal ifadeler, e-posta adresi ve posta adreslerini bölme.Örneğin, tarih31 Ocak 2004 üç simgeleri Ocak , 31 ve 2004 ayrılmış.

Sözcük etiketleme

İkinci olarak, sözcük olarak aşağıdaki parçalar da konuşma süresi ayıklama dönüştürme etiketleri:

  • Tekil formunda bir isim.Örneğin,Bisiklet and potato.

  • Çoğul formunda bir isim.Örneğin,Bisiklet and potatoes.Dallanma tabi olmayan lemmatized tüm çoğul isimleri var.

  • Tekil formundaki uygun ad.Örneğin,Nisan and Peter.

  • Özel isim çoğul biçimde.ÖrneğinAprils and Peters.Uygun dallanma tabi olarak ad için standart İngilizce sözcükleri sınırlı olan iç sözlüğü bir parçası olması gerekir.

  • Bir sıfattan.Örneğin,mavi.

  • İki şey karşılaştırır comparative sıfat.Örneğin,daha yüksek and taller.

  • Bir kalite düzey, en az iki diğer altında veya üstünde olan bir şeyi tanımlayan superlative sıfat.Örneğin,en yüksek and tallest.

  • Bir sayı.Örneğin,62 and 2004.

Bu parçalar da konuşma biri olmayan sözcükler yoksayılır.Örneğin, fiil ve zamirler atılır.

Not

Parçaları da konuşma etiketleme, istatistiksel bir modelini temel alır ve etiketleme tamamen doğru olmayabilir.

Terim ayıklama dönüştürme yalnızca isimleri ayıklamak için yapılandırılmışsa, yalnızca isimleri ve özel isimleri tekil veya çoğul formlar etiketlenir sözcükler ayıklanır.

Terim ayıklama dönüştürme yalnızca isim tümcecikleri ayıklamak için yapılandırılmışsa, isimleri, özel isimleri, sıfatları ve sayı etiketlenmiş bir sözcük, ad deyim oluşturmak için birleştirilebilir, ancak bir isim veya doğru ad, tekil veya çoğul form olarak etiketli en az bir sözcük ifadesini eklemeniz gerekir.Örneğin, ad deyimen yüksek Dağ superlative sıfat ( yüksek ) etiketlenmiş bir sözcük ve ad ( Dağ ) etiketlenmiş bir sözcüğü birleştirir.

Terim ayıklama isimleri hem de isim tümcecikleri ayıklamak için yapılandırılmışsa, isimleri kuralları hem isim tümcecikleri kuralları uygulanır.Örneğin, dönüştürme ayıklarBisiklet ve gelen metin çok güzel mavi bisikletgüzel mavi bisiklet.

Not

Ayıklanan koşulları için en fazla kalır, uzunluğu ve sıklığı eşik terim dönüştürme kullanır.

Sözcük dallanma

Üçüncü terim ayıklama dönüştürme sözcük, sözlük forma için terim ayıklama dönüştürme dahili sözlüğünü kullanarak aşağıdaki örnekte gösterildiği gibi kaynaklandığını.

  • Kaldırmas gelen isimleri.Örneğin,Bisiklet becomes bicycle.

  • Kaldırmaes gelen isimleri.Örneğin,öyküler becomes story.

  • Tekil düzensiz isimleri için sözlükten alınıyor.Örneğin,geese becomes goose.

Sözcük normalleştirme

Terim ayıklama dönüştürme, yalnızca bir cümle içindeki konumlarını nedeniyle büyük harfli terimler normalleştirir ve büyük olmayan-harf formu yerine kullanır.Örneğin, tümceciklerKöpekler, kediler chaseDağ yolları yüksek olduğu, köpekler ve Mountain normalleştirilmiş köpekDağ ile.

durum-Sensitive normalleştirme kullanma

Terim ayıklama dönüştürme ya da farklı şartları veya aynı term. farklı türevlerini küçük ve büyük harfli sözcükleri göz önünde bulundurulması gereken yapılandırılabilir

  • , dönüştürme Koşulları aşağıdaki gibi durumlarda fark tanıyacak şekildeyöntem ve yöntem ayıklanır iki farklı terimler. Tümcenin ilk sözcüğünde olan büyük harfli sözcükleri hiç normalleştirilmiş ve uygun isimleri etiketlenir.

  • Gerekiyorsa dönüştürmeyi olması için büyük küçük, durum duyarsız benzer terimleri yapılandırılmışyöntem değişik bir tek term. ve yöntem tanınır. Ayıklanan terimler listesine ya da dahilyöntem veya yöntem , hangi sözcük üzerinde bağlı olarak ilk ortaya giriş veri kümesi. Ifyöntem yalnızca bu tümcenin ilk sözcüğünde olduğu için büyük harf, normalleştirilmiş formu. ayıklanmış

Cümle ve Word'Ü sınırları

Terim ayıklama dönüştürme metin içine, cümle cümle sınırları aşağıdaki karakterleri kullanarak ayırır:

  • ASCII satır sonu karakterleri 0x0d (başı) ve 0x0a (satır besleme).Bu karakter bir cümle sınırı kullanmak için olmalıdır iki veya daha fazla satır sonu karakterleri bir satır.

  • Tire (-).Bu karakter bir cümle sınırı kullanmak için her iki karakterin sol ve sağ tarafındaki tire bir harf olabilir.

  • Alt çizgi (_).Bu karakter bir cümle sınırı kullanmak için her iki karakterin sol ve sağ tarafındaki tire bir harf olabilir.

  • Daha az daha 0x19 eşit veya sıfırdan büyük veya eşit 0x7b tüm Unicode karakterler.

  • Sayı, noktalama işaretleri ve alfabetik karakter birleşimleri.Örneğin,A23B # 99A23Bterim verir.

  • Karakterler, %, @&, $, #, *, :, ;, .,,, !, ?,<,>, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

    Not

    Birden fazla cümle içinde bir veya daha fazla nokta (.) içeren kısaltmalar ayrılır.

Sonra terim ayıklama dönüştürme cümleyi kullanarak aşağıdaki sözcük sınırlarının sözcüklere ayırır:

  • Alan

  • SEKME:

  • ASCII 0x0d (başı)

  • ASCII 0x0a (satır besleme)

    Not

    Kesme işareti ise bir sözcük olan bir contraction gibibiz demektir. veya kendi , sözcük kesme sırasında bozulur; aksi halde, kesme aşağıdaki harfleri atılır. Örneğin,biz demektir.demektir ve de bölmek ve Bisiklet 'sBisiklet kesildikten.

Terim ayıklama dönüştürme yapılandırma

Yapabilirsiniz küme özellikleri kullanılarakSSISTasarımcısı veya programla.

Yapabilirsiniz özellikleri hakkında daha fazla bilgi için küme,Terim ayıklama dönüştürme Düzenleyicisi iletişim kutusunda, aşağıdaki konulardan birini tıklatın:

Yapabilirsiniz özellikleri hakkında daha fazla bilgi için küme,Gelişmiş Düzenleyici iletişim kutusunda veya programlı olarak aşağıdaki konulardan birini tıklatın:

Özellikleri küme hakkında daha fazla bilgi için bkz:Nasıl Yapılır: Bir veri akışı bileşenin özelliklerini küme.

Integration Services icon (small)tümleştirme Services ile güncel kalın

En son karşıdan yüklemeler, makaleler, örnekler, Microsoft Office 2010 Suite gelen video yanı sıra, seçilen topluluk çözümleri için ziyaret edin veIntegration ServicesMSDN veya TechNet sayfa:

Bu güncelleştirmeler otomatik bildirilmesi için sayfanın RSS akışlarını için abone olmak olun.