Aracılığıyla paylaş


Terim Ayıklama Dönüşümü

Şunlar için geçerlidir:SQL Server Azure Data Factory'de SSIS Tümleştirme Çalışma Zamanı

Terim Ayıklama dönüşümü, bir dönüştürme giriş sütunundaki metinden terimleri ayıklar ve sonra terimleri bir dönüştürme çıkış sütununa yazar. Dönüşüm yalnızca İngilizce metinle çalışır ve İngilizce hakkında kendi İngilizce sözlüğü ve dil bilgisi kullanır.

Bir veri kümesinin içeriğini bulmak için Terim Ayıklama dönüştürmesini kullanabilirsiniz. Örneğin, e-posta iletileri içeren metinler ürünler hakkında yararlı geri bildirimler sağlayabilir, böylece geri bildirimi analiz etmenin bir yolu olarak, iletilerdeki tartışma konularını ayıklamak için Terim Ayıklama dönüştürmesini kullanabilirsiniz.

Ayıklanan Terimler ve Veri Türleri

Terim Ayıklama dönüşümü yalnızca isimleri, yalnızca isim tümceciklerini veya hem isim hem de isim aşamalarını ayıklayabilir. İsim tek bir isimdir; bir isim tümceciği en az iki sözcük olup bunlardan biri isim, diğeri isim veya sıfattır. Örneğin, dönüştürme yalnızca isim seçeneğini kullanıyorsa bisiklet ve manzara gibi terimleri ayıklar; dönüşüm isim tümceciği seçeneğini kullanıyorsa , yeni mavi bisiklet, bisiklet kaskı ve kutulu bisikletler gibi terimleri ayıklar.

Tanımlıklar ve zamirler ayıklanmaz. Örneğin, Terim Ayıklama dönüşümü bisiklet terimini bisiklet, bisikletim ve bu bisiklet metninden ayıklar.

Terim Ayıklama dönüşümü ayıklanan her terim için bir puan oluşturur. Puan bir TFIDF değeri veya ham frekans olabilir; yani normalleştirilmiş terimin girişte görünme sayısı. Her iki durumda da puan 0'dan büyük bir gerçek sayı ile gösterilir. Örneğin, TFIDF puanı 0,5 değerine sahip olabilir ve sıklık 1,0 veya 2,0 gibi bir değer olabilir.

Terim Ayıklama dönüştürmesinin çıkışı yalnızca iki sütun içerir. Bir sütun ayıklanan terimleri, diğer sütun ise puanı içerir. Sütunların varsayılan adları Terim ve Puan'dır. Girişteki metin sütunu birden çok terim içerebileceğinden, Terim Ayıklama dönüştürmesinin çıkışı genellikle girişten daha fazla satıra sahiptir.

Eğer ayıklanan terimler bir tabloya yazılırsa, Terim Arama, Benzer Arama ve Arama dönüştürmeleri gibi diğer arama dönüştürmeleri tarafından kullanılabilir.

Terim Ayıklama dönüşümü yalnızca DT_WSTR veya DT_NTEXT veri türüne sahip bir sütundaki metinle çalışabilir. Bir sütun metin içeriyorsa ancak bu veri türlerinden birine sahip değilse, veri akışına DT_WSTR veya DT_NTEXT veri türüne sahip bir sütun eklemek ve sütun değerlerini yeni sütuna kopyalamak için Veri Dönüştürme dönüşümü kullanılabilir. Daha sonra Veri Dönüştürme dönüşümünden elde edilecek çıkış, Terim Ayıklama dönüşümüne giriş olarak kullanılabilir. Daha fazla bilgi için bkz. Veri Dönüştürme Dönüşümü.

Dışlama Koşulları

İsteğe bağlı olarak Terim Ayıklama dönüşümü, dışlama terimleri içeren tablodaki bir sütuna başvurabilir; yani veri kümesinden terim ayıkladığında dönüştürmenin atlaması gereken terimler. Bu, bir dizi terimin belirli bir iş dünyası ve sektörde önemsiz olarak tanımlandığı durumlarda kullanışlıdır, çünkü bu terim o kadar sık kullanılır ki önemsiz kelime haline gelir. Örneğin, belirli bir otomobil markasıyla ilgili müşteri destek bilgilerini içeren bir veri kümesinden terimler ayıklanırken marka adının kendisi hariç tutulabilir çünkü anlam açısından çok sık bahsedilir. Bu nedenle, dışlama listesindeki değerlerin çalıştığınız veri kümesine özelleştirilmesi gerekir.

Dışlama listesine bir terim eklediğinizde, terimi içeren tüm terim-sözcükler veya isim tümcecikleri de dışlanır. Örneğin, dışlama listesi tek sözcük verilerini içeriyorsa veri, veri madenciliği, veri bütünlüğü ve veri doğrulama gibi bu sözcüğü içeren tüm terimler de dışlanır. Yalnızca sözcük verilerini içeren bileşikleri dışlamak istiyorsanız, bu bileşik terimleri açıkça dışlama listesine eklemeniz gerekir. Örneğin, verilerin sıklıklarını ayıklamak, ancak veri doğrulamayı dışlamak istiyorsanız, dışlama listesine veri doğrulama ekler ve verilerin dışlama listesinden kaldırıldığından emin olursunuz.

Başvuru tablosu, SQL Server veya Access veritabanındaki bir tablo olmalıdır. Terim Ayıklama dönüşümü, başvuru tablosuna bağlanmak için ayrı bir OLE DB bağlantısı kullanır. Daha fazla bilgi için bkz. OLE DB Bağlantı Yöneticisi.

Terim Ayıklama dönüşümü tamamen ön belleklenmiş modda çalışır. Çalışma zamanında Terim Ayıklama dönüşümü, başvuru tablosundaki dışlama terimlerini okur ve dönüştürme giriş satırlarını işlemeden önce bunları özel belleğinde depolar.

Metinden Terim Ayıklama

Metinden terim ayıklamak için Terim Ayıklama dönüşümü aşağıdaki görevleri gerçekleştirir.

Sözcüklerin Tanımlaması

İlk olarak Terim Ayıklama dönüşümü, aşağıdaki görevleri gerçekleştirerek sözcükleri tanımlar:

  • İngilizce dilinde boşluklar, satır sonları ve diğer sözcük sonlandırıcılarını kullanarak metni sözcüklere ayırma. Örneğin, ?ve gibi noktalama işaretleri sözcük kesme karakterleridir.

  • Kısa çizgilerle veya alt çizgilerle bağlantılı sözcükleri koruma. Örneğin, kopya korumalı ve salt okunur ifadeleri tek bir sözcük olarak kalır.

  • Nokta içeren kısaltmaları olduğu gibi tutma. Örneğin, A.B.C Şirketi ABC ve Şirket olarak belirteci olarak belirtilebilir.

  • Sözcükleri özel karakterlere bölme. Örneğin, tarih/saat sözcüğü tarih ve saat olarak, (bisiklet)bisiklet olarak ayıklanır ve C# C olarak kabul edilir. Özel karakterler atılır ve sözcükselleştirilemez.

  • Özel karakterlerin, özellikle kesme işaretinin, kelimeleri bölmemesi gerektiğini bilme. Örneğin, bisiklet sözcüğü iki kelimeye ayrılmaz ve tek terimli bisikleti (isim) verir.

  • Zaman ifadelerini, parasal ifadeleri, e-posta adreslerini ve posta adreslerini bölme. Örneğin, 31 Ocak 2004 tarihi 31Ocak ve 2004 üç belirteçle ayrılır.

Etiketli Sözcükler

İkincisi, Terim Ayıklama dönüştürmesi sözcükleri aşağıdaki konuşma bölümlerinden biri olarak etiketler:

  • Tekil biçimde bir isim. Örneğin, bisiklet ve patates.

  • Çoğul biçimde bir isim. Örneğin, bisiklet vepatates. Lemmatize edilmeyen tüm çoğul adlar köklendirmeye tabidir.

  • Tekil biçimde bir özel isim. Örneğin, April ve Peter.

  • Çoğul biçimde özel bir isim. Örneğin Nisanlar ve Peters. Düzgün bir adın köklendirmeye tabi olması için, standart İngilizce sözcüklerle sınırlı olan iç sözlüğün bir parçası olması gerekir.

  • Bir sıfat. Örneğin , mavi.

  • İki şeyi karşılaştıran karşılaştırmalı bir sıfat. Örneğin, daha yüksek ve daha uzun.

  • En az iki diğerinin düzeyinin üzerinde veya altında kaliteye sahip bir şeyi tanımlayan bir üst sıfat. Örneğin, en yüksek ve en uzun.

  • Bir sayı. Örneğin, 62 ve 2004.

Konuşmanın bu bölümlerinden biri olmayan sözcükler atılır. Örneğin, fiiller ve zamirler atılır.

Uyarı

Konuşma bölümlerinin etiketlenmesi istatistiksel bir modele dayanır ve etiketleme tamamen doğru olmayabilir.

Terim Ayıklama dönüşümü yalnızca isimleri ayıklamak için yapılandırılmışsa, yalnızca tekil veya çoğul isim biçimleri ve düzgün isim olarak etiketlenen sözcükler ayıklanır.

Terim Ayıklama dönüşümü yalnızca isim tümceciklerini ayıklanacak şekilde yapılandırılmışsa, isim, düzgün isim, sıfat ve sayı olarak etiketlenmiş sözcükler isim tümceciği yapmak için birleştirilebilir, ancak tümcecik bir isim veya düzgün bir isim tekil veya çoğul biçimi olarak etiketlenmiş en az bir sözcük içermelidir. Örneğin, en yüksek dağ isim tümceciği, üst düzey sıfat (en yüksek) olarak etiketlenmiş bir sözcüğü ve isim (dağ) olarak etiketlenmiş bir sözcüğü birleştirir.

Terim Ayıklama hem isimleri hem de isim tümceciklerini ayıklamak için yapılandırılmışsa, hem isim kuralları hem de isim tümcecikleri için kurallar geçerlidir. Örneğin, dönüşüm bisiklet ve güzel mavi bisiklet ifadelerini birçok güzel mavi bisiklet metninden ayıklar.

Uyarı

Ayıklanan terimler, dönüştürmenin kullandığı maksimum terim uzunluğuna ve sıklık eşiğine tabi kalır.

Köklenmiş Sözcükler

Terim Çıkarma dönüştürmesi, yalnızca bir ismin tekil biçimini çıkarmak için isimleri de köklendirir. Örneğin dönüşüm, adamıadamlar, fareyifarelerden ve bisikletibisikletlerden ayıklar. Dönüşüm, adların kökünü almak için sözlüğünü kullanır. Gerund'lar sözlükte yer alırsa isim olarak değerlendirilir.

Terim Ayıklama dönüşümü, dahili sözlüğü kullanarak, bu örneklerde gösterildiği gibi, sözcükleri sözlüklerindeki formlarına indirger.

  • İsimlerden s kaldırılıyor. Örneğin, bisikletlerbisiklet olur.

  • İsimlerden es eki kaldırılıyor. Örneğin, hikayelerhikayeye dönüşür.

  • Düzensiz adlar için tekil formu sözlükten alma. Örneğin kazlar kazolur.

Normalleştirilmiş Sözcükler

Terim Ayıklama dönüşümü, yalnızca tümcedeki konumları nedeniyle büyük harfe dönüştürülen terimleri normalleştirir ve bunun yerine büyük harfe dönüştürülemeyen biçimlerini kullanır. Örneğin, Köpekler kedi kovalar ve Dağ yolları dik ifadelerinde, Köpekler ve Dağköpek ve dağ için normalleştirilir.

Terim Ayıklama dönüşümü sözcükleri normalleştirir, böylece sözcüklerin büyük harfe dönüştürülen ve kapalize edilmeyen sürümleri farklı terimler olarak kabul edilmez. Örneğin, Seattle'da birçok bisiklet görürsünüz ve Bisikletler mavidir, bisikletler ve Bisikletler aynı terimle tanınır ve dönüşüm yalnızca bisikleti korur. İç sözlükte listelenmeyen düzgün adlar ve sözcükler normalleştirilmemiştir.

Büyük/Küçük Harf Duyarlı Normalleştirme

Terim Ayıklama dönüşümü, küçük ve büyük harfli sözcükleri farklı terimler veya aynı terimin farklı çeşitlemeleri olarak değerlendirecek şekilde yapılandırılabilir.

  • Dönüştürme, büyük/küçük harf farklarını tanıyacak şekilde yapılandırılmışsa Yöntem ve yöntem gibi terimler iki farklı terim olarak çıkarılır. Tümcedeki ilk sözcük olmayan büyük harfli sözcükler hiçbir zaman normalleştirilemez ve düzgün isim olarak etiketlenir.

  • Dönüştürme büyük/küçük harfe duyarlı olmayacak şekilde yapılandırıldıysa, Yöntem ve yöntem gibi terimler tek bir terimin varyantları olarak kabul edilir. Ayıklanan terimler listesi, giriş veri kümesinde ilk olarak hangi sözcüğün gerçekleştiğine bağlı olarak Yöntem veya yöntem içerebilir. Yöntem yalnızca tümcedeki ilk sözcük olduğu için büyük harfe dönüştürülürse, normalleştirilmiş biçimde ayıklanır.

Cümle ve Sözcük Sınırları

Terim Ayıklama dönüşümü, aşağıdaki karakterleri cümle sınırları olarak kullanarak metni cümlelere ayırır:

  • ASCII satır sonu karakterleri 0x0d (geri dönüş) ve 0x0a (yeni satır). Bu karakteri cümle sınırı olarak kullanmak için, satırda iki veya daha fazla satır sonu karakteri olmalıdır.

  • Kısa çizgiler (-). Bu karakteri cümle sınırı olarak kullanmak için, kısa çizginin solundaki veya sağındaki karakter harf olamaz.

  • Alt çizgi (_). Bu karakteri cümle sınırı olarak kullanmak için, kısa çizginin solundaki veya sağındaki karakter harf olamaz.

  • 0x19 küçük veya buna eşit ya da 0x7b'den büyük veya buna eşit tüm Unicode karakterleri.

  • Sayı, noktalama işareti ve alfabetik karakter birleşimleri. Örneğin, A23B#99, A23B terimini döndürür.

  • %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, " ve ' karakterleri.

    Uyarı

    Bir veya daha fazla nokta (.) içeren kısaltmalar birden çok cümleye ayrılmaz.

Terim Ayıklama dönüşümü daha sonra aşağıdaki sözcük sınırlarını kullanarak cümleyi sözcüklere ayırır:

  • Uzay

  • Tab

  • ASCII 0x0d (satır başı)

  • ASCII 0x0a (satır besleme)

    Uyarı

    Kesme işareti, birleşik bir sözcükteyse (örneğin we're veya it's), kesme işaretinde sözcük ikiye ayrılır; aksi takdirde kesme işaretinden sonraki harfler silinir. Örneğin, biz ve 'ler olarak ayrılırız ve bisikletlerbisiklete göre kırpılır.

Terim Ayıklama Dönüşümü Yapılandırması

Metin Ayıklama dönüşümü, sonuçlarını oluşturmak için iç algoritmaları ve istatistiksel modelleri kullanır. Terim Ayıklama dönüştürmesini birkaç kez çalıştırmanız ve dönüştürmeyi metin madenciliği çözümünüz için çalışan sonuç türünü oluşturacak şekilde yapılandırmak üzere sonuçları incelemeniz gerekebilir.

Terim Ayıklama dönüşümünde bir normal giriş, bir çıkış ve bir hata çıkışı vardır.

SSIS Tasarımcısı aracılığıyla veya program aracılığıyla özellikleri ayarlayabilirsiniz.

Gelişmiş Düzenleyici iletişim kutusunda veya program aracılığıyla ayarlayabileceğiniz özellikler hakkında daha fazla bilgi için aşağıdaki konulardan birine tıklayın:

Özellikleri ayarlama hakkında daha fazla bilgi için bkz. Veri Akışı Bileşeninin Özelliklerini Ayarlama.

Terim Ayıklama Dönüştürme Düzenleyicisi (Terim Ayıklama Sekmesi)

Ayıklanacak metni içeren bir metin sütunu belirtmek için Terim Ayıklama Dönüştürme Düzenleyicisi iletişim kutusunun Terim Ayıklama sekmesini kullanın.

Options

Kullanılabilir Giriş Sütunları
Onay kutularını kullanarak terim ayıklama için kullanılacak tek bir metin sütunu seçin.

Term
Çıkarılan terimleri içerecek olan çıktı sütunu için bir ad belirtin.

Puan
Çıkarılan her terimin puanını içeren çıkış sütunu için bir ad sağlayın.

Hata Çıkışını Yapılandırma
Hataya neden olan satırların hata işlemesini belirtmek için Hata Çıktısını Yapılandır iletişim kutusunu kullanın.

Terim Ayıklama Dönüştürme Düzenleyicisi (Dışlama Sekmesi)

Dışlama tablosuna bağlantı ayarlamak ve dışlama terimleri içeren sütunları belirtmek için Terim Ayıklama Dönüştürme Düzenleyicisi iletişim kutusunun Dışlama sekmesini kullanın.

Options

Dışlama terimlerini kullan
Dışlama terimleri içeren bir sütun belirterek terim ayıklama sırasında belirli terimlerin dışlanıp dışlanmayacağını belirtin. Terimleri dışlama seçeneğini belirlerseniz aşağıdaki kaynak özellikleri belirtmeniz gerekir.

OLE DB bağlantı yöneticisi
Mevcut bir OLE DB bağlantı yöneticisini seçin veya Yeni'ye tıklayarak yeni bir bağlantı oluşturun.

Yeni
OLE DB Bağlantı Yöneticisini Yapılandır iletişim kutusunu kullanarak veritabanına yeni bir bağlantı oluşturun.

Tablo veya görünüm
Dışlama terimlerini içeren tabloyu veya görünümü seçin.

Sütun
Tablo veya görünümde dışlama terimlerini içeren sütunu seçin.

Hata Çıkışını Yapılandırma
Hataya neden olan satırların hata işlemesini belirtmek için Hata Çıktısını Yapılandır iletişim kutusunu kullanın.

Terim Çıkarma Dönüştürme Düzenleyicisi (Gelişmiş Tab)

Ayıklamanın sıklık, uzunluk ve sözcüklerin veya tümceciklerin ayıklanıp ayıklanması gibi özellikleri belirtmek için Terim Ayıklama Dönüştürme Düzenleyicisi iletişim kutusunun Gelişmiş sekmesini kullanın.

Options

İsim
Dönüştürmenin yalnızca tek tek adları ayıkladığını belirtin.

İsim tümceciği
Dönüştürmenin yalnızca isim tümceciklerini ayıkladığını belirtin.

İsim ve isim tümceciği
Dönüştürmenin hem adları hem de isim tümceciklerini ayıkladığını belirtin.

Sıklık
Puanın terimin sıklığı olduğunu belirtin.

TFIDF
Puanın terimin TFIDF değeri olduğunu belirtin. TFIDF puanı, Terim Sıklığı ve Ters Belge Sıklığı'nın çarpımıdır; şöyle tanımlanır: T Teriminin TFIDF'si = (T'nin sıklığı) * logaritma( (Girişteki satır sayısı) / (T'ye sahip satır sayısı) )

Sıklık eşiği
Bir sözcük veya tümceciği ayıklamadan önce kaç kez gerçekleşmesi gerektiğini belirtin. Varsayılan değer 2'dir.

Terim için maksimum uzunluk
Bir tümceciğin en uzun uzunluğunu sözcüklerle belirtin. Bu seçenek yalnızca isim tümceciklerini etkiler. Varsayılan değer 12'dir.

Büyük/küçük harfe duyarlı terim ayıklamayı kullanın
Ayıklamanın büyük/küçük harfe duyarlı yapılıp yapılmayacağını belirtin. Varsayılan değer False'tur.

Hata Çıkışını Yapılandırma
Hataya neden olan satırların hata işlemesini belirtmek için Hata Çıktısını Yapılandır iletişim kutusunu kullanın.

Ayrıca Bkz.

Integration Services Hatası ve Mesaj Referansı
Terim Arama Dönüşümü