Aracılığıyla paylaş


Bulanık Gruplama Dönüşümü

Şunlar için geçerlidir:SQL Server Azure Data Factory'de SSIS Entegrasyon Çalışma Zamanı

Benzer Gruplandırma dönüşümü, yinelenen olma olasılığı olan veri satırlarını belirleyerek ve verileri standartlaştırmada kullanılacak kurallı bir veri satırı seçerek veri temizleme görevlerini gerçekleştirir.

Uyarı

Performans ve bellek sınırlamaları da dahil olmak üzere Benzer Gruplandırma dönüşümü hakkında daha ayrıntılı bilgi için SQL Server Integration Services 2005'te Belirsiz Arama ve Benzer Gruplandırma teknik incelemesine bakın.

Benzer Gruplandırma dönüşümü, dönüştürme algoritmasının işini yapması için gereken geçici SQL Server tablolarını oluşturmak için SQL Server örneğine bağlantı gerektirir. Bağlantı, veritabanında tablo oluşturma izni olan bir kullanıcıya çözümlenmelidir.

Dönüştürmeyi yapılandırmak için, yinelenenleri tanımlarken kullanılacak giriş sütunlarını seçmeniz ve ayrıca her sütun için bulanık veya tam eşleme türünü seçmeniz gerekir. Tam eşleşme, yalnızca bu sütunda aynı değerlere sahip satırların gruplandırılacağını garanti eder. Tam eşleştirme, DT_TEXT, DT_NTEXT ve DT_IMAGE dışında tüm Integration Services veri türlerinin sütunlarına uygulanabilir. Bulanık eşleşme, yaklaşık olarak aynı değerlere sahip satırları gruplandırr. Verilerin yaklaşık eşleştirme yöntemi, kullanıcı tarafından belirtilen bir benzerlik puanına dayanır. Belirsiz eşleştirmede yalnızca DT_WSTR ve DT_STR veri türlerine sahip sütunlar kullanılabilir. Daha fazla bilgi için bkz. Integration Services Veri Türleri.

Dönüştürme çıkışı tüm giriş sütunlarını, standartlaştırılmış veri içeren bir veya daha fazla sütunu ve benzerlik puanını içeren bir sütunu içerir. Puan, 0 ile 1 arasında bir ondalık değerdir. Kurallı satır 1 puana sahiptir. Benzer gruptaki diğer satırlar, satırın kanonik satırla ne kadar iyi eşleştiğini gösteren puanlara sahiptir. Puan 1'e ne kadar yakın olursa, satır kurallı satırla o kadar yakından eşleşir. Bulanık grup, kurallı satırın tam yinelemeleri olan satırları içeriyorsa, bu satırların puanı da 1 olur. Dönüştürme yinelenen satırları kaldırmaz; kurallı satırı benzer satırlarla ilişkilendiren bir anahtar oluşturarak bunları gruplandırıyor.

Dönüştürme, her giriş satırı için aşağıdaki ek sütunları içeren bir çıkış satırı oluşturur:

  • _key_in, her satırı benzersiz olarak tanımlayan bir sütundur.

  • _key_out, yinelenen satır grubunu tanımlayan bir sütun. _key_out sütunu, kurallı veri satırındaki _key_in sütununun değerine sahiptir. _key_out içinde aynı değere sahip satırlar aynı grubun parçasıdır. Grubun _key_out değeri kurallı veri satırındaki _key_in değerine karşılık gelir.

  • _score, giriş satırının kurallı satıra benzerliğini gösteren 0 ile 1 arasında bir değerdir.

Bunlar varsayılan sütun adlarıdır ve Benzer Gruplandırma dönüştürmesini diğer adları kullanacak şekilde yapılandırabilirsiniz. Çıkış, bulanık gruplamalara katılan her sütun için bir benzerlik puanı da sağlar.

Benzer Gruplandırma dönüşümü, gerçekleştirdiği gruplandırma özelliğini özelleştirmek için iki özellik içerir: belirteç sınırlayıcıları ve benzerlik eşiği. Dönüştürme, verileri belirteç haline getirmek için kullanılan varsayılan sınırlayıcılar kümesini sağlar, ancak verilerinizin belirteçleştirilmesini geliştiren yeni sınırlayıcılar ekleyebilirsiniz.

Benzerlik eşiği, dönüşümün yinelemeleri ne kadar sıkı bir şekilde tanımladiğini gösterir. Benzerlik eşikleri bileşen ve sütun düzeylerinde ayarlanabilir. Sütun düzeyinde benzerlik eşiği yalnızca benzer eşleşme gerçekleştiren sütunlar tarafından kullanılabilir. Benzerlik aralığı 0 ile 1 arasındadır. Eşik 1'e ne kadar yakınsa, satırların ve sütunların yineleme olarak nitelenebilmesi için o kadar benzer olması gerekir. Bileşen ve sütun düzeylerinde MinSimilarity özelliğini ayarlayarak satırlar ve sütunlar arasındaki benzerlik eşiğini belirtirsiniz. Bileşen düzeyinde belirtilen benzerliği karşılamak için, tüm satırların bileşen düzeyinde belirtilen benzerlik eşiğinden büyük veya buna eşit tüm sütunlar arasında bir benzerliği olmalıdır.

Benzer Gruplandırma dönüşümü, iç benzerlik ölçülerini hesaplar ve MinSimilarity'de belirtilen değere daha az benzeyen satırlar gruplandırılmaz.

Verilerinize uygun bir benzerlik eşiğini belirlemek için, farklı minimum benzerlik eşikleri kullanarak Benzer Gruplandırma dönüşümlerini birkaç kez uygulamanız gerekebilir. Çalışma zamanında, dönüştürme çıkışındaki puan sütunları gruptaki her satır için benzerlik puanlarını içerir. Verilerinize uygun benzerlik eşiğini belirlemek için bu değerleri kullanabilirsiniz. Benzerliği artırmak istiyorsanız MinSimilarity değerini puan sütunlarındaki değerden daha büyük bir değere ayarlamanız gerekir.

Dönüştürme girişindeki Benzer Gruplandırma sütunlarının özelliklerini ayarlayarak yapılan gruplandırmayı özelleştirebilirsiniz. Örneğin, FuzzyComparisonFlags özelliği dönüştürmenin bir sütundaki dize verilerini nasıl karşılaştırdığını belirtir ve ExactFuzzy özelliği dönüştürmenin benzer bir eşleşme mi yoksa tam eşleşme mi gerçekleştirdiğini belirtir.

Benzer Gruplandırma dönüştürmesinin kullandığı bellek miktarı MaxMemoryUsage özel özelliği ayarlanarak yapılandırılabilir. Megabayt (MB) sayısını belirtebilir veya dönüştürmenin gereksinimlerine ve kullanılabilir fiziksel belleğe göre dinamik bir bellek miktarı kullanmasına izin vermek için 0 değerini kullanabilirsiniz. MaxMemoryUsage özel özelliği, paket yüklendiğinde bir özellik ifadesi tarafından güncelleştirilebilir. Daha fazla bilgi için bkz. Integration Services (SSIS) İfadeleri, Paketlerde Özellik İfadelerini Kullanmave Dönüştürme Özel Özellikleri.

Bu dönüşümün bir girişi ve bir çıkışı vardır. Hata çıkışını desteklemez.

Satır Karşılaştırması

Benzer Gruplandırma dönüştürmesini yapılandırırken, dönüştürmenin dönüştürme girişindeki satırları karşılaştırmak için kullandığı karşılaştırma algoritmasını belirtebilirsiniz. Kapsamlı özelliğini true olarak ayarlarsanız, dönüştürme girişteki her satırı girişteki diğer satırlarla karşılaştırır. Bu karşılaştırma algoritması daha doğru sonuçlar üretebilir, ancak girişteki satır sayısı az olmadığı sürece dönüştürmenin daha yavaş gerçekleştirilmesi olasıdır. Performans sorunlarını önlemek için, Tümeleyecek özelliği yalnızca paket geliştirme sırasında true olarak ayarlamak önerilir.

Geçici Tablolar ve Dizinler

Çalışma zamanında Benzeşimli Gruplandırma dönüşümü, bağlandığı SQL Server veritabanında tablolar ve dizinler gibi önemli ölçüde geçici nesneler oluşturur. Tabloların ve dizinlerin boyutu, dönüştürme girişindeki satır sayısı ve Benzer Gruplandırma dönüşümü tarafından oluşturulan belirteç sayısıyla orantılıdır.

Dönüştürme, geçici tabloları da sorgular. Bu nedenle, özellikle üretim sunucusunda sınırlı disk alanı varsa Benzer Gruplandırma dönüşümünün SQL Server'ın üretim dışı bir örneğine bağlanmayı göz önünde bulundurmanız gerekir.

Kullandığı tablolar ve dizinler yerel bilgisayarda bulunuyorsa bu dönüşümün performansı iyileştirebilir.

Bulanık Gruplandırma Dönüşümü Yapılandırması

SSIS Tasarımcısı aracılığıyla veya program aracılığıyla özellikleri ayarlayabilirsiniz.

Gelişmiş Düzenleyici iletişim kutusunda veya program aracılığıyla ayarlayabileceğiniz özellikler hakkında daha fazla bilgi için aşağıdaki konulardan birine tıklayın:

Bu görevin özelliklerini ayarlama hakkında ayrıntılı bilgi için aşağıdaki konulardan birine tıklayın:

Bulanık Gruplama Dönüşüm Düzenleyicisi (Bağlantı Yöneticisi Sekmesi)

Var olan bir bağlantıyı seçmek veya yeni bir bağlantı oluşturmak için Benzer Gruplandırma Dönüştürme Düzenleyicisi iletişim kutusunun Bağlantı Yöneticisi sekmesini kullanın.

Uyarı

Bağlantı tarafından belirtilen sunucu SQL Server çalıştırıyor olmalıdır. Fuzzy Gruplama dönüşümü, tempdb'de dönüşüme giren tüm veri kadar büyük olabilecek geçici veri nesneleri oluşturur. Dönüştürme yürütülürken, bu geçici nesnelere karşı sunucu sorguları verir. Bu, genel sunucu performansını etkileyebilir.

Seçenekler

OLE DB bağlantı yöneticisi
Liste kutusunu kullanarak mevcut bir OLE DB bağlantı yöneticisini seçin veya Yeni düğmesini kullanarak yeni bir bağlantı oluşturun.

Yeni
OLE DB Bağlantı Yöneticisini Yapılandır iletişim kutusunu kullanarak yeni bir bağlantı oluşturun.

Benzer Gruplandırma Dönüştürme Düzenleyicisi (Sütunlar Sekmesi)

Satırları yinelenen değerlerle gruplandırmak için kullanılan sütunları belirtmek için Benzer Gruplandırma Dönüştürme Düzenleyicisi iletişim kutusunun Sütunlar sekmesini kullanın.

Seçenekler

Kullanılabilir Giriş Sütunları
Yinelenen değerlerle satırları gruplandırmak için kullanılan giriş sütunlarını bu listeden seçin.

İsim
Kullanılabilir giriş sütunlarının adlarını görüntüleyin.

geçiş
Giriş sütununun dönüşümün çıkışına eklenip eklenmeyeceğini seçin. Gruplandırma için kullanılan tüm sütunlar otomatik olarak çıkışa kopyalanır. Bu sütunu denetleyerek ek sütunlar ekleyebilirsiniz.

Giriş Sütunu
Kullanılabilir Giriş Sütunları listesinde daha önce seçilen giriş sütunlarından birini seçin.

Çıktı Diğer Adı
İlgili çıkış sütunu için açıklayıcı bir ad girin. Varsayılan olarak, çıkış sütun adı giriş sütun adıyla aynıdır.

Grup Çıktısı Takma Adı
Gruplandırılmış yinelemeler için kurallı değeri içerecek sütun için açıklayıcı bir ad girin. Bu çıkış sütununun varsayılan adı, _clean eklenmiş giriş sütunu adıdır.

Eşleştirme Türü
Belirsiz veya tam eşleştirme'yi seçin. Bulanık eşleşme türüne sahip tüm sütunlarda yeterince benzer olan satırlar yinelenen olarak kabul edilir. Belirli sütunlarda tam eşleştirme de belirtirseniz, yalnızca tam eşleşen sütunlarda aynı değerleri içeren satırlar olası yinelemeler olarak kabul edilir. Bu nedenle, belirli bir sütunun hata veya tutarsızlık içermediğini biliyorsanız, diğer sütunlarda benzer eşleşmenin doğruluğunu artırmak için bu sütunda tam eşleşme belirtebilirsiniz.

En Düşük Benzerlik
Kaydırıcıyı kullanarak birleştirme düzeyinde benzerlik eşiğini ayarlayın. Değer 1'e ne kadar yakınsa, eşleşme olarak nitelenecek arama değerinin kaynak değere olan benzerliği o kadar yakın olmalıdır. Daha az aday kaydın dikkate alınması gerektiğinden eşiğin artırılması eşleştirme hızını artırabilir.

Benzerlik Çıkışı Takma Adı
Seçili birleşime ilişkin benzerlik puanlarını içeren yeni bir çıkış sütununun adını belirtin. Bu değeri boş bırakırsanız çıkış sütunu oluşturulmaz.

Sayı
Sütun verilerini karşılaştırmak için baştaki ve sondaki rakamların önemini belirtin. Örneğin, öndeki rakamlar önemliyse, "123 Ana Cadde" "456 Ana Cadde" ile gruplandırılmaz.

Değer Açıklama
Ne Baştaki ve sondaki rakamlar önemli değildir.
Önde gelen Yalnızca baştaki rakamlar önemlidir.
Izleyen Yalnızca sondaki rakamlar önemlidir.
LeadingAndTrailing Hem baştaki hem de sondaki rakamlar önemlidir.

Karşılaştırma Bayrakları
Dize karşılaştırma seçenekleri hakkında bilgi için bkz. Dize Verilerini Karşılaştırma.

Bulanık Gruplandırma Dönüştürme Düzenleyicisi (Gelişmiş Sekme)

Giriş ve çıkış sütunlarını belirtmek, benzerlik eşikleri ayarlamak ve sınırlayıcıları tanımlamak için Benzer Gruplandırma Dönüştürme Düzenleyicisi iletişim kutusunun Gelişmiş sekmesini kullanın.

Uyarı

Bulanık Gruplandırma dönüştürmesinin Ayrıntılı ve MaxMemoryUsage özellikleri Düzenleyici içinde kullanılamaz, ancak Gelişmiş Düzenleyici kullanılarak ayarlanabilir. Bu özellikler hakkında daha fazla bilgi için, Dönüştürme Özel Özellikleri bölümünün Bulanık Gruplama Dönüştürmesi kısmına bakın.

Seçenekler

Giriş anahtarı sütun adı
Her giriş satırı için benzersiz tanımlayıcıyı içeren bir çıkış sütununun adını belirtin. _key_in sütunu, her satırı benzersiz olarak tanımlayan bir değere sahiptir.

Çıkış anahtarı sütun adı
Yinelenen satır grubunun kurallı satırı için benzersiz tanımlayıcıyı içeren bir çıkış sütununun adını belirtin. _key_out sütunu kurallı veri satırının _key_in değerine karşılık gelir.

Benzerlik puanı sütun adı
Benzerlik puanını içeren sütun için bir ad belirtin. Benzerlik puanı, giriş satırının kurallı satırla benzerliğini gösteren 0 ile 1 arasında bir değerdir. Puan 1'e ne kadar yakın olursa, satır kurallı satırla o kadar yakından eşleşir.

Benzerlik eşiği
Kaydırıcıyı kullanarak benzerlik eşiğini ayarlayın. Eşik 1'e ne kadar yakınsa, yinelenen olarak nitelenebilmesi için satırların birbirine o kadar çok benzemesi gerekir. Daha az aday kaydın dikkate alınması gerektiğinden eşiğin artırılması eşleştirme hızını artırabilir.

Belirteci sınırlayıcıları
Dönüştürme, verileri belirteç haline getirme için varsayılan sınırlayıcılar kümesi sağlar, ancak listeyi düzenleyerek gerektiğinde sınırlayıcıları ekleyebilir veya kaldırabilirsiniz.

Ayrıca Bkz.

Bulanık Arama Dönüşümü
Entegrasyon Hizmetleri Dönüşümleri