Aracılığıyla paylaş


Belirsiz arama dönüştürme

Belirsiz arama dönüştürme, verileri veri standartlaştırılmasına veri düzeltme ve eksik değerleri sağlama gibi görevler için temizlemeyi gerçekleştirir.

Not

Performans ve bellek sınırlamaları, belirsiz arama dönüştürme hakkında daha ayrıntılı bilgi için teknik incelemeye bakın... Belirsiz arama ve SQL Server ıntegration Hizmetleri 2005 benzer öğe gruplandırma.

Kullanımı, arama dönüştürme belirsiz arama dönüştürme farklı benzer öğe eşleştirme.Başvuru içinde eşleşen kayıtları bulmak için bir eş birleştirmek arama dönüştürme kullanır tablo.Tam bir eşleşme veya hiçbir şey başvurudan yapılan döndürdüğü tablo.Buna ek olarak, bir dönmek için bulanık eşleşme belirsiz arama dönüştürme kullanan veya daha fazla başvuru tablosundaki eşleşmeleri kapatın.

Belirsiz arama dönüştürme, sık sık arama dönüştürme, izleyen bir paket veri akışı.Ilk olarak, tam bir eşleşme bulmak arama dönüştürme çalışır.Başarısız olursa, yakın eşleşmeleri başvuru gelen belirsiz arama dönüşümü sağlar. tablo.

dönüştürme temizleyin ve giriş verileri genişletmek için kullanılan değerleri içeren bir başvuru veri kaynağına erişim gerekir.Başvuru veri kaynağını bir tablo olmalı bir SQL Server 2000 veya daha yeni bir veritabanı. Giriş değeri arasındaki eşleşmeyi sütun ve referans tablosundaki tam bir eşleşme veya bir bulanık eşleşme olabilir.Ancak dönüştürme benzer öğe eşleştirme için yapılandırılacak en az bir sütun eşleşmesi gerekir.Yalnızca tam olarak eşleşen kullanmak istiyorsanız, arama dönüştürme kullanın.

Bu dönüştürme sahip girdi ve bir çıkış.

Yalnızca sütunlarla giriş DT_WSTR ve DT_STR benzer öğe eşleştirme türleri kullanılabilir. Tam olarak eşleşen herhangi bir DTS veri türü dışında kullanabilirsiniz DT_TEXT, DT_NTEXT, ve DT_IMAGE. Daha fazla bilgi için bkz:Tümleştirme Hizmetleri veri türleri.Giriş ve başvuru arasında birleştirmek alan sütunların tablo uyumlu veri türlerine sahip olmanız gerekir.For example, it is valid to join a column with the DTS DT_WSTR data type to a column with the SQL Servernvarchar data type, but invalid to join a column with the DT_WSTR data type to a column with the int data type.

Bu dönüştürme, en fazla bellek satır karşılaştırma algoritmasını ve dizinler ve dönüştürmeyi kullanan bir başvuru tabloları önbellekleme belirleyerek özelleştirebilirsiniz.

Belirsiz arama dönüştürme kullandığı bellek miktarını ayarlayarak yapılandırılabilir MaxMemoryUsage özel özellik. dönüştürme olanak veren değer, 0, kullanmayı dinamik bir miktar bellek kullanılabilir fiziksel belleğin ve kendi gereksinimlerine göre veya megabayt (MB) sayısını belirtebilirsiniz.The MaxMemoryUsage custom özellik can be updated by a özellik ifade when the paket is loaded. Daha fazla bilgi için bkz: Tümleştirme Hizmetleri ifade başvurusu, Paketlerinde özellik ifadeleri kullanma, ve Dönüştürme için özel özellikler.

benzer öğe eşleştirme davranışını denetleme

Belirsiz arama dönüştürme bu arama özelleştirmek için üç özellik bulunur: girdi satırı belirteci bir sınırlayıcı ve benzerlik eşiklerini geri dönmek için eşleşme sayısı üst sınırı.

dönüştürme sıfır veya daha fazla eşleşme eşleşmeleri belirtilen sayıya yukarı döndürür.En fazla eşleşme sayısını belirten dönüştürme, en fazla eşleşme sayısını döndürür garanti etmez; yalnızca dönüştürme bu eşleşme sayısı en fazla döndürür sağlar.Varsa, küme en yüksek eşleşmeleri dönüştürme çıktısı 1'den büyük bir değer için arama başına birden çok satır içerebilir ve bazı satırların çoğaltmaları olabilir.

Varsayılan değer dönüşümü sağlar küme ayırıcısını verileri tokenize için kullanılan, ancak verilerinizin gereksinimlerine uyacak şekilde simge sınırlayıcıları ekleyebilirsiniz.The Delimiters özellik contains the default delimiters. Karşılaştırılan veri biriminde birbirlerine tanımlayan belirteçlere ayırma önemlidir.

Bileşen ve birleştirmek düzeylerinde benzerliği eşikleri ayarlayabilirsiniz.birleştirmek düzey benzerliği eşik yalnızca bir bulanık eşleşme giriş sütunlara başvuru arasındaki dönüştürme yaparken kullanılabilir tablo.Benzerlik aralık 0 için 1.Çoğaltma olarak nitelemek için satır ve sütunları olmalı eşik olan 1 daha benzer yaklaşılmış.Ayarlayarak benzerliği eşik belirttiğiniz MinSimilarity Bileşen ve birleştirmek düzeylerde özellik. Bileşen belirtilen benzerliği karşılamak için düzey, tüm satırlar bir benzerliği bileşen belirtilen benzerliği eşiğine eşit veya büyük olan tüm eşleri arasında olmalıdır düzey.Diğer bir deyişle, satır veya birleştirmek düzeyinde eşleşen close'eşit olmadığı sürece Bileşen düzeyinde çok yakın bir eşleşme belirleyemezsiniz.

Her bir eşleşme bir benzerliği puan ve güven puanı içerir.Benzerlik skor, giriş kaydı belirsiz arama dönüştürme ait başvuruyu verir (kayıt) arasındaki bir textural benzerliği matematiksel bir ölçümüdür tablo.Güvenirlik skor, büyük olasılıkla ne olduğu, ölçü başvuru içinde bulunan eşleşmeleri arasında en iyi eşleşen belirli bir değeri olan tablo.Bir kayda atanan güven skor, döndürülen diğer eşleşen kayıtlarla üzerinde bağlıdır.Örneğin, eşleşen St. and Saint diğer eşleşmeler dikkate almadan bir düşük benzerliği puan verir.If Saint döndürdü yalnızca bir eşleştirme, güvenirlik Skoru yüksek.Her iki, Saint and St. görünür başvuru tablo, güvenirlik, St. yüksek ve güven iseSaint yetersiz.Ancak, yüksek benzerliği yüksek güvenilirlik gelebilir değil.Örneğin, değer arıyorsanız Bölüm 4, döndürülen sonuçlar Bölüm 1, Bölüm 2, and Bölüm 3 olan bir yüksek benzerliği puan ancak, sonuçlar, belirsiz bir Düşük güvenilirlik puan en iyi eşleşen dizinidir.

Benzerlik Skor 0 ve 1'dir, burada bir benzerliği puanı 1 girdi sütununda başvurunun değeri arasındaki tam bir eşleşme anlamına gelir) arasında ondalık bir değer gösterdiği tablo.Güvenirlik skor, 0 ile 1 arasında ondalık bir değer de güven içinde eşleşmeyi gösterir.Kullanılabilir eşleşme, 0, benzerlik ve güven puanları satıra atanan ve başvurudan yapılan çıktı sütunları kopyaladığınız tablo null değerleri içerir.

Bazı durumlarda, belirsiz arama uygun eşleşme başvuru bulun değil tablo.Bir aramasında kullanılan giriş değeri, kısa bir sözcük olduğunda bu durum oluşabilir.Örneğin, HELO ile değeri eşleşmedivar sayılma Bir başvurudaki tablo, diğer bir simgeleri sütun veya satırdaki diğer herhangi bir sütun yok.

Doğrudan sütunlar, seçilen sütunları arama'de işaretlenen sütunların giriş dönüştürme çıktısı sütunları içeren tablo ve aşağıdaki ek sütunlar:

  • _Similarity, giriş ve başvuru sütunlarındaki değerleri arasındaki benzerliği açıklayan bir sütun.

  • _Confidence eşleşmeyi kalitesini açıklayan bir sütun.

dönüştürme bağlantı kullanan SQL Server benzer öğe eşleştirme algoritması kullanan geçici tablolar oluşturmak için veritabanı'ı tıklatın.

Belirsiz arama dönüştürmeyi çalıştırma

Paket dönüştürme ilk kez çalıştırdığında, başvuru dönüştürme kopyalar tablo, bir tamsayı veri türüne sahip yeni bir anahtar ekler tablo ve anahtar sütun bir dizin oluşturur.Sonra dönüştürme başvuru kopyasında bir eşleşme dizin adında bir dizin oluşturur. tablo.Eşleşme dizini dönüştürme girdisi sütunlarındaki değerleri tokenizing sonuçlarını depolar ve dönüştürme sonra simgeleri, arama işlemi kullanır.Eşleşme dizin bir tablo içinde bir SQL Server 2000 veya daha yeni bir veritabanı.

paket yeniden çalıştırıldığında, dönüştürme varolan bir eşleşme dizini kullanın veya yeni bir dizin oluşturun.Başvuru tablo olan statik, paketin veri temizleme, yineleme oturumlarına dizini yeniden olası pahalı işlemi kurtulabilirsiniz.Varolan bir dizini kullanmayı seçerseniz, dizin paket çalıştıran ilk kez oluşturulur.Birden çok belirsiz arama dönüştürmeleri aynı başvuru kullanıyorsanız tablo, tümü aynı dizin kullanabilirsiniz.Dizini yeniden kullanmak için , arama işlemleri aynı olması gerekir; bu arama, aynı sütun kullanmalısınız.Dizin adı ve bağlantı seçmek SQL Server Veritabanı dizini kaydeder.

dönüştürme eşleşme dizin kaydederse, dizin eşleştirme otomatik olarak sürdürülebilir.Her saat bir başvuru kaydında yani tablo olan güncelleştirildi, eşleşme dizini de güncelleştirilir.Eşleşme dizin bakım, paket çalıştığında yeniden dizin olmadığından işlem saat, kaydedebilirsiniz.dönüştürme, dizin eşleştirme nasıl yönettiğini belirtebilirsiniz.

Aşağıdaki tablo eşleşme dizin seçeneklerini açıklar.

Seçenek

Açıklama

GenerateAndMaintainNewIndex

Yeni bir dizin oluşturmak, kaydetmek ve onu korumak.dönüştürme Tetikleyicileri başvuru tablosu ve dizin tablo eşitlenen tutmak için başvuru tablosu yükler.

GenerateAndPersistNewIndex

Yeni bir dizin oluşturmak ve kaydetmek, ancak bunu bakımını değil.

GenerateNewIndex

Yeni bir dizin oluşturur, ancak bu dosyayı kaydetmeyin.

ReuseExistingIndex

Varolan bir dizini yeniden.

Match dizin tablosunun bakımı

The GenerateAndMaintainNewIndex option installs triggers on the başvuru tablosu to keep the match index tablo and the başvuru tablosu synchronized.Bilgisayarınızda yüklü tetikleyici kaldırmak, çalıştırmalısınız sp_FuzzyLookupTableMaintenanceUnInstall saklı yordam, ( içinde belirtilen ad sağlar.MatchIndexName Özellik'giriş parametresi değeri.

Tutulan eşleşme dizin tablo çalıştırmadan önce silmelisiniz sp_FuzzyLookupTableMaintenanceUnInstall saklı yordamını.Eşleşme dizin tablo silinirse, tetikleyiciler, başvuru tablosu doğru çalıştırmaz.Başvuru için tüm bundan sonraki güncelleştirmeleri tablo başvuruyu el ile Tetikleyiciler bırak kadar başlayamaz tablo.

SQL TRUNCATE tablo komut DELETE Tetikleyicileri çağırır.TRUNCATE tablo komut başvuru tablosu üzerinde kullanılan, başvuru tablosu ve dizin eşleştirme artık eşitlenir ve belirsiz arama dönüştürme başarısız.Başvuru tablosu üzerinde eşleşme dizin tablosunu tutmak Tetikleyiciler yüklü olsa da, SQL DELETE komutu yerine TRUNCATE tablo komutunu kullanmanız gerekir.

Not

Seçtiğinizde Saklı dizin Koru on the Başvuru tablo sekmesiBelirsiz arama dönüştürme Düzenleyicisi, dönüştürme, yönetilen saklı yordamlar dizini korumak için kullanır.Bu yönetilen bir saklı yordamlar ortak dil çalışma zamanı (CLR) tümleştirme özelliğini kullanın... SQL Server 2008. Varsayılan olarak, CLR tümleştirmesine SQL Server 2008 etkin değil. Kullanılacak Saklı dizin Koru işlevselliği, CLR tümleştirme etkinleştirmeniz gerekir.Daha fazla bilgi için bkz:CLR tümleştirme etkinleştirme.

Çünkü Saklı dizin Koru seçeneği CLR tümleştirme, başvuru seçtiğinizde, bu özelliği çalışır gerektirir tablo örneğindeSQL Server 2005 veya SQL Server 2008 CLR tümleştirme etkin olduğu. Dizin örneğinde sürdürülür SQL Server 2000.

Satır karşılaştırma

Dönüşümün belirsiz bir arama yapılandırdığınızda, dönüştürme başvuru eşleşen kayıtları bulmak için kullandığı karşılaştırma algoritmayı belirtebilirsiniz tablo.küme, Exhaustive özellik True, her satırda bir başvurudaki her bir satıra giriş dönüştürme karşılaştırır tablo. Bu karşılaştırma algoritma daha kesin sonuçlar oluşturabilir, ancak başvurunun satır sayısını olmadığı sürece, daha yavaş gerçekleştirmek dönüştürme yapmak olasıdır tablo küçük.If the Exhaustive özellik is küme to True, the entire reference tablo is loaded into memory. Performans sorunlarını önlemek için , bunun için önerilir küme Exhaustive özellik True yalnızca paket geliştirilmesi sırasında.

If the Exhaustive özellik is küme to False, the Fuzzy Lookup dönüştürme returns only matches that have at least one indexed token or substring (the substring is called a q-gram) in common with the input record.Arama, yalnızca alt küme küme küme kümesini her satırında simgeleri verimliliğini en üst düzeye çıkarmak için tablo belirsiz arama dönüştürme eşleşme bulmak için kullandığı ters dizin yapısında dizine alınır.Verilerin küme olan küçük, şunları yapabilirsiniz küme Exhaustive için True eşleşen hiçbir ortak simgeleri, dizin tablosunda mevcut eksik önlemek için .

Dizinler ve başvuru tabloları olarak önbelleğe alma

Belirsiz arama dönüştürme yapılandırdığınızda, dönüştürme kısmen dizin ve başvuru önbelleğe olup olmadığını belirleyebilirsiniz tablo çalışmasını dönüştürmeyi yapar, önce bellekte.küme, WarmCaches özellik True, dizin ve başvuru tablo belleğe yüklenir. Giriş ayarı, birçok satır olduğunda WarmCaches özellik True dönüştürme performansını artırabilirsiniz. Giriş satır sayısı, küçük olduğunda ayarlama WarmCaches özellik False büyük bir dizinin yeniden daha hızlı yapabilirsiniz.

Geçici tablolar ve dizinler

Çalışma zamanında, belirsiz arama dönüştürme geçici nesneler, tablolar ve dizinler oluşturur SQL Server dönüşümün bağlayan veritabanıdır. Bu geçici tablolar ve dizinler boyutunu proportionate satırları ve referans tablosundaki simgeleri ve belirsiz arama dönüştürme oluşturan simge sayısı; bu nedenle, bunlar olası önemli miktarda disk alanı tüketir.dönüştürme, bu geçici tablolar da sorgular.Bu nedenle bir olmayan üretim örneğine belirsiz arama dönüştürme bağlanma düşünmelisiniz bir SQL Server Veritabanı, özellikle üretim sunucusuna kullanılabilir disk alanının sınırlı olması durumunda.

Tablolar ve dizinler kullanır, yerel bilgisayarda bulunuyorsa, bu dönüştürme performansını artırabilir.Belirsiz arama dönüştürme kullanan başvuru tablosu bir üretim sunucusunda, tablo olmayan üretim sunucusuna kopyalama ve kopyaya erişmeye belirsiz arama dönüştürmeyi yapılandırma düşünmelisiniz.Bunu yaptığınızda, arama sorgularını üretim sunucusundaki kaynakları tüketen gelen engelleyebilirsiniz.In addition, if the Fuzzy Lookup transformation maintains the match index—that is, if MatchIndexOptionsis set to GenerateAndMaintainNewIndex—the transformation may lock the reference table for the duration of the data cleaning operation and prevent other users and applications from accessing the table.

Belirsiz arama dönüştürme yapılandırma

Yapabilecekleriniz küme özellikleri yoluyla SSIS Tasarımcı veya programlı olarak.

Yapabilecekleriniz özellikleri hakkında daha fazla bilgi için küme, Belirsiz arama dönüştürme Düzenleyicisi iletişim kutusunda, aşağıdaki konulardan birini tıklatın:

Ayarlayabileceğiniz özellikler hakkında daha fazla bilgi için Gelişmiş Düzenleyici iletişim kutusunda veya programlı olarak aşağıdaki konulardan birini tıklatın:

Özellikleri küme hakkında daha fazla bilgi için bkz: Nasıl Yapılır: Bir veri akışı bileşenin özelliklerini küme.

Integration Services icon (small) Tümleştirme Hizmetleri ile güncel kalın

Karşıdan yüklemeler, makaleleri, örnekler ve en son Microsoft video yanı sıra, seçili topluluğun çözümleri için ziyaret Integration Services sayfa MSDN veya TechNet:

Bu güncelleştirmelerin otomatik bildirim için kullanılabilir RSS akışlarına abone olmak sayfa.

Değişiklik Geçmişi

Güncelleştirilmiş içerik

  • CLR tümleştirme hakkında not içinde sürümlerini tanımlanır. SQL Server kendisi için Saklı dizin Koru seçenek çalışır.