Porovnání řetězcových dat

platí pro:SQL Server SSIS Integration Runtime ve službě Azure Data Factory

Porovnání řetězců jsou důležitou součástí mnoha transformací provedených integračními službami a porovnání řetězců se používají také při vyhodnocování výrazů v proměnných a výrazech vlastností. Například transformace řazení porovnává hodnoty v datové sadě a seřadí data vzestupně nebo sestupně.

Konfigurace transformací pro porovnání řetězců

Transformace řazení, agregace, přibližné seskupování a přibližné vyhledávání lze přizpůsobit, aby bylo možné změnit způsob porovnávání řetězců na úrovni sloupce. Můžete například určit, že porovnání ignoruje velká a malá písmena, což znamená, že velká a malá písmena jsou považovány za stejný znak.

Následující transformace používají výrazy, které mohou zahrnovat porovnání řetězců.

Transformace podmíněného rozdělení může pomocí porovnání řetězců ve výrazech určit, do kterého výstupu se má řádek dat odeslat. Další informace naleznete v tématu Podmíněné rozdělení transformace.
Transformace odvozeného sloupce může použít porovnání řetězců ve výrazech k vygenerování nových hodnot sloupců. Další informace naleznete v tématu Odvozená transformace sloupce.

Proměnné, mapování proměnných a omezení priority také používají výrazy, které mohou zahrnovat porovnání řetězců. Další informace o výrazech najdete v tématu Výrazy SSIS (Integration Services).

Zpracování během porovnání řetězců

V závislosti na datech a konfiguraci transformace může během porovnání řetězcových dat dojít k následujícímu zpracování:

Převod dat na Unicode Pokud zdrojová data ještě nejsou unicode, data se před porovnáním automaticky převedou na Unicode.
Pomocí nastavení locale se aplikují pravidla specifická pro interpretaci data, času, desetinných míst a pořadí řazení.
Použití možností porovnání na úrovni sloupce ke změně citlivosti porovnání

Převod řetězcových dat na Unicode

V závislosti na operacích, které transformace provádí, a konfiguraci transformace mohou být řetězcová data převedena na datový typ DT_WSTR, což je reprezentace řetězcových znaků Unicode.

Řetězcová data, která mají datový typ DT_STR, se převedou na Unicode pomocí znakové stránky sloupce. Integrační služby podporují znakové stránky na úrovni sloupce a každý sloupec lze převést pomocí jiné znakové stránky.

Ve většině případů můžou integrační služby identifikovat správnou znakovou stránku ze zdroje dat. Například na SQL Serveru můžete nastavit kolaci na úrovni databáze a sloupců. Znaková stránka je odvozena z kolace SQL Serveru, což může být buď Windows kolace nebo SQL kolace.

Pokud integrační služby poskytují neočekávanou znakovou stránku nebo pokud balíček přistupuje ke zdroji dat pomocí zprostředkovatele, který neposkytuje dostatečné informace k určení správné znakové stránky, můžete zadat výchozí znakovou stránku ve zdroji OLE DB a cíli OLE DB. Výchozí znakové stránky se používají místo znakových stránek, které služba Integration Services poskytuje.

Soubory nemají znakové stránky. Místo toho správci připojení Plochých souborů a Více plochých souborů, které balíček používá k připojení k datům v souboru, obsahují vlastnost pro určení znakové stránky souboru. Znakovou stránku lze nastavit pouze na úrovni souboru, nikoli na úrovni sloupce.

Nastavení jazykového prostředí

Integrační služby nepoužívají kódovou stránku k odvození pravidel specifických pro jazykové prostředí pro řazení dat nebo interpretaci dat, času a desetinných dat. Místo toho transformace čte locale, které je nastaveno vlastností LocaleId na komponentě toku dat, úloze toku dat, kontejneru nebo balíčku. Ve výchozím nastavení je nastavení oblasti transformace zděděno z úlohy toku dat, která zase dědí z balíčku. Pokud je úloha toku dat v kontejneru, jako je kontejner For Loop, zdědí své národní prostředí z kontejneru.

Můžete také zadat národní prostředí pro správce připojení plochých souborů a správce připojení více plochých souborů.

Nastavení možností porovnání

Národní prostředí poskytuje základní pravidla pro porovnávání řetězcových dat. Národní prostředí například určuje umístění řazení jednotlivých písmen v abecedě. Tato pravidla však nemusí být dostatečná pro porovnání, která některé transformace provádějí, a integrační služby podporují sadu pokročilých možností porovnání, které překračují pravidla porovnání národního prostředí. Tyto možnosti porovnání jsou nastaveny na úrovni sloupce. Například jedna z možností porovnání umožňuje ignorovat neoddělující znaky. Výsledkem této možnosti je ignorovat diakritická znaménka, jako je přízvuk, což činí pro účely porovnání "a" a "á" identickými.

Následující tabulka popisuje možnosti porovnání a styl řazení.

Možnost porovnání	Description
Ignorovat malá a velká písmena	Určuje, zda porovnávání rozeznává mezi velkými a malými písmeny. Pokud je tato možnost nastavená, porovnání řetězců ignoruje malá a velká písmena. Například "ABC" se stane totožným s "abc".
Ignorovat typ kana	Určuje, zda se porovnává mezi dvěma typy japonských znaků kana: hiragana a katakana. Pokud je tato možnost nastavená, porovnání řetězců ignoruje typ kana.
Ignorovat šířku znaků	Určuje, zda porovnání rozlišuje mezi jednobajtovým znakem a stejným znakem, pokud je reprezentován jako dvoubajtový znak. Pokud je tato možnost nastavená, porovnání řetězců zpracovává jednobajemové a dvojité bajtové reprezentace stejného znaku jako identické.
Ignorování nespárovacích znaků	Určuje, zda porovnání rozlišuje mezi mezerami a diakritikou. Pokud je tato možnost nastavená, porovnání ignoruje diakritiku. Například "å" se rovná "a".
Ignorovat symboly	Určuje, zda se rozlišuje mezi písmeny a symboly, jako jsou prázdné znaky, interpunkce, symboly měny a matematické symboly. Pokud je tato možnost nastavená, porovnání řetězců ignoruje symboly. Například "New York" se stane stejným jako "New York" a "*ABC" je stejný jako "ABC".
Řaďte interpunkci jako symboly	Určuje, jestli porovnání seřadí všechny interpunkční symboly kromě spojovníku a apostrofu před alfanumerickými znaky. Pokud je například tato možnost nastavená, ".ABC" seřadí před "ABC".

Transformace Řazení, Agregace, Přibližné seskupování a Přibližné vyhledávání zahrnují tyto možnosti porovnávání dat.

Příznak plně rozlišující porovnání se zobrazí v dialogovém okně Rozšířený editor pro transformace seskupování přibližných shod a přibližného vyhledávání. Výběr příznaku plně citlivého porovnání znamená, že platí všechny možnosti porovnání.

Viz také

Datové typy integračních služeb
Rychlá analýza
Standardní analýza

Last updated on 2026-01-22