Homályos csoportosítás átalakítás

A következőkre vonatkozik:SQL Server SSIS integrációs futtatókörnyezet az Azure Data Factory-ban

A Fuzzy Grouping transzformáció adattisztítási feladatokat hajt végre úgy, hogy azonosítja a valószínűleg ismétlődő adatsorokat, és kiválaszt egy olyan adatsort, amelyet az adatok szabványosításához használ.

Megjegyzés:

A Fuzzy Grouping átalakításával kapcsolatos részletesebb információkért, beleértve a teljesítmény- és memóriakorlátozásokat, tekintse meg az SQL Server Integration Services 2005-ben a Fuzzy Lookup és a Fuzzy Grouping című tanulmányt.

A Fuzzy Grouping átalakításhoz az SQL Server egy példányával való kapcsolat szükséges az ideiglenes SQL Server-táblák létrehozásához, amelyeket az átalakítási algoritmusnak el kell végeznie a munkájához. A kapcsolatot fel kell oldania egy olyan felhasználóval, aki jogosult táblák létrehozására az adatbázisban.

Az átalakítás konfigurálásához ki kell választania az ismétlődések azonosításához használni kívánt bemeneti oszlopokat, és minden oszlophoz meg kell adnia az egyezés típusát: homályos vagy pontos. A pontos egyezés garantálja, hogy csak az oszlopban azonos értékeket tartalmazó sorok lesznek csoportosítva. A DT_TEXT, DT_NTEXT és DT_IMAGE kivételével bármely Integration Services-adattípus oszlopaira alkalmazható a pontos egyeztetés. A homályos egyezések olyan sorokat csoportosítanak, amelyek körülbelül azonos értékekkel rendelkeznek. Az adatok hozzávetőleges egyeztetésének módszere egy felhasználó által megadott hasonlósági pontszámon alapul. Csak a DT_WSTR és DT_STR adattípusú oszlopok használhatók a homályos egyeztetéshez. További információért lásd: Integrációs Szolgáltatások adattípusai.

Az átalakítási kimenet tartalmazza az összes bemeneti oszlopot, egy vagy több szabványos adatokat tartalmazó oszlopot, valamint a hasonlósági pontszámot tartalmazó oszlopot. A pontszám 0 és 1 közötti decimális érték. A kanonikus sor pontszáma 1. A fuzzy csoport többi sora olyan pontszámokkal rendelkezik, amelyek jelzik, hogy a sor mennyire felel meg a canonikus sornak. Minél közelebb van a pontszám az 1-hez, annál inkább hasonlít a sor a kanonikus sorra. Ha a homályos csoport olyan sorokat tartalmaz, amelyek pontosan a canonical sor duplikációi, akkor ezek a sorok is 1 pontszámmal rendelkeznek. Az átalakítás nem távolít el ismétlődő sorokat; egy olyan kulcs létrehozásával csoportosítja őket, amely a canonical sort hasonló sorokkal kapcsolja össze.

Az átalakítás minden bemeneti sorhoz egy kimeneti sort hoz létre, a következő további oszlopokkal:

_key_in egy oszlop, amely egyedileg azonosítja az egyes sorokat.
_key_out egy oszlop, amely ismétlődő sorok csoportját azonosítja. A _key_out oszlop a _key_in oszlop értékét tartalmazza a canonical data rowban. A _key_out azonos értékkel rendelkező sorok ugyanahhoz a csoporthoz tartoznak. Egy csoport _key_out értéke a canonical data row _key_in értékének felel meg.
_score egy 0 és 1 közötti érték, amely a bemeneti sor és a canonical sor hasonlóságát jelzi.

Ezek az alapértelmezett oszlopnevek, és konfigurálhatja a Fuzzy Grouping átalakítást más nevek használatára. A kimenet hasonlósági pontszámot is biztosít minden olyan oszlophoz, amely egy homályos csoportosításban vesz részt.

A Fuzzy csoportosítási transzformáció két funkciót tartalmaz az általa végrehajtott csoportosítás testreszabásához: token határolók és hasonlósági küszöbérték. Az átalakítás alapértelmezett elválasztókészletet biztosít az adatok tokenizálásához, de új elválasztókat is hozzáadhat, amelyek javítják az adatok jogkivonatossá tételét.

A hasonlósági küszöbérték azt jelzi, hogy az átalakítás milyen szigorúan azonosítja az ismétlődéseket. A hasonlósági küszöbértékek az összetevő és az oszlop szintjén állíthatók be. Az oszlopszintű hasonlóság küszöbértéke csak olyan oszlopok számára érhető el, amelyek zavaros egyezést hajtanak végre. A hasonlóság tartománya 0 és 1 között van. Minél közelebb van az 1-hez a küszöbérték, annál hasonlóbbnak kell lennie a soroknak és oszlopoknak, hogy duplikáltnak minősüljenek. A sorok és oszlopok közötti hasonlósági küszöbértéket a MinSimilarity tulajdonság összetevő- és oszlopszinten történő beállításával adhatja meg. Az összetevő szintjén megadott hasonlóság kielégítése érdekében minden sornak hasonlónak kell lennie az összes oszlopban, amely nagyobb vagy egyenlő az összetevő szintjén megadott hasonlósági küszöbértéknél.

Az Fuzzy Grouping transzformáció a hasonlóság belső mértékeit számítja ki, és a MinSimilarityben megadott értéknél kevésbé hasonló sorok nincsenek csoportosítva.

Az adatokhoz használható hasonlósági küszöbértékek azonosításához előfordulhat, hogy az Fuzzy Grouping transzformációt többször kell alkalmaznia különböző minimális hasonlósági küszöbértékek használatával. Futásidőben az átalakítási kimenet pontszámoszlopai tartalmazzák a csoport egyes sorainak hasonlósági pontszámait. Ezekkel az értékekkel azonosíthatja az adatokhoz megfelelő hasonlósági küszöbértéket. Ha növelni szeretné a hasonlóságot, a MinSimilarity értéket a pontszámoszlopok értékénél nagyobb értékre kell állítania.

Az átalakítás által végrehajtott csoportosítást testre szabhatja az Fuzzy Grouping átalakítási bemenet oszlopainak tulajdonságainak beállításával. A FuzzyComparisonFlags tulajdonság például azt határozza meg, hogy az átalakítás hogyan hasonlítja össze az oszlopban lévő sztringadatokat, az ExactFuzzy tulajdonság pedig azt határozza meg, hogy az átalakítás homályos egyezést vagy pontos egyezést hajt-e végre.

A Fuzzy Grouping átalakítás által használt memória mennyisége a MaxMemoryUsage egyéni tulajdonság beállításával konfigurálható. Megadhatja a megabájtok (MB) számát, vagy használhatja a 0 értéket, hogy az átalakítás dinamikus memóriamennyiséget használjon az igényei és a rendelkezésre álló fizikai memória alapján. A MaxMemoryUsage egyéni tulajdonság egy tulajdonságkifejezéssel frissíthető a csomag betöltésekor. További információkért lásd: Integration Services (SSIS) kifejezések, Tulajdonságkifejezések alkalmazása csomagokbanés Átalakítás egyéni tulajdonságai.

Ez az átalakítás egy bemenettel és egy kimenettel rendelkezik. Nem támogatja a hibakimenetet.

Sorok összehasonlítása

A Fuzzy Grouping transzformáció konfigurálásakor megadhatja azt az összehasonlító algoritmust, amelyet az átalakítás az átalakítási bemenet sorainak összehasonlítására használ. Ha igaz értékre állítja a Teljes tulajdonságot, az átalakítás a bemenet minden sorát összehasonlítja a bemenet minden másik sorával. Ez az összehasonlító algoritmus pontosabb eredményeket hozhat, de valószínűleg lassabban hajtja végre az átalakítást, kivéve, ha a bemenet sorainak száma kicsi. A teljesítményproblémák elkerülése érdekében a Teljesség tulajdonságot célszerű csak a csomagfejlesztés során igaz értékre állítani.

Ideiglenes táblák és indexek

Futásidőben a Fuzzy Grouping átalakítás ideiglenes objektumokat, például táblákat és indexeket hoz létre, amelyek jelentős méretűek lehetnek abban az SQL Server-adatbázisban, amelyhez az átalakítás csatlakozik. A táblák és indexek mérete arányos az átalakítási bemenet sorainak számával és a Fuzzy Grouping átalakítás által létrehozott tokenek számával.

Az átalakítás az ideiglenes táblákat is lekérdezi. Ezért érdemes lehet az Fuzzy Grouping átalakítást az SQL Server nem éles példányához csatlakoztatni, különösen akkor, ha az éles kiszolgáló lemezterülete korlátozott.

Az átalakítás teljesítménye javulhat, ha az általa használt táblák és indexek a helyi számítógépen találhatók.

A Fuzzy Grouping Transformation konfigurálása

A tulajdonságokat az SSIS Designer használatával vagy programozott módon állíthatja be.

A Speciális szerkesztő párbeszédpanelen vagy programozott módon beállítható tulajdonságokról az alábbi témakörök egyikére kattintva talál további információt:

A feladat tulajdonságainak beállításával kapcsolatos részletekért kattintson az alábbi témakörök egyikére:

Homályos Csoportosítás Átalakítás Szerkesztő (Kapcsolatkezelő Fül)

Az Fuzzy Grouping Transformation Editor párbeszédpanel Kapcsolatkezelő lapján válasszon ki egy meglévő kapcsolatot, vagy hozzon létre egy újat.

Megjegyzés:

A kapcsolat által megadott kiszolgálónak SQL Servert kell futtatnia. A Fuzzy Grouping transzformáció ideiglenes adatobjektumokat hoz létre a tempdb-ben, amelyek az átalakítás teljes bemenetével megegyező méretűek lehetnek. Az átalakítás végrehajtása közben kiszolgálói lekérdezéseket ad ki ezekre az ideiglenes objektumokra. Ez hatással lehet a kiszolgáló általános teljesítményére.

Beállítások

OLE DB kapcsolatkezelő
Válasszon ki egy meglévő OLE DB kapcsolatkezelőt a listamező használatával, vagy hozzon létre egy új kapcsolatot az Új gombbal.

Új
Hozzon létre egy új kapcsolatot az OLE DB Connection Manager konfigurálása párbeszédpanelen.

Fuzzy Grouping Transformation Editor (Oszlopok fül)

Az Fuzzy Csoportosítási átalakítási szerkesztő párbeszédpanel Oszlopok lapján adhatja meg az ismétlődő értékeket tartalmazó sorok csoportosításához használt oszlopokat.

Beállítások

Elérhető bemeneti oszlopok
Válassza ki a listából az ismétlődő értékeket tartalmazó sorok csoportosításához használt bemeneti oszlopokat.

Név
Az elérhető bemeneti oszlopok nevének megtekintése.

Átjárás
Adja meg, hogy a bemeneti oszlop szerepeljen-e az átalakítás kimenetében. A rendszer automatikusan a kimenetbe másolja a csoportosításhoz használt összes oszlopot. Az oszlop ellenőrzésével további oszlopokat is felvehet.

bemeneti oszlop
Válassza ki a korábban kijelölt bemeneti oszlopok egyikét az Elérhető bemeneti oszlopok listában.

Kimeneti alias
Adja meg a megfelelő kimeneti oszlop leíró nevét. Alapértelmezés szerint a kimeneti oszlop neve megegyezik a bemeneti oszlop nevével.

Csoportkimeneti aliasz
Adjon meg egy leíró nevet annak az oszlopnak, amely a csoportosított duplikátumok kanonikus értékét tartalmazza. Ennek a kimeneti oszlopnak az alapértelmezett neve a bemeneti oszlop neve _clean hozzáfűzve.

Egyezés típusa
Válassza ki a homályos vagy pontos egyezést. A sorok akkor tekinthetők duplikáltnak, ha kellően hasonlóak az összes olyan oszlopban, amelynek egyezéstípusa homályos. Ha bizonyos oszlopokon is pontos egyezést ad meg, akkor csak azok a sorok tekinthetők lehetséges ismétlődésnek, amelyek azonos értékeket tartalmaznak a pontos egyező oszlopokban. Ezért ha tudja, hogy egy adott oszlop nem tartalmaz hibákat vagy inkonzisztenciákat, pontos egyezést adhat meg ezen az oszlopon, hogy növelje a más oszlopokon lévő homályos egyezés pontosságát.

Minimális hasonlóság
A csúszka használatával állítsa be a hasonlóság küszöbértékét az illesztés szintjén. Minél közelebb van az érték az 1-hez, annál közelebb kell lennie a keresési értéknek a forrásértékhez való hasonlóságához, hogy egyezésnek minősüljön. A küszöbérték növelése javíthatja az egyeztetés sebességét, mivel kevesebb jelölt rekordot kell figyelembe venni.

Hasonlóság kimeneti aliasa
Adja meg a kiválasztott illesztés hasonlósági pontszámait tartalmazó új kimeneti oszlop nevét. Ha ezt az értéket üresen hagyja, a kimeneti oszlop nem jön létre.

Számok
Adja meg a kezdő és záró számok jelentőségét az oszlopadatok összehasonlításában. Például, ha a vezető számok jelentősek, a "123 Fő utca" nem lesz csoportosítva a "456 Fő utcával".

Érték	Leírás
Sem	A kezdő és záró számok nem jelentősek.
Vezető	Csak a vezető számok számítanak jelentősnek.
Záró	Csak a záró számok számítanak jelentősnek.
LeadingAndTrailing	A kezdő és a záró szám egyaránt jelentős.

Összehasonlító Zászlók
A sztringek összehasonlítási lehetőségeiről további információt a Sztringadatok összehasonlítása című témakörben talál.

Bolondos Csoportosítás Átalakító Szerkesztő (Speciális lap)

A Fuzzy Grouping Transformation Editor párbeszédpanel Speciális lapján adja meg a bemeneti és kimeneti oszlopokat, állítsa be a hasonlósági küszöbértékeket, és definiáljon elválasztókat.

Megjegyzés:

A Fuzzy Csoportosítás átalakítás teljes ésMaxMemoryUsage tulajdonságai nem érhetők el a Fuzzy Csoportosítás átalakítási szerkesztőben, de a Speciális szerkesztővel állíthatók be. Ezekről a tulajdonságokról további információt az Egyéni átalakítási tulajdonságok Fuzzy Grouping Transformation szakaszában talál.

Beállítások

Bemeneti kulcs oszlopának neve
Adja meg az egyes bemeneti sorok egyedi azonosítóját tartalmazó kimeneti oszlop nevét. A _key_in oszlop olyan értékkel rendelkezik, amely egyedileg azonosítja az egyes sorokat.

Kimeneti kulcs oszlopának neve
Adja meg annak a kimeneti oszlopnak a nevét, amely az ismétlődő sorok egy csoportjának canonikus sorához tartozó egyedi azonosítót tartalmazza. A _key_out oszlop a canonical adatsor _key_in értékének felel meg.

Hasonlósági pontszám oszlopának neve
Adja meg a hasonlósági pontszámot tartalmazó oszlop nevét. A hasonlósági pontszám egy 0 és 1 közötti érték, amely a bemeneti sor és a canonical sor hasonlóságát jelzi. Minél közelebb van a pontszám az 1-hez, annál inkább hasonlít a sor a kanonikus sorra.

hasonlósági küszöbérték
Állítsa be a hasonlósági küszöbértéket a csúszkával. Minél közelebb van a küszöbérték az 1-hez, annál jobban kell hasonlítania a soroknak ahhoz, hogy duplikáltnak minősüljenek. A küszöbérték növelése javíthatja az egyeztetés sebességét, mivel kevesebb jelölt rekordot kell figyelembe venni.

tokenelválasztók
Az átalakítás alapértelmezett elválasztókészletet biztosít az adatok tokenizálásához, de a lista szerkesztésével szükség szerint hozzáadhat vagy eltávolíthat elválasztó elemeket.

Lásd még:

Fuzzy Lookup Transformation
Integrációs szolgáltatások átalakításai

Last updated on 2025-06-05

Megosztás:

Homályos csoportosítás átalakítás

Sorok összehasonlítása

Ideiglenes táblák és indexek

A Fuzzy Grouping Transformation konfigurálása

Kapcsolódó tevékenységek

Homályos Csoportosítás Átalakítás Szerkesztő (Kapcsolatkezelő Fül)

Beállítások

Fuzzy Grouping Transformation Editor (Oszlopok fül)

Beállítások

Bolondos Csoportosítás Átalakító Szerkesztő (Speciális lap)

Beállítások

Lásd még:

További források