Megosztás:


Adatok megtisztítása (külső) tudásbázisadatokkal – Adatminőségi szolgáltatások (DQS)

A következőkre vonatkozik:SQL Server

Fontos

Az adatminőségi szolgáltatások (DQS) törlődnek az SQL Server 2025-ben (17.x). Továbbra is támogatjuk a DQS-t az SQL Server 2022 (16.x) és korábbi verzióiban.

Ez a témakör azt ismerteti, hogyan tisztíthatja meg az adatokat a referenciaadat-szolgáltatóktól származó ismeretekkel. Bár a tisztítási tevékenység futtatásának minden lépése ugyanaz marad az adatok megtisztításához a referenciaadat-szolgáltatóktól származó ismeretek használatával, ahogyan az Az adatok megtisztítása DQS (belső) tudáshasználatával című cikkben leírtak szerint, ez a témakör az adattisztításra vonatkozó információkat nyújt a referenciaadat-szolgáltatás használatával a Data Quality Servicesben (DQS).

Fontos

Ez a cikk olyan külső referenciaadat-szolgáltatásokat említ, amelyek korábban az Azure DataMarketből voltak elérhetők. A DataMarket és a Data Services – például Melissa címadatai – 2016. 12. 31. után megszűntek. Ennek eredményeképpen a jelen cikkben szereplő példák már nem futtathatók a DataMarket megadott szolgáltatásaival. Továbbra is használhat referenciaadat-szolgáltatásokat, amelyek közvetlenül online érhetők el külső referenciaadat-szolgáltatóktól.

Amikor a DQS referenciaadat-szolgáltatás funkciójával tisztítja az adatokat, a DQS tisztítási folyamata kötegkérelemként elküldi a leképezett tartományértékeket a referenciaadat-szolgáltatónak. A referenciaadat-szolgáltatás a következő információkkal válaszol:

  • Javasolt javítás

  • Bizalom

  • További információ a leképezett tartományról. A referenciaadatok a forrást további adatokkal is szabványosíthatják, elemezhetik vagy bővíthetik. Ezek az információk a válasz további mezőiben jelennek meg.

A referenciaadat-szolgáltatás válaszának lekérése után a következő történik a DQS-ben a tisztítási tevékenység során:

  • A tartomány referenciaadat-szolgáltatással való leképezése során megadott automatikus korrekciós küszöbérték és minimális megbízhatósági értékek alapján a rendszer automatikusan korrigálja vagy javasolja a tartományértékeket a megbízhatósági szint alapján.

    Jegyzet

    Amikor egy tartományt leképez egy referenciaadat-szolgáltatásra, a megadott küszöbértékeket akkor alkalmazzák az adatok tisztítása során a referenciaadat-szolgáltatás ismereteinek felhasználásával, és nem a Konfiguráció szakasz Általános beállítások lapján megadott értékeket. A referenciaadat-tisztítás küszöbértékeinek megadásáról a Tartomány vagy összetett tartomány csatolása referenciaadatokhozcímű témakör 9. lépésében olvashat.

  • A tartományértékek a következők szerint vannak kategorizálva: Javasolt, Új, Érvénytelen, Javítottés Helyes.

  • A program további adatokat fűz a forráshoz, és az adatok a megtisztított adatokkal együtt elérhetők az exportáláshoz.

Mielőtt hozzákezdene

Előfeltételek

A szükséges domaineket le kell képeznie egy DQS-tudásbázisban a megfelelő referenciaadat-szolgáltatáshoz. Emellett a tudásbázisnak tartalmaznia kell a megtisztítani kívánt adatok típusával kapcsolatos ismereteket. Ha például meg szeretné tisztítani az amerikai címeket tartalmazó forrásadatokat, a tartományokat egy olyan referenciaként használt adatközvetítő szolgáltatóhoz kell kapcsolnia, amely jó minőségű adatokat biztosít az amerikai címekhez. További információ: Tartomány vagy összetett tartomány csatolása hivatkozási adatokhoz.

Biztonság

Engedélyek

A DQS_MAIN adatbázison önnek a dqs_kb_editor vagy a dqs_kb_operator szerepkörök egyikével kell rendelkeznie az adattisztítás elvégzéséhez.

Az adatok megtisztítása referenciaadatok ismeretével

Ugyanezzel a példával folytatjuk az előző témakörben leképezett tartományok használatát, Tartomány vagy összetett tartomány csatolása referenciaadatokhoz, a Melissa Data szolgáltatással az Azure Marketplace-en. Most ugyanazokat a tartományokat fogjuk használni néhány usa-beli mintacím megtisztításához. Az adatok tisztításának lépései ugyanazok, mint Adatok megtisztítása DQS (belső) tudáshasználatával című cikkben leírtak szerint. A folyamat során azonban szükség esetén felhívjuk a figyelmet.

  1. Hozzon létre egy adatminőségi projektet, és válassza ki a tisztítási tevékenységet. Lásd: Adatminőségi projekt létrehozása.

  2. A Térkép lapon a következő 4 tartományt képezheti le a forrásadatok megfelelő oszlopaival: Címsor, Város, Állapotés Zip. Kattintson a Továbbgombra.

    Jegyzet

    Mivel leképezte a Címellenőrzés kompozit tartományon belül mind a 4 tartományt, az adattisztítás mostantól a kompozit tartomány szintjén fog történni, nem pedig az egyes tartományok szintjén.

  3. A Tisztítás lapon futtassa a számítógéppel támogatott tisztítási folyamatot a Startgombra kattintva. A tisztítási folyamat befejezése után kattintson a Továbbgombra.

    Jegyzet

    A Tisztítás lapon a DQS az alábbi két módon jeleníti meg a referenciaadat-szolgáltatáshoz kapcsolt tartományok adatait:

    • A Start gomb alatt egy üzenet jelenik meg: "A tartományok <Tartomány1>, <Domain2>,... <DomainN> a referenciaadat-szolgáltatóval vannak megtisztítva." Ebben a példában a következő üzenet jelenik meg: "A tartománycím ellenőrzése a referenciaadat-szolgáltató használatával történik."
    • Egy ikon, amely a tartományt ábrázolja, az RDS-hez van csatolva. Atartományok is hozzá vannak csatolva az RDS-hez. Ezek az ikonok a Profiler területen jelennek meg azon tartományokkal szemben, amelyek a referenciaadat-szolgáltatóhoz vannak csatolva. Ebben a példában az ikon megjelenik a Címellenőrzés összetett tartományon.
  4. A Találatok kezelése és megtekintése lapon tekintse át a tartomány értékeit. A referenciaadat-szolgáltatás a tartomány referenciaadat-szolgáltatáshoz való leképezése során a javasolt jelöltek mezőben megadott maximális számú javaslattól függően több javaslatot is megjeleníthet, ha van ilyen. Például két javaslat jelenik meg a következő USA-címhez:

    Eredeti érték:

    Címsor Város Állam Fütyülés
    1 msft út Redmond 98052.

    Javasolt értékek:

    Címsor Város Állam Fütyülés
    1 Microsoft Way Redmond WA 98052.
    PO Box 1 Redmond WA 98073

    Tisztítás referenciaadat-szolgáltatással

    Jegyzet

    Összetett tartományok esetén a DQS az egyes tartományokat más színnel emeli ki, amelyeket a számítógéppel támogatott tisztítási folyamat során javítottak. Ebben az esetben például a címsor és az state tartományokat javították, ezért ciánban emelték ki.

  5. Miután befejezte az összes tartományérték áttekintését, kattintson a Tovább gombra az adatok exportálásához.

  6. Az Exportálás lapon láthatja, hogy az egyes tartományok tisztítási tevékenységével (forrás, ok, megbízhatóság és állapot) kapcsolatos rendszeres információkon kívül a Melissa Data referenciaadat-szolgáltatása további információkat is biztosít a címadatokról, például a cím szélességét és hosszúságát, a megye nevét, a cím típusát (highrise, utca stb.), és így tovább.

  7. Exportálja az adatokat a szükséges célhelyre (SQL Server, CSV vagy Excel), majd kattintson Befejezés gombra a projekt bezárásához.

    Fontos

    Ha az Excel 64 bites verzióját használja, a megtisztított adatokat nem exportálhatja Excel-fájlba; csak SQL Server-adatbázisba vagy .csv fájlba exportálhat.