Adatok másolása a HDFS-kiszolgálóról az Azure Data Factory vagy a Synapse Analytics használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ez a cikk azt ismerteti, hogyan másolhat adatokat a Hadoop Elosztott fájlrendszer (HDFS) kiszolgálóról. További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.

Támogatott képességek

Ez a HDFS-összekötő a következő képességeket támogatja:

Támogatott képességek IR
Copy tevékenység (forrás/-) ① ②
Keresési tevékenység ① ②
Tevékenység törlése ① ②

(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul

A HDFS-összekötő a következőket támogatja:

  • Fájlok másolása Windows (Kerberos) vagy névtelen hitelesítés használatával.
  • Fájlok másolása a webhdfs protokoll vagy a beépített DistCp-támogatás használatával.
  • Fájlok másolása a támogatott fájlformátumok és tömörítési kodekek elemzésével vagy létrehozásával.

Előfeltételek

Ha az adattár helyszíni hálózaton, Azure-beli virtuális hálózaton vagy Amazon Virtual Private Cloudon belül található, konfigurálnia kell egy saját üzemeltetésű integrációs modult a csatlakozáshoz.

Ha az adattár felügyelt felhőalapú adatszolgáltatás, használhatja az Azure Integration Runtime-ot. Ha a hozzáférés a tűzfalszabályokban jóváhagyott IP-címekre korlátozódik, hozzáadhat azure integration runtime IP-eket az engedélyezési listához.

Az Azure Data Factory felügyelt virtuális hálózati integrációs moduljával is elérheti a helyszíni hálózatot anélkül, hogy saját üzemeltetésű integrációs modult telepítene és konfigurálna.

A Data Factory által támogatott hálózati biztonsági mechanizmusokkal és lehetőségekkel kapcsolatos további információkért lásd az adathozzáférési stratégiákat.

Megjegyzés:

Győződjön meg arról, hogy az integrációs modul hozzáfér a Hadoop-fürt összes [névcsomópont-kiszolgálójához]:[névcsomópont-port] és [adatcsomópont-kiszolgálók]:[adatcsomópont-port] a Hadoop-fürthöz. Az alapértelmezett [névcsomópont port] 50070, az alapértelmezett [adatcsomópont-port] pedig 50075.

Első lépések

A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:

Társított szolgáltatás létrehozása a HDFS-hez felhasználói felületen

Az alábbi lépésekkel létrehozhat egy HDFS-hez társított szolgáltatást az Azure Portal felhasználói felületén.

  1. Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:

  2. Keresse meg a HDFS-t, és válassza ki a HDFS-összekötőt.

    Select the HDFS connector.

  3. Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.

    Configure a linked service to HDFS.

Csatlakozás or konfigurációjának részletei

Az alábbi szakaszok a HDFS-hez tartozó Data Factory-entitások meghatározására használt tulajdonságok részleteit ismertetik.

Társított szolgáltatás tulajdonságai

A HDFS társított szolgáltatás esetében a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonságot Hdfs értékre kell állítani. Igen
url A HDFS URL-címe Igen
authenticationType Az engedélyezett értékek névtelenek vagy Windowsok.

A helyszíni környezet beállításához tekintse meg a HDFS-összekötő Kerberos-hitelesítés használata című szakaszát.
Igen
Felhasználónév A Windows-hitelesítés felhasználóneve. Kerberos-hitelesítéshez adja meg <a username>@<domain.com> nevet. Igen (Windows-hitelesítés esetén)
jelszó A Windows-hitelesítés jelszava. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon egy Azure-kulcstartóban tárolt titkos kódra. Igen (Windows-hitelesítés esetén)
connectVia Az adattárhoz való csatlakozáshoz használandó integrációs modul . További információkért tekintse meg az Előfeltételek szakaszt . Ha az integrációs modul nincs megadva, a szolgáltatás az alapértelmezett Azure Integration Runtime-t használja. Nem

Példa: névtelen hitelesítés használata

{
    "name": "HDFSLinkedService",
    "properties": {
        "type": "Hdfs",
        "typeProperties": {
            "url" : "http://<machine>:50070/webhdfs/v1/",
            "authenticationType": "Anonymous",
            "userName": "hadoop"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Példa: Windows-hitelesítés használata

{
    "name": "HDFSLinkedService",
    "properties": {
        "type": "Hdfs",
        "typeProperties": {
            "url" : "http://<machine>:50070/webhdfs/v1/",
            "authenticationType": "Windows",
            "userName": "<username>@<domain>.com (for Kerberos auth)",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Adathalmaz tulajdonságai

Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című témakörben találja.

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

A HDFS formátumalapú adathalmaz beállításainál location az alábbi tulajdonságok támogatottak:

Property Leírás Required
típus Az adathalmaz típustulajdonságának location HdfsLocation értékre kell állítania. Igen
folderPath A mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg az elérési utat a tevékenység forrásbeállításaiban. Nem
fileName A fájl neve a megadott folderPath alatt. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a fájl nevét a tevékenység forrásbeállításaiban. Nem

Példa

{
    "name": "DelimitedTextDataset",
    "properties": {
        "type": "DelimitedText",
        "linkedServiceName": {
            "referenceName": "<HDFS linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, auto retrieved during authoring > ],
        "typeProperties": {
            "location": {
                "type": "HdfsLocation",
                "folderPath": "root/folder/subfolder"
            },
            "columnDelimiter": ",",
            "quoteChar": "\"",
            "firstRowAsHeader": true,
            "compressionCodec": "gzip"
        }
    }
}

Másolási tevékenység tulajdonságai

A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok és tevékenységek című témakörben találja. Ez a szakasz a HDFS-forrás által támogatott tulajdonságok listáját tartalmazza.

HDFS mint forrás

Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.

A HDFS formátumalapú másolási forrás beállításai között storeSettings a következő tulajdonságok támogatottak:

Property Leírás Required
típus A típustulajdonság alatt storeSettings meg kell adni a HdfsRead Gépház értéket. Igen
A másolandó fájlok megkeresése
1. LEHETŐSÉG: statikus elérési út
Másolja az adathalmazban megadott mappából vagy fájl elérési útból. Ha az összes fájlt egy mappából szeretné másolni, adja meg wildcardFileName a következőt *is: .
2. LEHETŐSÉG: helyettesítő karakter
- helyettesítő karakterekFolderPath
A mappa elérési útja helyettesítő karakterekkel a forrásmappák szűréséhez.
Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa tényleges neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik.
További példákért tekintse meg a Mappa és fájlszűrő példákat.
Nem
2. LEHETŐSÉG: helyettesítő karakter
- wildcardFileName
A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott mappaPath/wildcardFolderPath alatt.
Az engedélyezett helyettesítő karakterek a következők: * (nullával vagy több karakterrel egyezik meg) és ? (nullával vagy egyetlen karakterrel egyezik meg); akkor használható ^ a feloldásra, ha a tényleges fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példákért tekintse meg a Mappa és fájlszűrő példákat.
Igen
3. LEHETŐSÉG: a fájlok listája
- fileListPath
Egy megadott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolni kívánt fájlok listáját (soronként egy fájl, az adathalmazban konfigurált elérési út relatív elérési útjával).
Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példákért lásd a Fájllista példákat.
Nem
További beállítások
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha recursive igaz értékre van állítva, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
deleteFilesAfterCompletion Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak.
Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis.
Nem
modifiedDatetimeStart A fájlok szűrése a Legutóbb módosítva attribútum alapján történik.
A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban.
A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek.
Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath.
Nem
modifiedDatetimeEnd Lásd fentebb.
enablePartitionDiscovery Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket.
Az engedélyezett értékek hamisak (alapértelmezett) és igazak.
Nem
partitionRootPath Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához.

Ha nincs megadva, alapértelmezés szerint
– Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út.
– Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal.

Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja:
- Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot monthday hoz létre, valamint a "08" és a "27" értéket.
– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot.
Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem
DistCp-beállítások
distcp Gépház A HDFS DistCp használatakor használandó tulajdonságcsoport. Nem
resourceManagerEndpoint A YARN (még egy erőforrás-tárgyaló) végpontja Igen, ha a DistCp-t használja
tempScriptPath A temp DistCp parancsszkript tárolására használt mappa elérési útja. A szkriptfájl létre lesz hozva, és a másolási feladat befejezése után el lesz távolítva. Igen, ha a DistCp-t használja
distcpOptions A DistCp parancs további beállításai. Nem

Példa

"activities":[
    {
        "name": "CopyFromHDFS",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Delimited text input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "DelimitedTextSource",
                "formatSettings":{
                    "type": "DelimitedTextReadSettings",
                    "skipLineCount": 10
                },
                "storeSettings":{
                    "type": "HdfsReadSettings",
                    "recursive": true,
                    "distcpSettings": {
                        "resourceManagerEndpoint": "resourcemanagerendpoint:8088",
                        "tempScriptPath": "/usr/hadoop/tempscript",
                        "distcpOptions": "-m 100"
                    }
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Mappa- és fájlszűrő példák

Ez a szakasz az eredményül kapott viselkedést ismerteti, ha helyettesítő szűrőt használ a mappa elérési útjával és a fájl nevével.

folderPath fileName Rekurzív A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri)
Folder* (üres, alapértelmezett beállítás) false FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* (üres, alapértelmezett beállítás) true FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* *.csv false FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv
Folder* *.csv true FolderA
    File1.csv
    File2.json
    Almappák1
        File3.csv
        File4.json
        File5.csv
MásikFolderB
    File6.csv

Példák fájllistára

Ez a szakasz azt a viselkedést ismerteti, amely a Copy tevékenység forrásban lévő fájllista elérési útjának használatával jár. Feltételezi, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér típusú fájlokat szeretne másolni:

Minta forrásstruktúra Tartalom a FileListToCopy.txt fájlban Konfiguráció
Gyökér
    FolderA
        File1.csv
        File2.json
        Almappák1
            File3.csv
            File4.json
            File5.csv
    Metaadatok
        FileListToCopy.txt
File1.csv
Almappák1/File3.csv
Almappák1/File5.csv
Az adathalmazban:
- Mappa elérési útja: root/FolderA

A Copy tevékenység forrásban:
- Fájllista elérési útja: root/Metadata/FileListToCopy.txt

A fájllista elérési útja egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját (soronként egy fájl, az adathalmazban konfigurált elérési út relatív elérési útjával).

Adatok másolása a HDFS-ből a DistCp használatával

A DistCp egy Hadoop natív parancssori eszköz, amely elosztott másolatot készít egy Hadoop-fürtben. Amikor futtat egy parancsot a DistCp-ben, az először felsorolja a másolandó fájlokat, majd létrehoz több leképezési feladatot a Hadoop-fürtben. Minden leképezési feladat bináris másolatot készít a forrásból a fogadóba.

A Copy tevékenység támogatja a DistCp használatát a fájlok Azure Blob Storage-ba (beleértve a szakaszos másolást is) vagy egy Azure Data Lake Store-ba való másolásához. Ebben az esetben a DistCp kihasználhatja a fürt teljesítményét ahelyett, hogy a saját üzemeltetésű integrációs modulon futna. A DistCp használata jobb másolási átviteli sebességet biztosít, különösen akkor, ha a fürt nagyon hatékony. A konfiguráció alapján a Copy tevékenység automatikusan létrehoz egy DistCp-parancsot, elküldi azt a Hadoop-fürtnek, és figyeli a másolás állapotát.

Előfeltételek

Ha a DistCp használatával a HDFS-ből az Azure Blob Storage-ba vagy az Azure Data Lake Store-ba másol fájlokat, győződjön meg arról, hogy a Hadoop-fürt megfelel a következő követelményeknek:

  • A MapReduce és a YARN szolgáltatás engedélyezve van.

  • A YARN 2.5-ös vagy újabb verziója.

  • A HDFS-kiszolgáló integrálva van a céladattárral: Azure Blob Storage vagy Azure Data Lake Store (ADLS Gen1):

    • Az Azure Blob FileSystem natív módon támogatott a Hadoop 2.7 óta. Csak a Jar elérési útját kell megadnia a Hadoop-környezet konfigurációjában.
    • Az Azure Data Lake Store Fájlrendszer a Hadoop 3.0.0-alpha1-ből van csomagolva. Ha a Hadoop-fürt verziója korábbi ennél a verziónál, manuálisan kell importálnia az Azure Data Lake Store-hoz kapcsolódó JAR-csomagokat (azure-datalake-store.jar) innen a fürtbe, és meg kell adnia a JAR-fájl elérési útját a Hadoop-környezet konfigurációjában.
  • Ideiglenes mappa előkészítése a HDFS-ben. Ez az ideiglenes mappa egy DistCp-rendszerhéjszkript tárolására szolgál, így KB-szintű helyet foglal el.

  • Győződjön meg arról, hogy a HDFS társított szolgáltatásban megadott felhasználói fiók rendelkezik engedéllyel a következőre:

    • Küldjön be egy alkalmazást a YARN-ban.
    • Hozzon létre egy almappát, és olvasson/írjon fájlokat az ideiglenes mappában.

Konfigurációk

A DistCp-hez kapcsolódó konfigurációk és példák esetében lépjen a HDFS forrásszakaszra .

Kerberos-hitelesítés használata a HDFS-összekötőhöz

Kétféleképpen állíthatja be a helyszíni környezetet Kerberos-hitelesítés használatára a HDFS-összekötőhöz. Kiválaszthatja azt, amelyik jobban megfelel a helyzetének.

Mindkét lehetőségnél kapcsolja be a Hadoop-fürt webhdfs szolgáltatását:

  1. Hozza létre a HTTP-tagot és a keytab-t a webhdfshez.

    Fontos

    A HTTP Kerberos-rendszernévnek a Kerberos HTTP SPNEGO specifikációja szerint "HTTP/" betűvel kell kezdődnie. További információ innen.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS-konfigurációs beállítások: adja hozzá a következő három tulajdonságot a következőben hdfs-site.xml:

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

1. lehetőség: Csatlakozás saját üzemeltetésű integrációs futtatókörnyezeti géphez a Kerberos-birodalomban

Requirements

  • A saját üzemeltetésű integrációs futtatókörnyezeti gépnek csatlakoznia kell a Kerberos-tartományhoz, és nem tud csatlakozni semmilyen Windows-tartományhoz.

Konfigurálás

A KDC-kiszolgálón:

Hozzon létre egy egyszerű nevet, és adja meg a jelszót.

Fontos

A felhasználónév nem tartalmazhat gazdagépnevet.

Kadmin> addprinc <username>@<REALM.COM>

A saját üzemeltetésű integrációs futtatókörnyezeti gépen:

  1. Futtassa a Ksetup segédprogramot a Kerberos Key Distribution Center (KDC) kiszolgáló és tartomány konfigurálásához.

    A gépet munkacsoport tagjaként kell konfigurálni, mert a Kerberos-tartomány eltér a Windows-tartománytól. Ezt a konfigurációt úgy érheti el, hogy beállítja a Kerberos-tartományt, és hozzáad egy KDC-kiszolgálót az alábbi parancsok futtatásával. Cserélje le REALM.COM a saját tartománynevére.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    A parancsok futtatása után indítsa újra a gépet.

  2. Ellenőrizze a konfigurációt a Ksetup paranccsal. A kimenetnek a következőnek kell lennie:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Az adat-előállítóban vagy a Synapse-munkaterületen:

2. lehetőség: Kölcsönös megbízhatóság engedélyezése a Windows-tartomány és a Kerberos-tartomány között

Requirements

  • A saját üzemeltetésű integrációs futtatókörnyezeti gépnek csatlakoznia kell egy Windows-tartományhoz.
  • Engedélyre van szüksége a tartományvezérlő beállításainak frissítéséhez.

Konfigurálás

Megjegyzés:

Cserélje le REALM.COM és AD.COM az alábbi oktatóanyagban a saját tartománynevére és tartományvezérlőjére.

A KDC-kiszolgálón:

  1. Szerkessze a KDC konfigurációját a krb5.conf fájlban, hogy a KDC az alábbi konfigurációs sablonra hivatkozva megbízhatónak minősítse a Windows-tartományt. Alapértelmezés szerint a konfiguráció a /etc/krb5.conf helyen található.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    A fájl konfigurálása után indítsa újra a KDC szolgáltatást.

  2. Készítsen elő egy krbtgt/REALM.COM@AD.COM nevű tagot a KDC-kiszolgálón a következő paranccsal:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. Adja hozzá RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//a hadoop.security.auth_to_local HDFS-szolgáltatás konfigurációs fájljában.

A tartományvezérlőn:

  1. A tartománybejegyzés hozzáadásához futtassa a következő Ksetup parancsokat:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Hozzon létre megbízhatóságot a Windows tartományból a Kerberos tartományba. [password] az egyszerű krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Válassza ki a Kerberosban használt titkosítási algoritmust.

    a. Válassza Kiszolgálókezelő >Group Policy Management>Domain>Policy Objects>Default vagy Active Domain Policy( Alapértelmezett vagy Aktív tartományházirend) lehetőséget, majd válassza a Szerkesztés lehetőséget.

    b. A Csoportházirend-kezelési szerkesztő panelen válassza a Windows>>Gépház Security Gépház>> Local Policies>biztonsági beállításai lehetőséget, majd konfigurálja a Hálózati biztonság: A Kerberos számára engedélyezett titkosítási típusok konfigurálása lehetőséget.

    c. Válassza ki a KDC-kiszolgálóhoz való csatlakozáskor használni kívánt titkosítási algoritmust. Az összes lehetőséget kiválaszthatja.

    Screenshot of the "Network security: Configure encryption types allowed for Kerberos" pane

    d. Ksetup A parancs használatával adja meg a megadott tartományon használandó titkosítási algoritmust.

    C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
    
  4. Hozza létre a megfeleltetést a tartományfiók és a Kerberos-tag között, hogy a Kerberos-egyszerűt a Windows-tartományban használhassa.

    a. Válassza Rendszergazda istrative tools> Active Directory - felhasználók és számítógépek.

    b. Speciális funkciók konfigurálása a Speciális szolgáltatások megtekintése lehetőség>kiválasztásával.

    c. A Speciális szolgáltatások panelen kattintson a jobb gombbal arra a fiókra, amelyhez leképezéseket szeretne létrehozni, majd a Névleképezések panelen válassza a Kerberos-nevek lapot.

    d. Adjon hozzá egy tagot a tartományból.

    Screenshot of the "Security Identity Mapping" pane

A saját üzemeltetésű integrációs futtatókörnyezeti gépen:

  • A tartománybejegyzés hozzáadásához futtassa az alábbi Ksetup parancsokat.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Az adat-előállítóban vagy a Synapse-munkaterületen:

Keresési tevékenység tulajdonságai

A keresési tevékenység tulajdonságairól további információt a Keresési tevékenység című témakörben talál.

Tevékenységtulajdonságok törlése

A tevékenységtulajdonságok törléséről további információt a Tevékenység törlése című témakörben talál.

Örökölt modellek

Megjegyzés:

A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy a korábban tárgyalt új modellt használja, mert a szerzői felhasználói felület átállt az új modell létrehozására.

Örökölt adathalmaz-modell

Property Leírás Required
típus Az adathalmaz típustulajdonságának a FileShare értékre kell állítania Igen
folderPath A mappa elérési útja. A helyettesítő karakterek szűrője támogatott. Az engedélyezett helyettesítő karakterek * (nullával vagy több karakterrel) és ? (nullával vagy egyetlen karakterrel egyező) karakterek; akkor használhatók ^ a feloldásra, ha a tényleges fájlnévben helyettesítő karakter vagy ez a feloldó karakter található.

Példák: gyökérmappák/almappák/, további példák a Mappa és fájlszűrő példákban.
Igen
fileName A megadott "folderPath" alatti fájlok neve vagy helyettesítő karaktere. Ha nem ad meg értéket ehhez a tulajdonsághoz, az adathalmaz a mappában lévő összes fájlra mutat.

Szűrő esetén az engedélyezett helyettesítő karakterek * (nullával vagy több karakterrel) és ? (nullával vagy egyetlen karakterrel) egyeznek.
- 1. példa: "fileName": "*.csv"
- 2. példa: "fileName": "???20180427.txt"
A feloldás akkor használható ^ , ha a mappa tényleges neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik.
Nem
modifiedDatetimeStart A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban.

Vegye figyelembe, hogy az adatáthelyezés általános teljesítményét befolyásolja a beállítás engedélyezése, ha nagy számú fájlra szeretne fájlszűrőt alkalmazni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek.
Nem
modifiedDatetimeEnd A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnda . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban.

Vegye figyelembe, hogy az adatáthelyezés általános teljesítményét befolyásolja a beállítás engedélyezése, ha nagy számú fájlra szeretne fájlszűrőt alkalmazni.

A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek.
Nem
format Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban.

Ha egy adott formátumú fájlokat szeretne elemezni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, ORC formátum és Parquet formátumszakaszok.
Nem (csak bináris másolási forgatókönyv esetén)
tömörítés Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek.
Támogatott típusok: Gzip, Deflate, Bzip2 és ZipDeflate.
Támogatott szintek: Optimális és Leggyorsabb.
Nem

Tipp.

Ha az összes fájlt át szeretné másolni egy mappában, csak a folderPath értéket adja meg.
Ha egyetlen fájlt szeretne másolni egy megadott névvel, adja meg a folderPath mappát, a fájlnév pedig a mapparészt.
Ha egy mappa alá szeretné másolni a fájlok egy részhalmazát, adja meg a folderPath mapparészt és a fileName fájlt helyettesítő karakter szűrővel.

Példa

{
    "name": "HDFSDataset",
    "properties": {
        "type": "FileShare",
        "linkedServiceName":{
            "referenceName": "<HDFS linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "folderPath": "folder/subfolder/",
            "fileName": "*",
            "modifiedDatetimeStart": "2018-12-01T05:00:00Z",
            "modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
            "format": {
                "type": "TextFormat",
                "columnDelimiter": ",",
                "rowDelimiter": "\n"
            },
            "compression": {
                "type": "GZip",
                "level": "Optimal"
            }
        }
    }
}

Örökölt Copy tevékenység forrásmodell

Property Leírás Required
típus A Copy tevékenység forrás típustulajdonságának HdfsSource értékre kell állítania. Igen
Rekurzív Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha a rekurzív érték igaz, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban.
Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis.
Nem
distcp Gépház A HDFS DistCp használatakor használt tulajdonságcsoport. Nem
resourceManagerEndpoint A YARN Resource Manager végpontja Igen, ha a DistCp-t használja
tempScriptPath A temp DistCp parancsszkript tárolására használt mappa elérési útja. A szkriptfájl létre lesz hozva, és a másolási feladat befejezése után el lesz távolítva. Igen, ha a DistCp-t használja
distcpOptions A DistCp parancs további lehetőségeket is biztosít. Nem
maxConcurrent Csatlakozás ions Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. Nem

Példa: HDFS-forrás Copy tevékenység a DistCp használatával

"source": {
    "type": "HdfsSource",
    "distcpSettings": {
        "resourceManagerEndpoint": "resourcemanagerendpoint:8088",
        "tempScriptPath": "/usr/hadoop/tempscript",
        "distcpOptions": "-m 100"
    }
}

A Copy tevékenység által forrásként és fogadóként támogatott adattárak listáját a támogatott adattárakban találja.