Adatok másolása a HDFS-kiszolgálóról az Azure Data Factory vagy a Synapse Analytics használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ez a cikk azt ismerteti, hogyan másolhat adatokat a Hadoop Elosztott fájlrendszer (HDFS) kiszolgálóról. További információkért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit.
Támogatott képességek
Ez a HDFS-összekötő a következő képességeket támogatja:
Támogatott képességek | IR |
---|---|
Copy tevékenység (forrás/-) | (1) (2) |
Keresési tevékenység | (1) (2) |
Tevékenység törlése | (1) (2) |
(1) Azure-integrációs modul (2) Saját üzemeltetésű integrációs modul
A HDFS-összekötő a következőket támogatja:
- Fájlok másolása Windows (Kerberos) vagy névtelen hitelesítés használatával.
- Fájlok másolása a webhdfs protokoll vagy a beépített DistCp-támogatás használatával.
- Fájlok másolása a támogatott fájlformátumok és tömörítési kodekek elemzésével vagy létrehozásával.
Előfeltételek
Ha az adattár helyszíni hálózaton, Azure-beli virtuális hálózaton vagy Amazon Virtual Private Cloudon belül található, konfigurálnia kell egy saját üzemeltetésű integrációs modult a csatlakozáshoz.
Ha az adattár felügyelt felhőalapú adatszolgáltatás, használhatja az Azure Integration Runtime-ot. Ha a hozzáférés a tűzfalszabályokban jóváhagyott IP-címekre korlátozódik, hozzáadhat azure integration runtime IP-eket az engedélyezési listához.
Az Azure Data Factory felügyelt virtuális hálózati integrációs moduljával is elérheti a helyszíni hálózatot anélkül, hogy saját üzemeltetésű integrációs modult telepítene és konfigurálna.
A Data Factory által támogatott hálózati biztonsági mechanizmusokkal és lehetőségekkel kapcsolatos további információkért lásd az adathozzáférési stratégiákat.
Feljegyzés
Győződjön meg arról, hogy az integrációs modul hozzáfér a Hadoop-fürt összes [névcsomópont-kiszolgálójához]:[névcsomópont-port] és [adatcsomópont-kiszolgálók]:[adatcsomópont-port] a Hadoop-fürthöz. Az alapértelmezett [névcsomópont port] 50070, az alapértelmezett [adatcsomópont-port] pedig 50075.
Első lépések
A Copy tevékenység folyamattal való végrehajtásához használja az alábbi eszközök vagy SDK-k egyikét:
- Az Adatok másolása eszköz
- Az Azure Portal
- A .NET SDK
- A Python SDK
- Azure PowerShell
- A REST API
- Az Azure Resource Manager-sablon
Társított szolgáltatás létrehozása a HDFS-hez felhasználói felületen
Az alábbi lépésekkel létrehozhat egy HDFS-hez társított szolgáltatást az Azure Portal felhasználói felületén.
Keresse meg az Azure Data Factory vagy a Synapse-munkaterület Kezelés lapját, és válassza a Társított szolgáltatások lehetőséget, majd kattintson az Új gombra:
Keresse meg a HDFS-t, és válassza ki a HDFS-összekötőt.
Konfigurálja a szolgáltatás részleteit, tesztelje a kapcsolatot, és hozza létre az új társított szolgáltatást.
Az összekötő konfigurációjának részletei
Az alábbi szakaszok a HDFS-hez tartozó Data Factory-entitások meghatározására használt tulajdonságok részleteit ismertetik.
Társított szolgáltatás tulajdonságai
A HDFS társított szolgáltatás esetében a következő tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | A típustulajdonságot Hdfs értékre kell állítani. | Igen |
url | A HDFS URL-címe | Igen |
authenticationType | Az engedélyezett értékek névtelenek vagy Windowsok. A helyszíni környezet beállításához tekintse meg a HDFS-összekötő Kerberos-hitelesítés használata című szakaszát. |
Igen |
Felhasználónév | A Windows-hitelesítés felhasználóneve. Kerberos-hitelesítéshez adja meg <a username>@<domain>.com értéket. | Igen (Windows-hitelesítés esetén) |
jelszó | A Windows-hitelesítés jelszava. Jelölje meg ezt a mezőt SecureStringként, hogy biztonságosan tárolja, vagy hivatkozzon egy Azure-kulcstartóban tárolt titkos kódra. | Igen (Windows-hitelesítés esetén) |
connectVia | Az adattárhoz való csatlakozáshoz használandó integrációs modul . További információkért tekintse meg az Előfeltételek szakaszt . Ha az integrációs modul nincs megadva, a szolgáltatás az alapértelmezett Azure Integration Runtime-t használja. | Nem |
Példa: névtelen hitelesítés használata
{
"name": "HDFSLinkedService",
"properties": {
"type": "Hdfs",
"typeProperties": {
"url" : "http://<machine>:50070/webhdfs/v1/",
"authenticationType": "Anonymous",
"userName": "hadoop"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Példa: Windows-hitelesítés használata
{
"name": "HDFSLinkedService",
"properties": {
"type": "Hdfs",
"typeProperties": {
"url" : "http://<machine>:50070/webhdfs/v1/",
"authenticationType": "Windows",
"userName": "<username>@<domain>.com (for Kerberos auth)",
"password": {
"type": "SecureString",
"value": "<password>"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Adathalmaz tulajdonságai
Az adathalmazok meghatározásához elérhető szakaszok és tulajdonságok teljes listáját az Adathalmazok című témakörben találja.
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
A HDFS formátumalapú adathalmaz beállításainál location
az alábbi tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az adathalmaz típustulajdonságának location HdfsLocation értékre kell állítania. |
Igen |
folderPath | A mappa elérési útja. Ha helyettesítő karakterrel szeretné szűrni a mappát, hagyja ki ezt a beállítást, és adja meg az elérési utat a tevékenység forrásbeállításaiban. | Nem |
fileName | A fájl neve a megadott folderPath alatt. Ha helyettesítő karakterrel szeretné szűrni a fájlokat, hagyja ki ezt a beállítást, és adja meg a fájl nevét a tevékenység forrásbeállításaiban. | Nem |
Példa:
{
"name": "DelimitedTextDataset",
"properties": {
"type": "DelimitedText",
"linkedServiceName": {
"referenceName": "<HDFS linked service name>",
"type": "LinkedServiceReference"
},
"schema": [ < physical schema, optional, auto retrieved during authoring > ],
"typeProperties": {
"location": {
"type": "HdfsLocation",
"folderPath": "root/folder/subfolder"
},
"columnDelimiter": ",",
"quoteChar": "\"",
"firstRowAsHeader": true,
"compressionCodec": "gzip"
}
}
}
Másolási tevékenység tulajdonságai
A tevékenységek meghatározásához elérhető szakaszok és tulajdonságok teljes listáját a Folyamatok és tevékenységek című témakörben találja. Ez a szakasz a HDFS-forrás által támogatott tulajdonságok listáját tartalmazza.
HDFS mint forrás
Az Azure Data Factory a következő fájlformátumokat támogatja. A formátumalapú beállításokat az egyes cikkekben találja.
- Avro formátum
- Bináris formátum
- Tagolt szövegformátum
- Excel-formátum
- JSON formátum
- ORC formátum
- Parquet formátum
- XML-formátum
A HDFS formátumalapú másolási forrás beállításai között storeSettings
a következő tulajdonságok támogatottak:
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az alatta lévő storeSettings típustulajdonságnak HdfsReadSettings értékre kell állítania. |
Igen |
A másolandó fájlok megkeresése | ||
1. LEHETŐSÉG: statikus elérési út |
Másolja az adathalmazban megadott mappából vagy fájl elérési útból. Ha az összes fájlt egy mappából szeretné másolni, adja meg wildcardFileName a következőt * is: . |
|
2. LEHETŐSÉG: helyettesítő karakter - helyettesítő karakterekFolderPath |
A mappa elérési útja helyettesítő karakterekkel a forrásmappák szűréséhez. Az engedélyezett helyettesítő karakterek a következők: * (nulla vagy több karakternek felel meg) és ? (nulla vagy egyetlen karakternek felel meg). A feloldás akkor használható ^ , ha a mappa tényleges neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik. További példákért tekintse meg a Mappa és fájlszűrő példákat. |
Nem |
2. LEHETŐSÉG: helyettesítő karakter - wildcardFileName |
A forrásfájlok szűréséhez használt fájlnév helyettesítő karakterekkel a megadott mappaPath/wildcardFolderPath alatt. Az engedélyezett helyettesítő karakterek a következők: * (nullával vagy több karakterrel egyezik meg) és ? (nullával vagy egyetlen karakterrel egyezik meg); akkor használható ^ a feloldásra, ha a tényleges fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. További példákért tekintse meg a Mappa és fájlszűrő példákat. |
Igen |
3. LEHETŐSÉG: a fájlok listája - fileListPath |
Egy megadott fájlkészlet másolását jelzi. Mutasson egy szövegfájlra, amely tartalmazza a másolni kívánt fájlok listáját (soronként egy fájl, az adathalmazban konfigurált elérési út relatív elérési útjával). Ha ezt a lehetőséget használja, ne adjon meg fájlnevet az adathalmazban. További példákért lásd a Fájllista példákat. |
Nem |
További beállítások | ||
rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha recursive igaz értékre van állítva, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis. Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath . |
Nem |
deleteFilesAfterCompletion | Azt jelzi, hogy a bináris fájlok törölve lesznek-e a forrástárból a céltárolóba való sikeres áthelyezés után. A fájltörlés fájlonként történik, ezért ha a másolási tevékenység meghiúsul, látni fogja, hogy egyes fájlok már át lettek másolva a célhelyre, és törölve lettek a forrásból, míg mások továbbra is a forrástárban maradnak. Ez a tulajdonság csak bináris fájlok másolási forgatókönyvében érvényes. Az alapértelmezett érték: hamis. |
Nem |
modifiedDatetimeStart | A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek.Ez a tulajdonság nem érvényes a konfiguráláskor fileListPath . |
Nem |
modifiedDatetimeEnd | Lásd fentebb. | |
enablePartitionDiscovery | Particionált fájlok esetén adja meg, hogy elemezni szeretné-e a partíciókat a fájl elérési útján, és további forrásoszlopokként adja hozzá őket. Az engedélyezett értékek hamisak (alapértelmezett) és igazak. |
Nem |
partitionRootPath | Ha a partíciófelderítés engedélyezve van, adja meg az abszolút gyökér elérési utat a particionált mappák adatoszlopként való olvasásához. Ha nincs megadva, alapértelmezés szerint – Ha fájlelérési utat használ az adathalmazban vagy a forrásban lévő fájlok listájában, a partíció gyökérútvonala az adathalmazban konfigurált elérési út. – Helyettesítő karakteres mappaszűrő használata esetén a partíció gyökérútvonala az első helyettesítő karakter előtti alútvonal. Tegyük fel például, hogy az adathalmaz elérési útját "root/folder/year=2020/month=08/day=27" értékre konfigurálja: - Ha a partíció gyökér elérési útját "root/folder/year=2020" értékként adja meg, a másolási tevékenység a fájlokon belüli oszlopok mellett két további oszlopot month day hoz létre, valamint a "08" és a "27" értéket.– Ha nincs megadva partíciógyökér elérési útja, a rendszer nem hoz létre további oszlopot. |
Nem |
maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
DistCp-beállítások | ||
distcpSettings | A HDFS DistCp használatakor használandó tulajdonságcsoport. | Nem |
resourceManagerEndpoint | A YARN (még egy erőforrás-tárgyaló) végpontja | Igen, ha a DistCp-t használja |
tempScriptPath | A temp DistCp parancsszkript tárolására használt mappa elérési útja. A szkriptfájl létre lesz hozva, és a másolási feladat befejezése után el lesz távolítva. | Igen, ha a DistCp-t használja |
distcpOptions | A DistCp parancs további beállításai. | Nem |
Példa:
"activities":[
{
"name": "CopyFromHDFS",
"type": "Copy",
"inputs": [
{
"referenceName": "<Delimited text input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "DelimitedTextSource",
"formatSettings":{
"type": "DelimitedTextReadSettings",
"skipLineCount": 10
},
"storeSettings":{
"type": "HdfsReadSettings",
"recursive": true,
"distcpSettings": {
"resourceManagerEndpoint": "resourcemanagerendpoint:8088",
"tempScriptPath": "/usr/hadoop/tempscript",
"distcpOptions": "-m 100"
}
}
},
"sink": {
"type": "<sink type>"
}
}
}
]
Mappa- és fájlszűrő példák
Ez a szakasz az eredményül kapott viselkedést ismerteti, ha helyettesítő szűrőt használ a mappa elérési útjával és a fájl nevével.
folderPath | fileName | rekurzív | A forrásmappa struktúrája és a szűrés eredménye (a félkövér fájlokat a rendszer lekéri) |
---|---|---|---|
Folder* |
(üres, alapértelmezett beállítás) | false | FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
Folder* |
(üres, alapértelmezett beállítás) | true | FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
Folder* |
*.csv |
false | FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
Folder* |
*.csv |
true | FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv MásikFolderB File6.csv |
Példák fájllistára
Ez a szakasz azt a viselkedést ismerteti, amely a Copy tevékenység forrásban lévő fájllista elérési útjának használatával jár. Feltételezi, hogy a következő forrásmappa-struktúrával rendelkezik, és félkövér típusú fájlokat szeretne másolni:
Minta forrásstruktúra | Tartalom a FileListToCopy.txt | Konfiguráció |
---|---|---|
gyökér FolderA File1.csv File2.json Almappák1 File3.csv File4.json File5.csv Metaadatok FileListToCopy.txt |
File1.csv Almappák1/File3.csv Almappák1/File5.csv |
Az adathalmazban: - Mappa elérési útja: root/FolderA A Copy tevékenység forrásban: - Fájllista elérési útja: root/Metadata/FileListToCopy.txt A fájllista elérési útja egy szövegfájlra mutat ugyanabban az adattárban, amely tartalmazza a másolni kívánt fájlok listáját (soronként egy fájl, az adathalmazban konfigurált elérési út relatív elérési útjával). |
Adatok másolása a HDFS-ből a DistCp használatával
A DistCp egy Hadoop natív parancssori eszköz, amely elosztott másolatot készít egy Hadoop-fürtben. Amikor futtat egy parancsot a DistCp-ben, az először felsorolja a másolandó fájlokat, majd létrehoz több leképezési feladatot a Hadoop-fürtben. Minden leképezési feladat bináris másolatot készít a forrásból a fogadóba.
A Copy tevékenység támogatja a DistCp használatát a fájlok Azure Blob Storage-ba (beleértve a szakaszos másolást is) vagy egy Azure Data Lake Store-ba való másolásához. Ebben az esetben a DistCp kihasználhatja a fürt teljesítményét ahelyett, hogy a saját üzemeltetésű integrációs modulon futna. A DistCp használata jobb másolási átviteli sebességet biztosít, különösen akkor, ha a fürt nagyon hatékony. A konfiguráció alapján a Copy tevékenység automatikusan létrehoz egy DistCp-parancsot, elküldi azt a Hadoop-fürtnek, és figyeli a másolás állapotát.
Előfeltételek
Ha a DistCp használatával a HDFS-ből az Azure Blob Storage-ba vagy az Azure Data Lake Store-ba másol fájlokat, győződjön meg arról, hogy a Hadoop-fürt megfelel a következő követelményeknek:
A MapReduce és a YARN szolgáltatás engedélyezve van.
A YARN 2.5-ös vagy újabb verziója.
A HDFS-kiszolgáló integrálva van a céladattárral: Azure Blob Storage vagy Azure Data Lake Store (ADLS Gen1):
- Az Azure Blob FileSystem natív módon támogatott a Hadoop 2.7 óta. Csak a Jar elérési útját kell megadnia a Hadoop-környezet konfigurációjában.
- Az Azure Data Lake Store Fájlrendszer a Hadoop 3.0.0-alpha1-ből van csomagolva. Ha a Hadoop-fürt verziója korábbi ennél a verziónál, manuálisan kell importálnia az Azure Data Lake Store-hoz kapcsolódó JAR-csomagokat (azure-datalake-store.jar) a fürtbe, és meg kell adnia a JAR-fájl elérési útját a Hadoop-környezet konfigurációjában.
Ideiglenes mappa előkészítése a HDFS-ben. Ez az ideiglenes mappa egy DistCp-rendszerhéjszkript tárolására szolgál, így KB-szintű helyet foglal el.
Győződjön meg arról, hogy a HDFS társított szolgáltatásban megadott felhasználói fiók rendelkezik engedéllyel a következőre:
- Küldjön be egy alkalmazást a YARN-ban.
- Hozzon létre egy almappát, és olvasson/írjon fájlokat az ideiglenes mappában.
Konfigurációk
A DistCp-hez kapcsolódó konfigurációk és példák esetében lépjen a HDFS forrásszakaszra .
Kerberos-hitelesítés használata a HDFS-összekötőhöz
Kétféleképpen állíthatja be a helyszíni környezetet Kerberos-hitelesítés használatára a HDFS-összekötőhöz. Kiválaszthatja azt, amelyik jobban megfelel a helyzetének.
- 1. lehetőség: Csatlakozás saját üzemeltetésű integrációs futtatókörnyezeti géphez a Kerberos-birodalomban
- 2. lehetőség: Kölcsönös megbízhatóság engedélyezése a Windows-tartomány és a Kerberos-tartomány között
Mindkét lehetőségnél kapcsolja be a Hadoop-fürt webhdfs szolgáltatását:
Hozza létre a HTTP-tagot és a keytab-t a webhdfshez.
Fontos
A HTTP Kerberos-rendszernévnek a Kerberos HTTP SPNEGO specifikációja szerint "HTTP/" betűvel kell kezdődnie. További információ innen.
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
HDFS-konfigurációs beállítások: adja hozzá a következő három tulajdonságot a következőben
hdfs-site.xml
:<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
1. lehetőség: Csatlakozás saját üzemeltetésű integrációs futtatókörnyezeti géphez a Kerberos-birodalomban
Követelmények
- A saját üzemeltetésű integrációs futtatókörnyezeti gépnek csatlakoznia kell a Kerberos-tartományhoz, és nem tud csatlakozni semmilyen Windows-tartományhoz.
Konfigurálás
A KDC-kiszolgálón:
Hozzon létre egy egyszerű nevet, és adja meg a jelszót.
Fontos
A felhasználónév nem tartalmazhat gazdagépnevet.
Kadmin> addprinc <username>@<REALM.COM>
A saját üzemeltetésű integrációs futtatókörnyezeti gépen:
Futtassa a Ksetup segédprogramot a Kerberos Key Distribution Center (KDC) kiszolgáló és tartomány konfigurálásához.
A gépet munkacsoport tagjaként kell konfigurálni, mert a Kerberos-tartomány eltér a Windows-tartománytól. Ezt a konfigurációt úgy érheti el, hogy beállítja a Kerberos-tartományt, és hozzáad egy KDC-kiszolgálót az alábbi parancsok futtatásával. Cserélje le REALM.COM a saját tartománynevére.
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
A parancsok futtatása után indítsa újra a gépet.
Ellenőrizze a konfigurációt a
Ksetup
paranccsal. A kimenetnek a következőnek kell lennie:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
Az adat-előállítóban vagy a Synapse-munkaterületen:
- Konfigurálja a HDFS-összekötőt a Windows-hitelesítés és a Kerberos egyszerű nevével és jelszavával együtt a HDFS-adatforráshoz való csatlakozáshoz. A konfiguráció részleteiért tekintse meg a HDFS társított szolgáltatás tulajdonságai szakaszt .
2. lehetőség: Kölcsönös megbízhatóság engedélyezése a Windows-tartomány és a Kerberos-tartomány között
Követelmények
- A saját üzemeltetésű integrációs futtatókörnyezeti gépnek csatlakoznia kell egy Windows-tartományhoz.
- Engedélyre van szüksége a tartományvezérlő beállításainak frissítéséhez.
Konfigurálás
Feljegyzés
Cserélje le REALM.COM és AD.COM az alábbi oktatóanyagban a saját tartománynevére és tartományvezérlőjére.
A KDC-kiszolgálón:
Szerkessze a KDC konfigurációját a krb5.conf fájlban, hogy a KDC az alábbi konfigurációs sablonra hivatkozva megbízhatónak minősítse a Windows-tartományt. Alapértelmezés szerint a konfiguráció a /etc/krb5.conf helyen található.
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
A fájl konfigurálása után indítsa újra a KDC szolgáltatást.
Készítsen elő egy krbtgt/REALM.COM@AD.COM nevű tagot a KDC-kiszolgálón a következő paranccsal:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
Adja hozzá
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
a hadoop.security.auth_to_local HDFS-szolgáltatás konfigurációs fájljában.
A tartományvezérlőn:
A tartománybejegyzés hozzáadásához futtassa a következő
Ksetup
parancsokat:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Hozzon létre megbízhatóságot a Windows tartományból a Kerberos tartományba. [password] az egyszerű krbtgt/REALM.COM@AD.COM.
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
Válassza ki a Kerberosban használt titkosítási algoritmust.
a. Válassza Kiszolgálókezelő >Group Policy Management>Domain>Policy Objects>Default vagy Active Domain Policy( Alapértelmezett vagy Aktív tartományházirend) lehetőséget, majd válassza a Szerkesztés lehetőséget.
b. A Csoportházirend-kezelési szerkesztő panelen válassza a Számítógép-konfigurációs házirendek>>Windows-beállítások>biztonsági beállításai>helyi házirendek>biztonsági beállításai lehetőséget, majd konfigurálja a hálózati biztonságot: A Kerberos számára engedélyezett titkosítási típusok konfigurálása.
c. Válassza ki a KDC-kiszolgálóhoz való csatlakozáskor használni kívánt titkosítási algoritmust. Az összes lehetőséget kiválaszthatja.
d.
Ksetup
A parancs használatával adja meg a megadott tartományon használandó titkosítási algoritmust.C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
Hozza létre a megfeleltetést a tartományfiók és a Kerberos-tag között, hogy a Kerberos-egyszerűt a Windows-tartományban használhassa.
a. Válassza a Felügyeleti eszközök> Active Directory - felhasználók és számítógépek lehetőséget.
b. Speciális funkciók konfigurálása a Speciális szolgáltatások megtekintése lehetőség>kiválasztásával.
c. A Speciális szolgáltatások panelen kattintson a jobb gombbal arra a fiókra, amelyhez leképezéseket szeretne létrehozni, majd a Névleképezések panelen válassza a Kerberos-nevek lapot.
d. Adjon hozzá egy tagot a tartományból.
A saját üzemeltetésű integrációs futtatókörnyezeti gépen:
A tartománybejegyzés hozzáadásához futtassa az alábbi
Ksetup
parancsokat.C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
Az adat-előállítóban vagy a Synapse-munkaterületen:
- Konfigurálja a HDFS-összekötőt a Windows-hitelesítés és a tartományfiók vagy a Kerberos-tag együttes használatával a HDFS-adatforráshoz való csatlakozáshoz. A konfiguráció részleteiért tekintse meg a HDFS társított szolgáltatás tulajdonságai című szakaszt .
Keresési tevékenység tulajdonságai
A keresési tevékenység tulajdonságairól további információt a Keresési tevékenység című témakörben talál.
Tevékenységtulajdonságok törlése
A tevékenységtulajdonságok törléséről további információt a Tevékenység törlése című témakörben talál.
Örökölt modellek
Feljegyzés
A visszamenőleges kompatibilitáshoz hasonlóan az alábbi modellek továbbra is támogatottak. Javasoljuk, hogy a korábban tárgyalt új modellt használja, mert a szerzői felhasználói felület átállt az új modell létrehozására.
Örökölt adathalmaz-modell
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | Az adathalmaz típustulajdonságának a FileShare értékre kell állítania | Igen |
folderPath | A mappa elérési útja. A helyettesítő karakterek szűrője támogatott. Az engedélyezett helyettesítő karakterek * (nullával vagy több karakterrel) és ? (nullával vagy egyetlen karakterrel egyező) karakterek; akkor használhatók ^ a feloldásra, ha a tényleges fájlnévben helyettesítő karakter vagy ez a feloldó karakter található. Példák: gyökérmappák/almappák/, további példák a Mappa és fájlszűrő példákban. |
Igen |
fileName | A megadott "folderPath" alatti fájlok neve vagy helyettesítő karaktere. Ha nem ad meg értéket ehhez a tulajdonsághoz, az adathalmaz a mappában lévő összes fájlra mutat. Szűrő esetén az engedélyezett helyettesítő karakterek * (nullával vagy több karakterrel) és ? (nullával vagy egyetlen karakterrel) egyeznek.- 1. példa: "fileName": "*.csv" - 2. példa: "fileName": "???20180427.txt" A feloldás akkor használható ^ , ha a mappa tényleges neve helyettesítő karakterrel vagy ezzel a feloldó karakterrel rendelkezik. |
Nem |
modifiedDatetimeStart | A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban. Vegye figyelembe, hogy az adatáthelyezés általános teljesítményét befolyásolja a beállítás engedélyezése, ha nagy számú fájlra szeretne fájlszűrőt alkalmazni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek. |
Nem |
modifiedDatetimeEnd | A fájlok szűrése a Legutóbb módosítva attribútum alapján történik. A fájlok akkor lesznek kijelölve, ha az utolsó módosításuk időpontja nagyobb vagy egyenlő, modifiedDatetimeStart mint modifiedDatetimeEnd a . Az idő az UTC időzónára lesz alkalmazva 2018-12-01T05:00:00Z formátumban. Vegye figyelembe, hogy az adatáthelyezés általános teljesítményét befolyásolja a beállítás engedélyezése, ha nagy számú fájlra szeretne fájlszűrőt alkalmazni. A tulajdonságok null értékűek lehetnek, ami azt jelenti, hogy az adathalmazra nincs fájlattribútum-szűrő alkalmazva. Ha modifiedDatetimeStart dátum/idő érték van megadva, de modifiedDatetimeEnd null értékű, az azt jelenti, hogy a rendszer kijelöli azokat a fájlokat, amelyeknek az utolsó módosított attribútuma nagyobb vagy egyenlő a datetime értékkel. Ha modifiedDatetimeEnd dátum/idő értékkel rendelkezik, de modifiedDatetimeStart NULL értékű, az azt jelenti, hogy a legutóbbi módosított attribútummal rendelkező fájlok a dátum/idő értéknél kisebbek. |
Nem |
format | Ha fájlokat szeretne másolni a fájlalapú tárolók (bináris másolás) között, hagyja ki a formátumszakaszt a bemeneti és kimeneti adatkészlet-definíciókban. Ha egy adott formátumú fájlokat szeretne elemezni, a következő fájlformátumtípusok támogatottak: TextFormat, JsonFormat, AvroFormat, OrcFormat, ParquetFormat. A formátum alatti típustulajdonság beállítása az alábbi értékek egyikére. További információ: Szöveg, JSON formátum, Avro formátum, ORC formátum és Parquet formátumszakaszok. |
Nem (csak bináris másolási forgatókönyv esetén) |
tömörítés | Adja meg az adatok tömörítési típusát és szintjét. További információ: Támogatott fájlformátumok és tömörítési kodekek. Támogatott típusok: Gzip, Deflate, Bzip2 és ZipDeflate. Támogatott szintek: Optimális és Leggyorsabb. |
Nem |
Tipp.
Ha az összes fájlt át szeretné másolni egy mappában, csak a folderPath értéket adja meg.
Ha egyetlen fájlt szeretne másolni egy megadott névvel, adja meg a folderPath mappát, a fájlnév pedig a mapparészt.
Ha egy mappa alá szeretné másolni a fájlok egy részhalmazát, adja meg a folderPath mapparészt és a fileName fájlt helyettesítő karakter szűrővel.
Példa:
{
"name": "HDFSDataset",
"properties": {
"type": "FileShare",
"linkedServiceName":{
"referenceName": "<HDFS linked service name>",
"type": "LinkedServiceReference"
},
"typeProperties": {
"folderPath": "folder/subfolder/",
"fileName": "*",
"modifiedDatetimeStart": "2018-12-01T05:00:00Z",
"modifiedDatetimeEnd": "2018-12-01T06:00:00Z",
"format": {
"type": "TextFormat",
"columnDelimiter": ",",
"rowDelimiter": "\n"
},
"compression": {
"type": "GZip",
"level": "Optimal"
}
}
}
}
Örökölt Copy tevékenység forrásmodell
Tulajdonság | Leírás | Kötelező |
---|---|---|
típus | A Copy tevékenység forrás típustulajdonságának HdfsSource értékre kell állítania. | Igen |
rekurzív | Azt jelzi, hogy az adatok rekurzív módon vannak-e beolvasva az almappákból vagy csak a megadott mappából. Ha a rekurzív érték igaz, és a fogadó fájlalapú tároló, a rendszer nem másol vagy hoz létre üres mappát vagy almappát a fogadóban. Az engedélyezett értékek értéke igaz (alapértelmezett) és hamis. |
Nem |
distcpSettings | A HDFS DistCp használatakor használt tulajdonságcsoport. | Nem |
resourceManagerEndpoint | A YARN Resource Manager végpontja | Igen, ha a DistCp-t használja |
tempScriptPath | A temp DistCp parancsszkript tárolására használt mappa elérési útja. A szkriptfájl létre lesz hozva, és a másolási feladat befejezése után el lesz távolítva. | Igen, ha a DistCp-t használja |
distcpOptions | A DistCp parancs további lehetőségeket is biztosít. | Nem |
maxConcurrentConnections | Az adattárhoz a tevékenység futtatása során létrehozott egyidejű kapcsolatok felső korlátja. Csak akkor adjon meg értéket, ha korlátozni szeretné az egyidejű kapcsolatokat. | Nem |
Példa: HDFS-forrás Copy tevékenység a DistCp használatával
"source": {
"type": "HdfsSource",
"distcpSettings": {
"resourceManagerEndpoint": "resourcemanagerendpoint:8088",
"tempScriptPath": "/usr/hadoop/tempscript",
"distcpOptions": "-m 100"
}
}
Kapcsolódó tartalom
A Copy tevékenység által forrásként és fogadóként támogatott adattárak listáját a támogatott adattárakban találja.