Automatikus betöltő beállításai

Cikk
06/14/2024

A forrásra cloudFiles vonatkozó konfigurációs beállítások előtaggal cloudFiles vannak elosztva, hogy a többi strukturált streamelési forrástól eltérő névtérben legyenek.

Az automatikus betöltő gyakori beállításai
Címtárlista beállításai
Fájlértesítési beállítások
Fájlformátum beállításai
Felhőspecifikus beállítások

Az automatikus betöltő gyakori beállításai

A címtárak listájának vagy a fájlértesítési módnak a következő beállításait konfigurálhatja.

Lehetőség
`cloudFiles.allowOverwrites` Típus: `Boolean` Engedélyezi-e, hogy a bemeneti könyvtár fájlmódosításai felülírják a meglévő adatokat. A konfiguráció engedélyezésével kapcsolatban van néhány kikötés. A részletekért tekintse meg az Automatikus betöltő gyakori kérdéseket . Alapértelmezett érték: `false`
`cloudFiles.backfillInterval` Típus: `Interval String` Az automatikus betöltő képes aszinkron visszatöltéseket aktiválni egy adott időközönként, például `1 day` naponta egyszer kell újratöltenie, vagy `1 week` hetente egyszer kell újratöltenie. A fájlesemény-értesítési rendszerek nem garantálják az összes feltöltött fájl 100%-os kézbesítését, ezért a háttérkitöltések használatával garantálhatja, hogy az összes fájl végül feldolgozva legyen, elérhető a Databricks Runtime 8.4-ben (nem támogatott) és újabb verziókban. Alapértelmezett érték: Nincs
`cloudFiles.format` Típus: `String` Az adatfájl formátuma a forrásútvonalon. Az engedélyezett értékek a következők: * `avro`: Avro-fájl * `binaryFile`: Bináris fájl * `csv`: CSV-fájlok olvasása * `json`: JSON-fájl * `orc`: ORC-fájl * `parquet`: Parquet-fájlok olvasása az Azure Databricks használatával * `text`: Szövegfájl Alapértelmezett érték: Nincs (kötelező beállítás)
`cloudFiles.includeExistingFiles` Típus: `Boolean` Akár meglévő fájlokat szeretne felvenni a streamfeldolgozási bemeneti útvonalba, akár csak a kezdeti beállítás után érkező új fájlok feldolgozását. Ezt a beállítást csak akkor értékeli ki a rendszer, ha először indít el streamet. A beállítás módosítása a stream újraindítása után nincs hatással. Alapértelmezett érték: `true`
`cloudFiles.inferColumnTypes` Típus: `Boolean` Pontos oszloptípusok következtetése a sémakövetkeztetés használatakor. Alapértelmezés szerint az oszlopok sztringekként lesznek kikövetkeztetve A JSON- és CSV-adathalmazok következtetésekor. További részletekért lásd a sémakövetkeztetést . Alapértelmezett érték: `false`
`cloudFiles.maxBytesPerTrigger` Típus: `Byte String` Az összes eseményindítóban feldolgozandó új bájtok maximális száma. Megadhat egy bájtsztringet, amely `10g` az egyes mikrobatcheket 10 GB-ra korlátozza. Ez egy puha maximum. Ha egyenként 3 GB-os fájlokkal rendelkezik, az Azure Databricks 12 GB-ot dolgoz fel egy mikrobatchben. Ha együtt `cloudFiles.maxFilesPerTrigger`használják, az Azure Databricks legfeljebb az alsó korlátot `cloudFiles.maxFilesPerTrigger` használja, vagy `cloudFiles.maxBytesPerTrigger`attól függően, hogy melyiket éri el először. Ez a beállítás nincs hatással a (`Trigger.Once()`elavult) beállításra `Trigger.Once()` . Alapértelmezett érték: Nincs
`cloudFiles.maxFileAge` Típus: `Interval String` A fájlesemények nyomon követése deduplikációs célokból. A Databricks nem javasolja a paraméter finomhangolását, kivéve, ha óránként több millió fájl sorrendjében betölt adatokat. További részletekért tekintse meg az eseménymegőrzésről szóló szakaszt. A túl agresszív hangolás `cloudFiles.maxFileAge` adatminőségi problémákat, például duplikált betöltést vagy hiányzó fájlokat okozhat. Ezért a Databricks egy konzervatív beállítást `cloudFiles.maxFileAge`javasol , például 90 napig, ami hasonló ahhoz, amit az összehasonlítható adatbetöltési megoldások javasolnak. Alapértelmezett érték: Nincs
`cloudFiles.maxFilesPerTrigger` Típus: `Integer` Az összes eseményindítóban feldolgozandó új fájlok maximális száma. Ha együtt `cloudFiles.maxBytesPerTrigger`használják, az Azure Databricks legfeljebb az alsó korlátot `cloudFiles.maxFilesPerTrigger` használja, vagy `cloudFiles.maxBytesPerTrigger`attól függően, hogy melyiket éri el először. Ez a beállítás nincs hatással a (elavult) használata `Trigger.Once()` esetén. Alapértelmezett érték: 1000
`cloudFiles.partitionColumns` Típus: `String` A hive stílusú partícióoszlopok vesszővel tagolt listája, amelyet a fájlok könyvtárszerkezetéből szeretne kikövetkezve következtetni. A hive stílusú partícióoszlopok olyan kulcsérték-párok, amelyeket egyenlőségjellel kombinálnak, például `<base-path>/a=x/b=1/c=y/file.format`. Ebben a példában a partícióoszlopok a következők`a`: és`bc`. Alapértelmezés szerint ezek az oszlopok automatikusan hozzáadódnak a sémához, ha sémakövetkeztetést használ, és megadja az `<base-path>` adatok betöltéséhez szükséges adatokat. Ha sémát ad meg, az Automatikus betöltő elvárja, hogy ezek az oszlopok szerepeljenek a sémában. Ha nem szeretné, hogy ezek az oszlopok a séma részeként jelenjenek meg, megadhatja `""` , hogy figyelmen kívül hagyja ezeket az oszlopokat. Emellett akkor is használhatja ezt a lehetőséget, ha azt szeretné, hogy az oszlopok összetett címtárstruktúrákban következtethessenek a fájl elérési útjára, például az alábbi példában: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` A visszatérési `cloudFiles.partitionColumns` érték `year,month,day` megadása `year=2022`for `file1.csv`, de az és `day` az `month` oszlopok lesznek`null`. `month` és `day` megfelelően lesz elemezve és `file2.csv` `file3.csv`. Alapértelmezett érték: Nincs
`cloudFiles.schemaEvolutionMode` Típus: `String` A séma új oszlopokként történő fejlesztési módjának felderítése az adatokban. Alapértelmezés szerint az oszlopok sztringekként lesznek kikövetkeztetve JSON-adathalmazok következtetésekor. További részletekért tekintse meg a sémafejlődést . Alapértelmezett érték: `"addNewColumns"` ha nincs megadva séma. `"none"` egyébként.
`cloudFiles.schemaHints` Típus: `String` Az automatikus betöltőnek a sémakövetkező során megadott sémainformációk. További részletekért tekintse meg a sématippeket . Alapértelmezett érték: Nincs
`cloudFiles.schemaLocation` Típus: `String` A következtetett séma és az azt követő módosítások tárolásának helye. További részletekért lásd a sémakövetkeztetést . Alapértelmezett érték: Nincs (a séma következtetéséhez kötelező)
`cloudFiles.useStrictGlobber` Típus: `Boolean` Szigorú globber használata, amely megfelel az Apache Spark más fájlforrásainak alapértelmezett globbing viselkedésének. További részletekért lásd a gyakori adatbetöltési mintákat . A Databricks Runtime 12.2 LTS-ben és újabb verziókban érhető el. Alapértelmezett érték: `false`
`cloudFiles.validateOptions` Típus: `Boolean` Ellenőrizze az automatikus betöltő beállításait, és adja vissza az ismeretlen vagy inkonzisztens beállításokat. Alapértelmezett érték: `true`

Címtárlista beállításai

A címtár-lista mód szempontjából az alábbi lehetőségek relevánsak.

Lehetőség

Lehetőség
`cloudFiles.useIncrementalListing` (elavult) Típus: `String` Ez a funkció már elavult. A Databricks a fájlértesítési mód használatát javasolja ahelyett, hogy `cloudFiles.useIncrementalListing`. A címtárlista módban a teljes listaelem helyett a növekményes listaelem használata. Az Automatikus betöltő alapértelmezés szerint mindent megtesz annak érdekében, hogy automatikusan észlelje, hogy egy adott könyvtár alkalmazható-e a növekményes listaelemre. Explicit módon használhatja a növekményes listát, vagy használhatja a teljes könyvtárlistát úgy, hogy azt vagy annak megfelelően `true` `false` állítja be. Ha helytelenül engedélyezi a növekményes listaelemeket egy nem lexikálisan rendezett könyvtárban, az megakadályozza, hogy az automatikus betöltő új fájlokat derítsen fel. Az Azure Data Lake Storage Gen2 (`abfss://`), S3 (`s3://`) és GCS (`gs://`) használatával működik. A Databricks Runtime 9.1 LTS-ben és újabb verziókban érhető el. Alapértelmezett érték: `auto` Elérhető értékek: `auto`, , `truefalse`

cloudFiles.useIncrementalListing (elavult)

Típus: String

Ez a funkció már elavult. A Databricks a fájlértesítési mód használatát javasolja ahelyett, hogy
cloudFiles.useIncrementalListing.

A címtárlista módban a teljes listaelem helyett a növekményes listaelem használata. Az Automatikus betöltő alapértelmezés szerint mindent megtesz annak érdekében, hogy automatikusan észlelje, hogy egy adott könyvtár alkalmazható-e a növekményes listaelemre. Explicit módon használhatja a növekményes listát, vagy használhatja a teljes könyvtárlistát úgy, hogy azt vagy annak megfelelően true false állítja be.

Ha helytelenül engedélyezi a növekményes listaelemeket egy nem lexikálisan rendezett könyvtárban, az megakadályozza, hogy az automatikus betöltő új fájlokat derítsen fel.

Az Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) és GCS (gs://) használatával működik.

A Databricks Runtime 9.1 LTS-ben és újabb verziókban érhető el.

Alapértelmezett érték: auto

Elérhető értékek: auto, , truefalse

Fájlértesítési beállítások

A következő beállítások a fájlértesítési mód szempontjából relevánsak.

Lehetőség
`cloudFiles.fetchParallelism` Típus: `Integer` Az üzenetsor-kezelő szolgáltatásból érkező üzenetek lekéréséhez használandó szálak száma. Alapértelmezett érték: 1
`cloudFiles.pathRewrites` Típus: JSON-sztring Csak akkor szükséges, ha olyan fájlt ad meg `queueUrl` , amely több S3-gyűjtőtől fogad fájlértesítéseket, és az ezekben a tárolókban lévő adatok eléréséhez konfigurált csatlakoztatási pontokat szeretné használni. Ezzel a beállítással újraírhatja az elérési út előtagját `bucket/key` a csatlakoztatási ponttal. Csak az előtagok írhatók újra. Például a konfigurációhoz `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`, az elérési út `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json`a újra van írva.`dbfs:/mnt/data-warehouse/2017/08/fileA.json` Alapértelmezett érték: Nincs
`cloudFiles.resourceTag` Típus: `Map(String, String)` Kulcs-érték címkepárok sorozata a kapcsolódó erőforrások társításához és azonosításához, például: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Az AWS-sel kapcsolatos további információkért tekintse meg az Amazon SQS költséglefoglalási címkéit és az Amazon SNS-témakörök címkéinek konfigurálását. (1) Az Azure-ról további információt az üzenetsorok és metaadatok elnevezése, valamint az esemény-előfizetések lefedettsége `properties.labels` című témakörben talál. Az Automatikus betöltő címkékként tárolja ezeket a kulcs-érték címke párokat JSON-ban. (1) A GCP-vel kapcsolatos további információkért lásd : Jelentéskészítési használat címkékkel. (1) Alapértelmezett érték: Nincs
`cloudFiles.useNotifications` Típus: `Boolean` Azt határozza meg, hogy a fájlértesítési mód használatával állapítsa meg, hogy vannak-e új fájlok. Ha `false`, használja a címtár listamódot. Tekintse meg az automatikus betöltő működését. Alapértelmezett érték: `false`

(1) Az Automatikus betöltő alapértelmezés szerint a következő kulcs-érték címkepárokat adja hozzá a legjobb munkamennyiség alapján:

vendor: Databricks
path: Az adatok betöltésének helye. Címkézési korlátozások miatt nem érhető el a GCP-ben.
checkpointLocation: A stream ellenőrzőpontjának helye. Címkézési korlátozások miatt nem érhető el a GCP-ben.
streamId: A stream globálisan egyedi azonosítója.

Ezek a kulcsnevek fenntartottak, és nem írhatók felül az értékükön.

Fájlformátum beállításai

Az Automatikus betöltővel betöltheti JSONa , , CSV, PARQUET, AVRO, TEXT, BINARYFILE, és ORC fájlokat.

Általános beállítások
JSON beállítások
CSV beállítások
XML beállítások
PARQUET beállítások
AVRO beállítások
BINARYFILE beállítások
TEXT beállítások
ORC beállítások

Általános beállítások

Az alábbi beállítások az összes fájlformátumra vonatkoznak.

Lehetőség
`ignoreCorruptFiles` Típus: `Boolean` A sérült fájlok figyelmen kívül hagyása. Ha igaz, a Spark-feladatok továbbra is futnak, amikor sérült fájlokba ütköznek, és az olvasott tartalom továbbra is vissza lesz adva. Megfigyelhető, mint `numSkippedCorruptFiles` a `operationMetrics` a Delta Lake-előzmények oszlopában. A Databricks Runtime 11.3 LTS-ben és újabb verziókban érhető el. Alapértelmezett érték: `false`
`ignoreMissingFiles` Típus: `Boolean` A hiányzó fájlok figyelmen kívül hagyása. Ha igaz, a Spark-feladatok továbbra is futnak, amikor hiányzó fájlokkal találkoznak, és az olvasott tartalom továbbra is vissza lesz adva. A Databricks Runtime 11.3 LTS-ben és újabb verziókban érhető el. Alapértelmezett érték: `false` (`true` for `COPY INTO`)
`modifiedAfter` Típus: `Timestamp String`például: `2021-01-01 00:00:00.000000 UTC+0` Nem kötelező időbélyeg a megadott időbélyeg után módosítási időbélyeget tartalmazó fájlok betöltéséhez. Alapértelmezett érték: Nincs
`modifiedBefore` Típus: `Timestamp String`például: `2021-01-01 00:00:00.000000 UTC+0` Nem kötelező időbélyeg a megadott időbélyeg előtt módosítási időbélyeget tartalmazó fájlok betöltéséhez. Alapértelmezett érték: Nincs
`pathGlobFilter` vagy `fileNamePattern` Típus: `String` Egy lehetséges glob minta, amely lehetővé teszik a fájlok kiválasztását. Egyenértékű a `PATTERN` in `COPY INTO`. `fileNamePattern` használható a következőben `read_files`: . Alapértelmezett érték: Nincs
`recursiveFileLookup` Típus: `Boolean` Azt határozza meg, hogy kihagyja-e a partíciókövető következtetést a séma következtetése során. Ez nem befolyásolja, hogy mely fájlok legyenek betöltve. Alapértelmezett érték: `false`

`JSON` beállítások

Lehetőség
`allowBackslashEscapingAnyCharacter` Típus: `Boolean` Hogy engedélyezi-e a fordított perjeleket, hogy elkerüljenek minden karaktert, amely sikerrel jár. Ha nincs engedélyezve, csak a JSON-specifikációban kifejezetten felsorolt karaktereket lehet feloldani. Alapértelmezett érték: `false`
`allowComments` Típus: `Boolean` Engedélyezve van-e a Java, a C és a C++ stílusú megjegyzések (`'/'`és `'*''//'` fajták) használata az elemzett tartalomban, vagy sem. Alapértelmezett érték: `false`
`allowNonNumericNumbers` Típus: `Boolean` Engedélyezi-e a nem szám (`NaN`) jogkivonatok halmazát jogi lebegőszámértékekként. Alapértelmezett érték: `true`
`allowNumericLeadingZeros` Típus: `Boolean` Annak engedélyezése, hogy az integrál számok további (figyelmen kívül hagyható) nullákkal kezdődjenek (például `000001`). Alapértelmezett érték: `false`
`allowSingleQuotes` Típus: `Boolean` Engedélyezi-e az idézőjelek (aposztróf, karakter `'\'`) használatát sztringek (nevek és sztringértékek) idézéséhez. Alapértelmezett érték: `true`
`allowUnquotedControlChars` Típus: `Boolean` Engedélyezi-e, hogy a JSON-sztringek használhatatlan vezérlőelem-karaktereket (32-nél kisebb értékű ASCII-karaktereket, beleértve a tabulátor- és vonalcsatorna-karaktereket) tartalmazzanak-e, vagy sem. Alapértelmezett érték: `false`
`allowUnquotedFieldNames` Típus: `Boolean` Engedélyezi-e a nem kvótált mezőnevek használatát (amelyeket a JavaScript engedélyez, de a JSON-specifikáció nem). Alapértelmezett érték: `false`
`badRecordsPath` Típus: `String` A rossz JSON-rekordok adatainak rögzítésére szolgáló fájlok tárolásának elérési útja. Alapértelmezett érték: Nincs
`columnNameOfCorruptRecord` Típus: `String` A hibásan formázott és nem elemezhető rekordok tárolására szolgáló oszlop. Ha az `mode` elemzéshez be van állítva `DROPMALFORMED`az oszlop, ez az oszlop üres lesz. Alapértelmezett érték: `_corrupt_record`
`dateFormat` Típus: `String` Dátumsztringek elemzésének formátuma. Alapértelmezett érték: `yyyy-MM-dd`
`dropFieldIfAllNull` Típus: `Boolean` Figyelmen kívül hagyja-e az összes null értékű oszlopot, vagy üres tömböt és szerkezetet a sémakövetőség során. Alapértelmezett érték: `false`
`encoding` vagy `charset` Típus: `String` A JSON-fájlok kódolásának neve. A lehetőségek listáját itt találja `java.nio.charset.Charset` . Nem használható `UTF-16` és `UTF-32` mikor `multiline` van `true`. Alapértelmezett érték: `UTF-8`
`inferTimestamp` Típus: `Boolean` Az időbélyeg-sztringek kipróbálása és következtetése `TimestampType`. Ha be van állítva `true`, a sémakövetkeztetés jelentősen tovább tarthat. Engedélyeznie `cloudFiles.inferColumnTypes` kell az automatikus betöltő használatát. Alapértelmezett érték: `false`
`lineSep` Típus: `String` Két egymást követő JSON-rekord közötti sztring. Alapértelmezett érték: Nincs, amely a `\r\r\n\n`
`locale` Típus: `String` Azonosító `java.util.Locale` . Befolyásolja az alapértelmezett dátumot, időbélyeget és decimális elemzést a JSON-ban. Alapértelmezett érték: `US`
`mode` Típus: `String` Elemzési mód a hibásan formázott rekordok kezelése körül. Az egyik,`'PERMISSIVE'` `'DROPMALFORMED''FAILFAST'`vagy . Alapértelmezett érték: `PERMISSIVE`
`multiLine` Típus: `Boolean` Azt jelzi, hogy a JSON-rekordok több sorra is kiterjednek-e. Alapértelmezett érték: `false`
`prefersDecimal` Típus: `Boolean` Ha lehetséges, sztringeket próbál kikövetkeztetni `DecimalType` lebegőpontos vagy kettős típus helyett. Sémakövetkeztetést is használnia kell a `inferSchema` vagy az Automatikus betöltő használatával `cloudFiles.inferColumnTypes` . Alapértelmezett érték: `false`
`primitivesAsString` Típus: `Boolean` Az olyan primitív típusok, mint a számok és a logikai értékek következtetése `StringType`. Alapértelmezett érték: `false`
`readerCaseSensitive` Típus: `Boolean` A kis- és nagybetűk bizalmassági viselkedését adja meg, ha `rescuedDataColumn` engedélyezve van. Ha igaz, mentse azokat az adatoszlopokat, amelyeknek a neve esetenként eltér a sémától; ellenkező esetben a kis- és nagybetűket nem érzékelyítő módon olvassa be. Elérhető a Databricks Runtime-ban 13.3 és újabb. Alapértelmezett érték: `true`
`rescuedDataColumn` Típus: `String` Az adattípus-eltérés vagy a sémaeltérés (beleértve az oszlopházat is) miatt nem elemezhető összes adat összegyűjtése egy külön oszlopra. Ez az oszlop alapértelmezés szerint az Automatikus betöltő használata esetén jelenik meg. További részletekért lásd : Mi a mentett adatoszlop?. Alapértelmezett érték: Nincs
`timestampFormat` Típus: `String` Az időbélyeg-sztringek elemzésének formátuma. Alapértelmezett érték: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Típus: `String` Az `java.time.ZoneId` időbélyegek és dátumok elemzésekor használandó. Alapértelmezett érték: Nincs

`CSV` beállítások

Lehetőség
`badRecordsPath` Típus: `String` A rossz CSV-rekordok adatainak rögzítésére szolgáló fájlok tárolásának elérési útja. Alapértelmezett érték: Nincs
`charToEscapeQuoteEscaping` Típus: `Char` Az idézőjelek elől menekülő karakter. Például a következő rekordhoz: `[ " a\\", b ]` * Ha a feloldandó `'\'` karakter nincs meghatározva, a rekord nem lesz elemezve. Az elemző felolvassa a karaktereket, `[a],[\],["],[,],[ ],[b]` és hibát jelez, mert nem talál záró idézőjelet. * Ha a feloldandó karakter a `'\'` következőképpen van definiálva `'\'`, a rekord 2 értékkel lesz beolvasva: `[a\]` és `[b]`. Alapértelmezett érték: `'\0'`
`columnNameOfCorruptRecord` > [! MEGJEGYZÉS] >> Az automatikus betöltő támogatott. Nem támogatott.`COPY INTO` Típus: `String` A hibásan formázott és nem elemezhető rekordok tárolására szolgáló oszlop. Ha az `mode` elemzéshez be van állítva `DROPMALFORMED`az oszlop, ez az oszlop üres lesz. Alapértelmezett érték: `_corrupt_record`
`comment` Típus: `Char` Meghatározza azt a karaktert, amely egy sor megjegyzését jelöli, amikor egy szövegsor elején található. A megjegyzés kihagyásának letiltására használható `'\0'` . Alapértelmezett érték: `'\u0000'`
`dateFormat` Típus: `String` Dátumsztringek elemzésének formátuma. Alapértelmezett érték: `yyyy-MM-dd`
`emptyValue` Típus: `String` Üres érték sztring-ábrázolása. Alapértelmezett érték: `""`
`encoding` vagy `charset` Típus: `String` A CSV-fájlok kódolásának neve. Tekintse meg `java.nio.charset.Charset` a lehetőségek listáját. `UTF-16` és `UTF-32` nem használható, ha `multiline` van `true`. Alapértelmezett érték: `UTF-8`
`enforceSchema` Típus: `Boolean` Azt határozza meg, hogy a megadott vagy a következtetett sémát kényszerítve alkalmazza-e a CSV-fájlokra. Ha a beállítás engedélyezve van, a CSV-fájlok fejlécei figyelmen kívül lesznek hagyva. Ez a beállítás alapértelmezés szerint figyelmen kívül lesz hagyva az adatok mentésére és a sémafejlődés engedélyezésére használt Automatikus betöltő használatakor. Alapértelmezett érték: `true`
`escape` Típus: `Char` Az adatok elemzésekor használandó escape karakter. Alapértelmezett érték: `'\'`
`header` Típus: `Boolean` Hogy a CSV-fájlok tartalmaznak-e fejlécet. Az automatikus betöltő feltételezi, hogy a fájlok fejlécekkel rendelkeznek a séma következtetésekor. Alapértelmezett érték: `false`
`ignoreLeadingWhiteSpace` Típus: `Boolean` Azt határozza meg, hogy figyelmen kívül hagyja-e az egyes elemzési értékek kezdő szóközeit. Alapértelmezett érték: `false`
`ignoreTrailingWhiteSpace` Típus: `Boolean` Azt határozza meg, hogy figyelmen kívül hagyja-e az egyes elemzési értékek záró szóközeit. Alapértelmezett érték: `false`
`inferSchema` Típus: `Boolean` Az elemezt CSV-rekordok adattípusainak következtetése vagy annak feltételezése, hogy az összes oszlop az `StringType`. Ha be van állítva `true`, további továbbítást igényel az adatok felett. Az Automatikus betöltőhöz használja `cloudFiles.inferColumnTypes` helyette. Alapértelmezett érték: `false`
`lineSep` Típus: `String` Két egymást követő CSV-rekord közötti sztring. Alapértelmezett érték: Nincs, amely a `\r\r\n\n`
`locale` Típus: `String` Azonosító `java.util.Locale` . Befolyásolja az alapértelmezett dátumot, időbélyeget és decimális elemzést a CSV-ben. Alapértelmezett érték: `US`
`maxCharsPerColumn` Típus: `Int` Az értéktől az elemzésig várt karakterek maximális száma. A memóriahibák elkerülése érdekében használható. Alapértelmezett érték, `-1`ami azt jelenti, hogy korlátlan. Alapértelmezett érték: `-1`
`maxColumns` Típus: `Int` Az a korlát, hogy egy rekord hány oszlopot tartalmazhat. Alapértelmezett érték: `20480`
`mergeSchema` Típus: `Boolean` Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját. Alapértelmezés szerint engedélyezve van az Automatikus betöltőhöz a séma következtetésekor. Alapértelmezett érték: `false`
`mode` Típus: `String` Elemzési mód a hibásan formázott rekordok kezelése körül. Az egyik,`'PERMISSIVE'` `'DROPMALFORMED''FAILFAST'`és . Alapértelmezett érték: `PERMISSIVE`
`multiLine` Típus: `Boolean` Azt jelzi, hogy a CSV-rekordok több sorra is kiterjednek-e. Alapértelmezett érték: `false`
`nanValue` Típus: `String` Nem számérték karakterlánc-ábrázolása `FloatType` elemzéskor és `DoubleType` oszlopokban. Alapértelmezett érték: `"NaN"`
`negativeInf` Típus: `String` A negatív végtelen sztring-ábrázolása elemzéskor `FloatType` vagy `DoubleType` oszlopokban. Alapértelmezett érték: `"-Inf"`
`nullValue` Típus: `String` Null érték sztring-ábrázolása. Alapértelmezett érték: `""`
`parserCaseSensitive` (elavult) Típus: `Boolean` Fájlok olvasása közben a fejlécben deklarált oszlopokat bizalmasan kell-e igazítani a séma-kis- és nagybetűkhöz. Ez alapértelmezés szerint az `true` Automatikus betöltő esetében van. Az egyes esetekben eltérő oszlopokat a rendszer az `rescuedDataColumn` engedélyezve lévő helyen menti. Ez a beállítás elavult a következő javára `readerCaseSensitive`: . Alapértelmezett érték: `false`
`positiveInf` Típus: `String` A pozitív végtelen sztring-ábrázolása elemzéskor `FloatType` vagy `DoubleType` oszlopokban. Alapértelmezett érték: `"Inf"`
`preferDate` Típus: `Boolean` A sztringeket időbélyeg helyett dátumként próbálja meg kikövetkelni, ha lehetséges. Sémakövetkeztetést is kell használnia, akár engedélyezéssel `inferSchema` , akár `cloudFiles.inferColumnTypes` automatikus betöltővel. Alapértelmezett érték: `true`
`quote` Típus: `Char` Az olyan értékekre való meneküléshez használt karakter, ahol a mezőelválasztó az érték része. Alapértelmezett érték: `"`
`readerCaseSensitive` Típus: `Boolean` A kis- és nagybetűk bizalmassági viselkedését adja meg, ha `rescuedDataColumn` engedélyezve van. Ha igaz, mentse azokat az adatoszlopokat, amelyeknek a neve esetenként eltér a sémától; ellenkező esetben a kis- és nagybetűket nem érzékelyítő módon olvassa be. Alapértelmezett érték: `true`
`rescuedDataColumn` Típus: `String` Hogy összegyűjtse-e az összes olyan adatot, amely nem elemezhető a következő miatt: adattípus-eltérés, és sémaeltérés (beleértve az oszlopházat is) egy külön oszlopra. Ez az oszlop alapértelmezés szerint az Automatikus betöltő használata esetén jelenik meg. További részletekért lásd: Mi a mentett adatoszlop?. Alapértelmezett érték: Nincs
`sep` vagy `delimiter` Típus: `String` Az elválasztó sztring oszlopok között. Alapértelmezett érték: `","`
`skipRows` Típus: `Int` A CSV-fájl elejéről figyelmen kívül hagyandó sorok száma (beleértve a megjegyzésben szereplő és az üres sorokat is). Ha `header` igaz, akkor a fejléc lesz az első leválasztott és nem kijelölt sor. Alapértelmezett érték: `0`
`timestampFormat` Típus: `String` Az időbélyeg-sztringek elemzésének formátuma. Alapértelmezett érték: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Típus: `String` Az `java.time.ZoneId` időbélyegek és dátumok elemzésekor használandó. Alapértelmezett érték: Nincs
`unescapedQuoteHandling` Típus: `String` A lezáratlan idézőjelek kezelésének stratégiája. Engedélyezett beállítások: * `STOP_AT_CLOSING_QUOTE`: Ha a bemenetben nem definiált idézőjelek találhatók, halmozza fel az idézőjelet, és folytassa az érték idézőjelként való elemzését, amíg meg nem talál egy záró idézőjelet. * `BACK_TO_DELIMITER`: Ha nem beágyazott idézőjelek találhatók a bemenetben, vegye figyelembe az értéket nem kvótált értékként. Így az elemző összegyűjti az aktuális elemzési érték összes karakterét, amíg meg nem találja az általa `sep` definiált elválasztó karaktert. Ha az érték nem tartalmaz elválasztójelet, az elemző a karaktereket addig halmozza a bemenetből, amíg elválasztó vagy vonalvégződés nem található. * `STOP_AT_DELIMITER`: Ha nem beágyazott idézőjelek találhatók a bemenetben, vegye figyelembe az értéket nem kvótált értékként. Ezzel az elemző összes karaktert halmoz fel, amíg a megadott elválasztó `sep`karakter vagy egy sorvégződés nem található a bemenetben. * `SKIP_VALUE`: Ha nem beágyazott idézőjelek találhatók a bemenetben, a program kihagyja az adott értékhez elemezett tartalmat (amíg a következő elválasztó nem található), és a beírt `nullValue` érték jön létre helyette. * `RAISE_ERROR`: Ha a bemenetben nem beágyazott idézőjelek találhatók, a `TextParsingException` lesz dobva. Alapértelmezett érték: `STOP_AT_DELIMITER`

`XML` beállítások

Lehetőség	Leírás	Hatókör
`rowTag`	A sorként kezelendő XML-fájlok sorcímkéje. A példa XML-fájljában `<books> <book><book>...<books>`a megfelelő érték a következő `book`. Ez egy kötelező beállítás.	olvasás
`samplingRatio`	A sémakövetkeztetéshez használt sorok töredékét határozza meg. Az XML beépített függvényei figyelmen kívül hagyják ezt a beállítást. Alapértelmezett: `1.0`.	olvasás
`excludeAttribute`	Az elemek attribútumainak kizárása. Alapértelmezett: `false`.	olvasás
`mode`	A sérült rekordok elemzés közbeni kezelésére szolgáló mód. `PERMISSIVE`: Sérült rekordok esetén a hibásan formázott sztringet egy, az által `columnNameOfCorruptRecord`konfigurált mezőbe helyezi, és a hibásan formázott mezőket a következőre `null`állítja be: . A sérült rekordok megőrzéséhez beállíthat egy `string` felhasználó által definiált sémában elnevezett `columnNameOfCorruptRecord` típusmezőt. Ha egy séma nem rendelkezik a mezővel, a rendszer az elemzés során elveti a sérült rekordokat. Séma következtetésekor az elemző implicit módon hozzáad egy mezőt egy `columnNameOfCorruptRecord` kimeneti sémához. `DROPMALFORMED`: Figyelmen kívül hagyja a sérült rekordokat. Ez a mód nem támogatott a beépített XML-függvényekhez. `FAILFAST`: Kivételt eredményez, ha az elemző sérült rekordokkal találkozik.	olvasás
`inferSchema`	Ha `true`az eredményként kapott DataFrame-oszlopokhoz megfelelő típust próbál kikövetkeztetni. Ha `false`, az összes eredményként kapott oszlop típusú `string` . Alapértelmezett: `true`. Az XML beépített függvényei figyelmen kívül hagyják ezt a beállítást.	olvasás
`columnNameOfCorruptRecord`	Lehetővé teszi az új mező átnevezését, amely egy hibásan formázott sztringet tartalmaz, amelyet `PERMISSIVE` üzemmód. Alapértelmezett: `spark.sql.columnNameOfCorruptRecord`.	olvasás
`attributePrefix`	Az attribútumok előtagja, amely megkülönbözteti az attribútumokat az elemektől. Ez lesz a mezőnevek előtagja. Az alapértelmezett szint a `_`. Az XML olvasásához üres lehet, íráshoz azonban nem.	olvasás, írás
`valueTag`	Az attribútum(ok) vagy gyermekelem(ek) elemekkel is rendelkező elemek karakteradataihoz használt címke. A felhasználó megadhatja a mezőt a `valueTag` sémában, vagy automatikusan hozzáadja azt a sémakövetkeztetés során, ha a karakteradatok más elemekkel vagy attribútumokkal rendelkező elemekben vannak jelen. Alapértelmezett: `_VALUE`	olvasás,írás
`encoding`	Olvasáshoz az XML-fájlokat a megadott kódolási típus szerint dekódolja. Íráshoz a mentett XML-fájlok kódolását (karakterkészletét) adja meg. Az XML beépített függvényei figyelmen kívül hagyják ezt a beállítást. Alapértelmezett: `UTF-8`.	olvasás, írás
`ignoreSurroundingSpaces`	Azt határozza meg, hogy a fehér szóközöket kihagyja-e az olvasott értékekből. Alapértelmezett: `true`. A rendszer figyelmen kívül hagyja a csak üres karakterek adatait.	olvasás
`rowValidationXSDPath`	Egy opcionális XSD-fájl elérési útja, amely az EGYES sorok XML-jének ellenőrzésére szolgál. A nem érvényesíthető sorok elemzési hibákként lesznek kezelve a fenti módon. Az XSD egyébként nem befolyásolja a megadott sémát, és nem következik be.	olvasás
`ignoreNamespace`	Ha `true`a névterek XML-elemeken és attribútumokon lévő előtagjai figyelmen kívül lesznek hagyva. A címkéket `<abc:author>` és `<def:author>`például a címkéket úgy kezeli a rendszer, mintha mindkettő csak `<author>`. A névterek nem hagyhatók figyelmen kívül az elemen, csak az `rowTag` olvasási gyermekein. Az XML-elemzés akkor sem névtérérzékeny, ha `false`. Alapértelmezett: `false`.	olvasás
`timestampFormat`	A datetime mintaformátumot követő egyéni időbélyeg-formátum sztringje. Ez a típusra `timestamp` vonatkozik. Alapértelmezett: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	olvasás, írás
`timestampNTZFormat`	A dátum/idő minta formátumát követő időzóna nélküli időbélyeg egyéni formázási sztringje. Ez a TimestampNTZType típusra vonatkozik. Alapértelmezett: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	olvasás, írás
`dateFormat`	A datetime mintaformátumot követő egyéni dátumformátum-sztring. Ez a dátumtípusra vonatkozik. Alapértelmezett: `yyyy-MM-dd`.	olvasás, írás
`locale`	Nyelvi címkeként állít be területi beállításokat IETF BCP 47 formátumban. Például `locale` a dátumok és időbélyegek elemzésekor használatos. Alapértelmezett: `en-US`.	olvasás
`rootTag`	Az XML-fájlok gyökércímkéje. Ebben a példában `<books> <book><book>...</books>`például a megfelelő érték az `books`. Az alapszintű attribútumokat egy olyan érték megadásával adhatja meg, mint a `books foo="bar"`. Alapértelmezett: `ROWS`.	írás
`declaration`	Az összes kimeneti XML-fájl elején írandó XML-deklaráció tartalma a `rootTag`. Például az írandó okok `<?xml foo?>` értéke`foo`. Állítson be egy üres sztringet a letiltásához. Alapértelmezett: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	írás
`arrayElementName`	Annak az XML-elemnek a neve, amely egy tömbértékű oszlop minden elemét magában foglal íráskor. Alapértelmezett: `item`.	írás
`nullValue`	Null érték sztring-ábrázolását állítja be. Alapértelmezett: sztring `null`. Ebben az esetben `null`az elemző nem ír attribútumokat és elemeket a mezőkhöz.	olvasás, írás
`compression`	Fájlba mentéskor használandó tömörítési kód. Ez lehet az egyik ismert kis- és nagybetűs rövidített név (`none`, `bzip2`, , `gzip`,`lz4` és `snappy` `deflate`). Az XML beépített függvényei figyelmen kívül hagyják ezt a beállítást. Alapértelmezett: `none`.	írás
`validateName`	Ha igaz, hibát jelez az XML-elemnév-érvényesítési hiba esetén. Az SQL-mezőneveknek például lehetnek szóközei, de az XML-elemnevek nem. Alapértelmezett: `true`.	írás
`readerCaseSensitive`	Meghatározza a kis- és nagybetűk bizalmassági viselkedését, ha a mentettDataColumn engedélyezve van. Ha igaz, mentse azokat az adatoszlopokat, amelyeknek a neve esetenként eltér a sémától; ellenkező esetben a kis- és nagybetűket nem érzékelyítő módon olvassa be. Alapértelmezett: `true`.	olvasás
`rescuedDataColumn`	Hogy összegyűjtse-e az összes olyan adatot, amelyet nem lehet elemezni az adattípus eltérése és a sémaeltérés miatt (beleértve az oszlopházat is) egy külön oszlopra. Ez az oszlop alapértelmezés szerint az Automatikus betöltő használata esetén jelenik meg. További részletekért lásd : Mi a mentett adatoszlop?. Alapértelmezett: Nincs.	olvasás

`PARQUET` beállítások

Lehetőség
`datetimeRebaseMode` Típus: `String` A JULIÁN ÉS a Prolitikus Gergely-naptárak közötti DÁTUM és IDŐBÉLYEG értékek újbóli egyeztetését szabályozza. Engedélyezett értékek: `EXCEPTION`, `LEGACY`és `CORRECTED`. Alapértelmezett érték: `LEGACY`
`int96RebaseMode` Típus: `String` Az INT96 időbélyeg értékeinek a Julian és a Proleptic Gergely-naptárak közötti újbóli egyeztetését szabályozza. Engedélyezett értékek: `EXCEPTION`, `LEGACY`és `CORRECTED`. Alapértelmezett érték: `LEGACY`
`mergeSchema` Típus: `Boolean` Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját. Alapértelmezett érték: `false`
`readerCaseSensitive` Típus: `Boolean` A kis- és nagybetűk bizalmassági viselkedését adja meg, ha `rescuedDataColumn` engedélyezve van. Ha igaz, mentse azokat az adatoszlopokat, amelyeknek a neve esetenként eltér a sémától; ellenkező esetben a kis- és nagybetűket nem érzékelyítő módon olvassa be. Alapértelmezett érték: `true`
`rescuedDataColumn` Típus: `String` Hogy összegyűjtse-e az összes olyan adatot, amely nem elemezhető a következő miatt: adattípus-eltérés, és sémaeltérés (beleértve az oszlopházat is) egy külön oszlopra. Ez az oszlop alapértelmezés szerint az Automatikus betöltő használata esetén jelenik meg. További részletekért lásd: Mi a mentett adatoszlop?. Alapértelmezett érték: Nincs

`AVRO` beállítások

Lehetőség
`avroSchema` Típus: `String` Nem kötelező séma, amelyet egy felhasználó Avro formátumban biztosít. Az Avro olvasásakor ez a beállítás beállítható egy kifejlett sémára, amely kompatibilis, de eltér a tényleges Avro-sémától. A deszerializálási séma összhangban lesz a kifejlődött sémával. Ha például egy új, alapértelmezett értékkel rendelkező oszlopot tartalmazó sémát állít be, az olvasási eredmény az új oszlopot is tartalmazza. Alapértelmezett érték: Nincs
`datetimeRebaseMode` Típus: `String` A JULIÁN ÉS a Prolitikus Gergely-naptárak közötti DÁTUM és IDŐBÉLYEG értékek újbóli egyeztetését szabályozza. Engedélyezett értékek: `EXCEPTION`, `LEGACY`és `CORRECTED`. Alapértelmezett érték: `LEGACY`
`mergeSchema` Típus: `Boolean` Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját. `mergeSchema` az Avro nem lazítja az adattípusokat. Alapértelmezett érték: `false`
`readerCaseSensitive` Típus: `Boolean` A kis- és nagybetűk bizalmassági viselkedését adja meg, ha `rescuedDataColumn` engedélyezve van. Ha igaz, mentse azokat az adatoszlopokat, amelyeknek a neve esetenként eltér a sémától; ellenkező esetben a kis- és nagybetűket nem érzékelyítő módon olvassa be. Alapértelmezett érték: `true`
`rescuedDataColumn` Típus: `String` Hogy összegyűjtse-e az összes olyan adatot, amely nem elemezhető a következő miatt: adattípus-eltérés, és sémaeltérés (beleértve az oszlopházat is) egy külön oszlopra. Ez az oszlop alapértelmezés szerint az Automatikus betöltő használata esetén jelenik meg. További részletekért lásd: Mi a mentett adatoszlop?. Alapértelmezett érték: Nincs

`BINARYFILE` beállítások

A bináris fájlok nem rendelkeznek további konfigurációs lehetőségekkel.

`TEXT` beállítások

Lehetőség
`encoding` Típus: `String` A SZÖVEGfájlok kódolásának neve. A lehetőségek listáját itt találja `java.nio.charset.Charset` . Alapértelmezett érték: `UTF-8`
`lineSep` Típus: `String` Két egymást követő SZÖVEG rekord közötti sztring. Alapértelmezett érték: Nincs, amely a `\r\r\n\n`
`wholeText` Típus: `Boolean` Egy fájl beolvasása egyetlen rekordként. Alapértelmezett érték: `false`

`ORC` beállítások

Lehetőség
`mergeSchema` Típus: `Boolean` Azt határozza meg, hogy a sémát több fájlra kívánja-e következtetni, és hogy egyesítse-e az egyes fájlok sémáját. Alapértelmezett érték: `false`

Felhőspecifikus beállítások

Az Automatikus betöltő számos lehetőséget kínál a felhőinfrastruktúra konfigurálására.

AWS-specifikus beállítások
Azure-specifikus lehetőségek
Google-specifikus beállítások

AWS-specifikus beállítások

Csak akkor adja meg a következő lehetőséget, ha ön választja cloudFiles.useNotifications = true , és azt szeretné, hogy az Automatikus betöltő állítsa be az értesítési szolgáltatásokat:

Lehetőség
`cloudFiles.region` Típus: `String` Az a régió, ahol a forrás S3 gyűjtő található, és ahol az AWS SNS és az SQS-szolgáltatások létrejönnek. Alapértelmezett érték: Az EC2-példány régiója.

Csak akkor adja meg a következő lehetőséget, ha úgy dönt cloudFiles.useNotifications = true , és azt szeretné, hogy az Automatikus betöltő egy már beállított üzenetsort használjon:

Lehetőség
`cloudFiles.queueUrl` Típus: `String` Az SQS-üzenetsor URL-címe. Ha meg van adva, az Automatikus betöltő közvetlenül ebből az üzenetsorból használja fel az eseményeket ahelyett, hogy saját AWS SNS- és SQS-szolgáltatásokat állít be. Alapértelmezett érték: Nincs

Az alábbi beállításokkal hitelesítő adatokat adhat meg az AWS SNS-hez és az SQS-hez való hozzáféréshez, ha az IAM-szerepkörök nem érhetők el, vagy amikor különböző felhőkből tölt be adatokat.

Lehetőség
`cloudFiles.awsAccessKey` Típus: `String` A felhasználó AWS hozzáférési kulcsazonosítója. Meg kell adni a `cloudFiles.awsSecretKey`. Alapértelmezett érték: Nincs
`cloudFiles.awsSecretKey` Típus: `String` A felhasználó AWS titkos hozzáférési kulcsa. Meg kell adni a `cloudFiles.awsAccessKey`. Alapértelmezett érték: Nincs
`cloudFiles.roleArn` Típus: `String` Az IAM-szerepkör ARN-jének feltételezése. A szerepkör feltételezhető a fürt példányprofiljából, vagy hitelesítő adatok megadásával `cloudFiles.awsAccessKey` és `cloudFiles.awsSecretKey`. Alapértelmezett érték: Nincs
`cloudFiles.roleExternalId` Típus: `String` A szerepkör `cloudFiles.roleArn`használata közben megadható azonosító. Alapértelmezett érték: Nincs
`cloudFiles.roleSessionName` Típus: `String` Nem kötelező munkamenetnév a szerepkör használata közben `cloudFiles.roleArn`. Alapértelmezett érték: Nincs
`cloudFiles.stsEndpoint` Típus: `String` Választható végpont, amely az AWS STS-hez való hozzáférést biztosítja, ha szerepkört használ `cloudFiles.roleArn`. Alapértelmezett érték: Nincs

Azure-specifikus lehetőségek

Ha megadja az alábbi beállításokat cloudFiles.useNotifications = true , és azt szeretné, hogy az Automatikus betöltő állítsa be az értesítési szolgáltatásokat önnek:

Lehetőség
`cloudFiles.clientId` Típus: `String` A szolgáltatásnév ügyfél-azonosítója vagy alkalmazásazonosítója. Alapértelmezett érték: Nincs
`cloudFiles.clientSecret` Típus: `String` A szolgáltatásnév ügyféltitkára. Alapértelmezett érték: Nincs
`cloudFiles.connectionString` Típus: `String` A tárfiók kapcsolati sztring a fiók hozzáférési kulcsa vagy a közös hozzáférésű jogosultságkód (SAS) alapján. Alapértelmezett érték: Nincs
`cloudFiles.resourceGroup` Típus: `String` Az Azure-erőforráscsoport, amely alatt a tárfiók létrejön. Alapértelmezett érték: Nincs
`cloudFiles.subscriptionId` Típus: `String` Az Azure-előfizetés azonosítója, amely alatt az erőforráscsoport létrejön. Alapértelmezett érték: Nincs
`cloudFiles.tenantId` Típus: `String` Az Azure-bérlő azonosítója, amely alatt a szolgáltatásnév létrejön. Alapértelmezett érték: Nincs

Fontos

Az automatikus értesítés-beállítás az Azure China és a Government régióban érhető el a Databricks Runtime 9.1-es és újabb verziójával. A régebbi DBR-verziók esetében meg kell adnia egy queueName automatikus betöltőt, amely fájlértesítéseket jelenít meg ezekben a régiókban.

Csak akkor adja meg a következő lehetőséget, ha úgy dönt cloudFiles.useNotifications = true , és azt szeretné, hogy az Automatikus betöltő egy már beállított üzenetsort használjon:

Lehetőség

Lehetőség
`cloudFiles.queueName` Típus: `String` Az Azure-üzenetsor neve. Ha meg van adva, a felhőfájlok forrása közvetlenül ebből az üzenetsorból használja fel az eseményeket ahelyett, hogy saját Azure Event Grid- és Queue Storage-szolgáltatásokat állít be. Ebben az esetben csak `cloudFiles.connectionString` olvasási engedélyekre van szüksége az üzenetsoron. Alapértelmezett érték: Nincs

cloudFiles.queueName

Típus: String

Az Azure-üzenetsor neve. Ha meg van adva, a felhőfájlok forrása közvetlenül ebből az üzenetsorból használja fel az eseményeket ahelyett, hogy saját Azure Event Grid- és Queue Storage-szolgáltatásokat állít be. Ebben az esetben csak cloudFiles.connectionString olvasási engedélyekre van szüksége az üzenetsoron.

Alapértelmezett érték: Nincs

Google-specifikus beállítások

Az Automatikus betöltő automatikusan beállíthatja az értesítési szolgáltatásokat a Google Szolgáltatásfiókok használatával. A Google szolgáltatásbeállításait követve konfigurálhatja a fürtöt úgy, hogy szolgáltatási fiókot feltételezze. A szolgáltatásfiókhoz szükséges engedélyek a Mi az automatikus betöltő fájlértesítési módban vannak megadva? Ellenkező esetben az alábbi hitelesítési beállításokat is megadhatja, ha azt szeretné, hogy az Automatikus betöltő beállítsa Önnek az értesítési szolgáltatásokat.

Lehetőség
`cloudFiles.client` Típus: `String` A Google szolgáltatásfiók ügyfélazonosítója. Alapértelmezett érték: Nincs
`cloudFiles.clientEmail` Típus: `String` A Google szolgáltatásfiók e-mail-címe. Alapértelmezett érték: Nincs
`cloudFiles.privateKey` Típus: `String` A Google szolgáltatásfiókhoz létrehozott titkos kulcs. Alapértelmezett érték: Nincs
`cloudFiles.privateKeyId` Típus: `String` A Google szolgáltatásfiókhoz létrehozott titkos kulcs azonosítója. Alapértelmezett érték: Nincs
`cloudFiles.projectId` Típus: `String` Annak a projektnek az azonosítója, amelyben a GCS-gyűjtő található. A Google Cloud Pub/Sub előfizetés is létrejön ebben a projektben. Alapértelmezett érték: Nincs

Csak akkor adja meg a következő lehetőséget, ha úgy dönt cloudFiles.useNotifications = true , és azt szeretné, hogy az Automatikus betöltő egy már beállított üzenetsort használjon:

Lehetőség
`cloudFiles.subscription` Típus: `String` A Google Cloud Pub/Al-előfizetés neve. Ha meg van adva, a felhőfájl-forrás a saját GCS-értesítés és a Google Cloud Pub/Alszolgáltatások beállítása helyett ebből az üzenetsorból használja az eseményeket. Alapértelmezett érték: Nincs

Megosztás a következőn keresztül:

Automatikus betöltő beállításai

Az automatikus betöltő gyakori beállításai

Címtárlista beállításai

Fájlértesítési beállítások

Fájlformátum beállításai

Általános beállítások

`JSON` beállítások

`CSV` beállítások

`XML` beállítások

`PARQUET` beállítások

`AVRO` beállítások

`BINARYFILE` beállítások

`TEXT` beállítások

`ORC` beállítások

Felhőspecifikus beállítások

AWS-specifikus beállítások

Azure-specifikus lehetőségek

Google-specifikus beállítások

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

Automatikus betöltő beállításai

Az automatikus betöltő gyakori beállításai

Címtárlista beállításai

Fájlértesítési beállítások

Fájlformátum beállításai

Általános beállítások

JSON beállítások

CSV beállítások

XML beállítások

PARQUET beállítások

AVRO beállítások

BINARYFILE beállítások

TEXT beállítások

ORC beállítások

Felhőspecifikus beállítások

AWS-specifikus beállítások

Azure-specifikus lehetőségek

Google-specifikus beállítások

Visszajelzés

Visszajelzés

További források

`JSON` beállítások

`CSV` beállítások

`XML` beállítások

`PARQUET` beállítások

`AVRO` beállítások

`BINARYFILE` beállítások

`TEXT` beállítások

`ORC` beállítások