Opções do Carregador Automático

Artigo
06/04/2024

Opções de configuração específicas para a origem cloudFiles são prefixadas com cloudFiles para que elas sejam em um namespace separado de outras opções de origem de Fluxo Estruturado.

Opções comuns do Carregador Automático
Opções de listagem de diretórios
Opções de notificação de arquivos
Opções de formato de arquivo
Opções específicas da nuvem

Opções comuns do Carregador Automático

Você pode configurar as opções a seguir para a listagem de diretório ou o modo de notificação de arquivo.

Opção
`cloudFiles.allowOverwrites` Digite: `Boolean` Para permitir alterações no arquivo do diretório de entrada a fim de substituir os dados existentes ou não. Há algumas ressalvas em relação à habilitação dessa configuração. Consulte Perguntas Frequentes sobre o Carregador Automático para obter detalhes. Valor padrão: `false`
`cloudFiles.backfillInterval` Digite: `Interval String` O Carregador Automático pode disparar os preenchimentos assíncronos em um determinado intervalo, por exemplo, `1 day` para provisionamentos uma vez por dia ou `1 week` para provisionamentos uma vez por semana. Os sistemas de notificação de eventos de arquivo não garantem a entrega de 100% de todos os arquivos que foram carregados, portanto, você pode usar provisionamentos para garantir que todos os arquivos disponíveis no Databricks Runtime 8.4 (sem suporte) e superior sejam finalmente processados. Valor padrão: nenhum
`cloudFiles.format` Digite: `String` O formato do arquivo de dados no caminho de origem. Entre os valores permitidos estão: * `avro`: Arquivo Avro * `binaryFile`: Arquivo binário * `csv`: Leitura e gravação em arquivos CSV * `json`: Arquivo JSON * `orc`: Arquivo ORC * `parquet`: leitura de arquivos Parquet usando o Azure Databricks * `text`: Arquivo de texto Valor padrão: nenhum (opção obrigatória)
`cloudFiles.includeExistingFiles` Digite: `Boolean` Para incluir arquivos existentes no caminho de entrada de processamento de fluxo ou somente para processar novos arquivos chegando após a configuração inicial. Essa opção é avaliada somente quando você inicia um fluxo pela primeira vez. Alterar essa opção depois de reiniciar o fluxo não tem nenhum efeito. Valor padrão: `true`
`cloudFiles.inferColumnTypes` Digite: `Boolean` Para inferir os tipos de coluna exatos ao aproveitar a inferência de esquema ou não. Por padrão, as colunas são inferidas como cadeias de caracteres ao inferir conjuntos de dados JSON e CSV. Confira inferência de esquema para obter mais detalhes. Valor padrão: `false`
`cloudFiles.maxBytesPerTrigger` Digite: `Byte String` O número máximo de novos bytes a serem processados em cada gatilho. Você pode especificar uma cadeia de caracteres de byte, como `10g`, para limitar cada microlote a 10 GB de dados. O número máximo é flexível. Se você tiver arquivos que são de 3 GB cada, o Azure Databricks processará 12 GB em um microlote. Quando usado em conjunto com o `cloudFiles.maxFilesPerTrigger`, o Azure Databricks consome até o limite inferior de `cloudFiles.maxFilesPerTrigger` ou `cloudFiles.maxBytesPerTrigger`, o que for atingido primeiro. Essa opção não tem efeito quando usada com `Trigger.Once()` (`Trigger.Once()` está preterido). Valor padrão: nenhum
`cloudFiles.maxFileAge` Digite: `Interval String` Por quanto tempo um evento de arquivo é controlado para fins de eliminação de duplicação. O Databricks não recomenda ajustar esse parâmetro, a menos que você esteja ingerindo dados na ordem de milhões de arquivos por hora. Consulte a seção sobre Retenção de eventos para obter mais detalhes. O ajuste `cloudFiles.maxFileAge` muito agressivo pode causar problemas de qualidade de dados, como ingestão duplicada ou arquivos ausentes. Por isso, o Databricks recomenda uma configuração conservadora para `cloudFiles.maxFileAge`, como 90 dias, que é semelhante ao que as soluções de ingestão de dados comparáveis recomendam. Valor padrão: nenhum
`cloudFiles.maxFilesPerTrigger` Digite: `Integer` Número máximo de novos bytes a serem processados em cada gatilho. Quando usado em conjunto com o `cloudFiles.maxBytesPerTrigger`, o Azure Databricks consome até o limite inferior de `cloudFiles.maxFilesPerTrigger` ou `cloudFiles.maxBytesPerTrigger`, o que for atingido primeiro. Essa opção não tem efeito quando usada com `Trigger.Once()` (preterido). Valor padrão: 1.000
`cloudFiles.partitionColumns` Digite: `String` Lista separada por vírgulas de colunas de partição estilo Hive que se quer inferir da estrutura de diretórios dos arquivos. Colunas de partição estilo Hive são pares chave-valor combinados por um sinal de igualdade, como `<base-path>/a=x/b=1/c=y/file.format`. Neste exemplo, as colunas de partição são `a`, `b` e `c`. Por padrão, essas colunas serão adicionadas automaticamente ao esquema se você estiver usando a inferência de esquema e fornecer o `<base-path>` para carregar dados. Se você fornecer um esquema, o Carregador automático espera que essas colunas sejam incluídas no esquema. Se você não quiser essas colunas no seu esquema, poderá especificar `""` para ignorar essas colunas. Além disso, é possível usar essa opção quando quiser que as colunas infiram o caminho do arquivo em estruturas de diretório complexas, como o exemplo a seguir: `<base-path>/year=2022/week=1/file1.csv` `<base-path>/year=2022/month=2/day=3/file2.csv` `<base-path>/year=2022/month=2/day=4/file3.csv` Especificar `cloudFiles.partitionColumns` as `year,month,day` retornará `year=2022` para `file1.csv`, mas as colunas `month` e `day` serão `null`. `month` e `day` será analisado corretamente para `file2.csv` e `file3.csv`. Valor padrão: nenhum
`cloudFiles.schemaEvolutionMode` Digite: `String` Modo para a evolução do esquema à medida que novas colunas são descobertas nos dados. Por padrão, as colunas são inferidas como cadeias de caracteres ao inferir conjuntos de dados JSON. Confira a evolução do esquema para obter mais detalhes. Valor padrão: `"addNewColumns"` quando um esquema não é fornecido. Caso contrário, `"none"`.
`cloudFiles.schemaHints` Digite: `String` Informações de esquema que você fornece para o Carregador automático durante a inferência de esquema. Confira dicas de esquema para obter mais detalhes. Valor padrão: nenhum
`cloudFiles.schemaLocation` Digite: `String` Local para armazenar o esquema deduzido e as alterações subsequentes. Confira inferência de esquema para obter mais detalhes. Valor padrão: nenhum (necessário ao inferir o esquema)
`cloudFiles.useStrictGlobber` Digite: `Boolean` Se é necessário usar um globber estrito que corresponda ao comportamento padrão de globbing de outras fontes de arquivo no Apache Spark. Confira Padrões comuns de carregamento de dados para obter mais detalhes. Disponível no Databricks Runtime 12.2 LTS e superior. Valor padrão: `false`
`cloudFiles.validateOptions` Digite: `Boolean` Para validar as opções de Carregador Automático e retornar um erro em opções desconhecidas ou inconsistentes ou não. Valor padrão: `true`

Opções de listagem de diretório

As opções a seguir são relevantes para o modo de listagem de diretório.

Opção

Opção
`cloudFiles.useIncrementalListing` (preterido) Digite: `String` Esse recurso foi preterido. O Databricks recomenda usar o modo de notificação de arquivo em vez de `cloudFiles.useIncrementalListing`. Para usar a listagem incremental em vez da listagem completa no modo de listagem de diretório ou não. Por padrão, o carregador automático fará o melhor para detectar automaticamente se determinado diretório é aplicável à listagem incremental. Você pode usar explicitamente a listagem incremental ou usar a listagem de diretório completa, definindo-a como `true` ou `false`, respectivamente. Habilitar incorretamente a listagem incremental em um diretório não ordenado lexicamente impede que o Carregador Automático descubra novos arquivos. Funciona com Azure Data Lake Storage Gen2 (`abfss://`), S3 (`s3://`) e GCS (`gs://`). Disponível no Databricks Runtime 9.1 LTS e superior. Valor padrão: `auto` Valores disponíveis: `auto`, `true`, `false`

cloudFiles.useIncrementalListing (preterido)

Digite: String

Esse recurso foi preterido. O Databricks recomenda usar o modo de notificação de arquivo em vez de
cloudFiles.useIncrementalListing.

Para usar a listagem incremental em vez da listagem completa no modo de listagem de diretório ou não. Por padrão, o carregador automático fará o melhor para detectar automaticamente se determinado diretório é aplicável à listagem incremental. Você pode usar explicitamente a listagem incremental ou usar a listagem de diretório completa, definindo-a como true ou false, respectivamente.

Habilitar incorretamente a listagem incremental em um diretório não ordenado lexicamente impede que o Carregador Automático descubra novos arquivos.

Funciona com Azure Data Lake Storage Gen2 (abfss://), S3 (s3://) e GCS (gs://).

Disponível no Databricks Runtime 9.1 LTS e superior.

Valor padrão: auto

Valores disponíveis: auto, true, false

Opções de notificação de arquivo

As opções a seguir são relevantes para o modo de notificação de arquivo.

Opção
`cloudFiles.fetchParallelism` Digite: `Integer` Número de threads a ser usado ao buscar mensagens do serviço de colocação na fila. Valor padrão: 1
`cloudFiles.pathRewrites` Tipo: uma cadeia de caracteres JSON Obrigatório somente se for especificar um `queueUrl` que recebe notificações de arquivo de vários buckets S3 e quiser aproveitar os pontos de montagem configurados para acessar dados nesses contêineres. Use essa opção para reescrever o prefixo do caminho `bucket/key` com o ponto de montagem. Somente prefixos podem ser reescritos. Por exemplo, para a configuração `{"<databricks-mounted-bucket>/path": "dbfs:/mnt/data-warehouse"}`, o caminho `s3://<databricks-mounted-bucket>/path/2017/08/fileA.json` é reescrito para `dbfs:/mnt/data-warehouse/2017/08/fileA.json`. Valor padrão: nenhum
`cloudFiles.resourceTag` Digite: `Map(String, String)` Série de pares de marcas chave-valor para ajudar a associar e identificar recursos relacionados, por exemplo: `cloudFiles.option("cloudFiles.resourceTag.myFirstKey", "myFirstValue")` `.option("cloudFiles.resourceTag.mySecondKey", "mySecondValue")` Para obter mais informações sobre a AWS, consulte tags de alocação de custo do Amazon SQS e Configurar tags para um tópico de SNS da Amazon. (1) Para saber mais sobre o Azure, confira Nomenclatura de filas e metadados e a cobertura de `properties.labels` em Assinaturas de eventos. O Carregador automático armazena esses pares de marca de chave-valor em JSON como rótulos. (1) Para saber mais sobre GCP, consulte Como relatar o uso com rótulos. (1) Valor padrão: nenhum
`cloudFiles.useNotifications` Digite: `Boolean` Para usar o modo de notificação de arquivo a fim de determinar quando há novos arquivos ou não. Se `false`, use o modo de listagem de diretórios. Confira Como o Carregador automático funciona. Valor padrão: `false`

(1) O Carregador automático adiciona os seguintes pares de marca de chave-valor por padrão com base no melhor esforço:

vendor: Databricks
path: Local de onde os dados são carregados. Não disponível em GCP devido à limitações de rotulagem.
checkpointLocation: Local do ponto de verificação do fluxo. Não disponível em GCP devido à limitações de rotulagem.
streamId: Identificador exclusivo global do fluxo.

Esses nomes-chave são reservados e não se pode substituir seus valores.

Opções de formato de arquivo

Com o Carregador Automático, você pode ingerir arquivos JSON, CSV, PARQUET, AVRO, TEXT, BINARYFILE e ORC.

Opções genéricas
Opções JSON
Opções CSV
XML opções
Opções PARQUET
Opções AVRO
Opções BINARYFILE
Opções TEXT
Opções ORC

Opções genéricas

As opções a seguir se aplicam a todos os formatos de arquivo.

Opção
`ignoreCorruptFiles` Digite: `Boolean` Se os arquivos corrompidos devem ser ignorados. Se for verdade, os trabalhos do Spark continuarão a ser executados ao encontrar arquivos corrompidos e o conteúdo lido ainda será retornado. Observável como `numSkippedCorruptFiles` no `operationMetrics` coluna de histórico do Delta Lake. Disponível no Databricks Runtime 11.3 LTS e versões superiores. Valor padrão: `false`
`ignoreMissingFiles` Digite: `Boolean` Se deve ignorar arquivos ausentes. Se for verdade, os trabalhos do Spark continuarão a ser executados ao encontrar arquivos ausentes e o conteúdo lido ainda será retornado. Disponível no Databricks Runtime 11.3 LTS e versões superiores. Valor padrão: `false` (`true` para `COPY INTO`)
`modifiedAfter` Digite: `Timestamp String`, por exemplo, `2021-01-01 00:00:00.000000 UTC+0` Um carimbo de data/hora opcional para ingerir arquivos que tenham um carimbo de data/hora de modificação após o carimbo de data/hora fornecido. Valor padrão: nenhum
`modifiedBefore` Digite: `Timestamp String`, por exemplo, `2021-01-01 00:00:00.000000 UTC+0` Um carimbo de data/hora opcional para ingerir arquivos que tenham um carimbo de data/hora de modificação antes do carimbo de data/hora fornecido. Valor padrão: nenhum
`pathGlobFilter` ou `fileNamePattern` Digite: `String` Um padrão glob potencial a ser fornecido para escolher arquivos. Equivalente a `PATTERN` em `COPY INTO`. `fileNamePattern` pode ser usado em `read_files`. Valor padrão: nenhum
`recursiveFileLookup` Digite: `Boolean` Se deve ignorar a inferência de partição durante a inferência de esquema. Isso não afeta quais arquivos são carregados. Valor padrão: `false`

`JSON` options

Opção
`allowBackslashEscapingAnyCharacter` Digite: `Boolean` Se as barras invertidas devem ser permitidas para escapar qualquer caractere que tenha sucesso. Se não estiver habilitado, somente os caracteres listados explicitamente pela especificação JSON poderão ser ignorados. Valor padrão: `false`
`allowComments` Digite: `Boolean` Se deseja permitir o uso de comentários de estilo Java, C e C++ (variedades `'/'`, `'*'` e `'//'`) no conteúdo analisado ou não. Valor padrão: `false`
`allowNonNumericNumbers` Digite: `Boolean` Se o conjunto de tokens não-numéricos (`NaN`) deve ser permitido como valores de números flutuantes legais. Valor padrão: `true`
`allowNumericLeadingZeros` Digite: `Boolean` Indica se os números integrais podem ser iniciados com zeros adicionais (ignoráveis) (por exemplo, `000001`). Valor padrão: `false`
`allowSingleQuotes` Digite: `Boolean` Se o uso de aspas simples (apóstrofo, caractere `'\'`) deve ser permitido para cadeias de caracteres de cotação (nomes e valores de cadeia de caracteres). Valor padrão: `true`
`allowUnquotedControlChars` Digite: `Boolean` Se as cadeias de caracteres JSON devem ser permitidas (caracteres ASCII com valor inferior a 32, incluindo caracteres de guia e de alimentação de linha) ou não. Valor padrão: `false`
`allowUnquotedFieldNames` Digite: `Boolean` Se deseja permitir o uso de nomes de campo sem aspas (que são permitidos pelo JavaScript, mas não pela especificação JSON). Valor padrão: `false`
`badRecordsPath` Digite: `String` O caminho para armazenar arquivos para registrar as informações sobre registros JSON inválidos. Valor padrão: nenhum
`columnNameOfCorruptRecord` Digite: `String` A coluna para armazenar registros malformados e que não podem ser analisados. Se `mode` para análise for definida como `DROPMALFORMED`, essa coluna ficará vazia. Valor padrão: `_corrupt_record`
`dateFormat` Digite: `String` O formato para analisar cadeias de caracteres de data. Valor padrão: `yyyy-MM-dd`
`dropFieldIfAllNull` Digite: `Boolean` Se as colunas de todos os valores nulos ou matrizes e estruturas vazias devem ser ignoradas durante a inferência de esquema. Valor padrão: `false`
`encoding` ou `charset` Digite: `String` O nome da codificação dos arquivos JSON. Confira `java.nio.charset.Charset` para obter uma lista de opções. Você não poderá usar `UTF-16` e `UTF-32` quando `multiline` for `true`. Valor padrão: `UTF-8`
`inferTimestamp` Digite: `Boolean` Se deseja tentar e inferir as cadeias de carimbo de data/hora como um `TimestampType`. Quando definido como `true`. A inferência de esquema poderá ser notavelmente mais longa. Você deve habilitar `cloudFiles.inferColumnTypes` o uso com o Carregador Automático. Valor padrão: `false`
`lineSep` Digite: `String` Uma cadeia de caracteres entre dois registros JSON consecutivos. Valor padrão: Nenhum, que abrange `\r`, `\r\n` e `\n`
`locale` Digite: `String` Um identificador `java.util.Locale`. Influencia a data padrão, carimbo de data/hora e análise decimal no JSON. Valor padrão: `US`
`mode` Digite: `String` Modo analisador em torno do tratamento de registros malformados. Uma opção entre `'PERMISSIVE'`, `'DROPMALFORMED'` ou `'FAILFAST'`. Valor padrão: `PERMISSIVE`
`multiLine` Digite: `Boolean` Se os registros JSON se estenderem por várias linhas. Valor padrão: `false`
`prefersDecimal` Digite: `Boolean` Tenta inferir cadeias de caracteres como `DecimalType` em vez de flutuar ou tipo duplo quando possível. Você também deve usar a inferência de esquema, seja habilitando `inferSchema` ou usando `cloudFiles.inferColumnTypes` com o Carregador Automático. Valor padrão: `false`
`primitivesAsString` Digite: `Boolean` Se deve inferir tipos primitivos como números e boolianos como `StringType`. Valor padrão: `false`
`readerCaseSensitive` Digite: `Boolean` Especifica o comportamento de confidencialidade de caso quando `rescuedDataColumn` está habilitado. Se for verdadeiro, salve as colunas de dados cujos nomes diferem por caso do esquema; caso contrário, leia os dados de maneira que não diferencia maiúsculas de minúsculas. Disponível no Databricks Runtime 13.3 e superior. Valor padrão: `true`
`rescuedDataColumn` Digite: `String` É necessário coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados ou incompatibilidade de esquema (incluindo maiúsculas e minúsculas) em uma coluna separada. Essa coluna é incluída por padrão ao usar o Carregador Automático. Para obter mais detalhes, confira Qual é a coluna dados resgatados?. Valor padrão: nenhum
`timestampFormat` Digite: `String` O formato para análise de cadeias de caracteres de data/hora. Valor padrão: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Digite: `String` O `java.time.ZoneId` a ser usado ao analisar carimbo de data/hora e datas. Valor padrão: nenhum

`CSV` options

Opção
`badRecordsPath` Digite: `String` O caminho para armazenar arquivos para registrar as informações sobre registros CSV incorretos. Valor padrão: nenhum
`charToEscapeQuoteEscaping` Digite: `Char` O caractere usado para escapar o caractere usado para escapar aspas. Por exemplo, para o seguinte registro: `[ " a\\", b ]`: * Se o caractere a ser escapado `'\'` for indefinido, o registro não será analisado. O analisador lerá caracteres: `[a],[\],["],[,],[ ],[b]` e lançará um erro porque não consegue encontrar uma aspas de fechamento. * Se o caractere para escapar do `'\'` for definido como `'\'`, o registro será lido com dois valores: `[a\]` e `[b]`. Valor padrão: `'\0'`
`columnNameOfCorruptRecord` > [!OBSERVAÇÃO] >> Compatível com o Carregador Automático. Sem suporte para `COPY INTO`. Digite: `String` A coluna para armazenar registros malformados e que não podem ser analisados. Se `mode` para análise for definida como `DROPMALFORMED`, essa coluna ficará vazia. Valor padrão: `_corrupt_record`
`comment` Digite: `Char` Define o caractere que representa um comentário de linha quando encontrado no início de uma linha de texto. Use `'\0'` para desabilitar o ato de ignorar comentários. Valor padrão: `'\u0000'`
`dateFormat` Digite: `String` O formato para analisar cadeias de caracteres de data. Valor padrão: `yyyy-MM-dd`
`emptyValue` Digite: `String` Representação de cadeia de caracteres de um valor vazio. Valor padrão: `""`
`encoding` ou `charset` Digite: `String` O nome da codificação dos arquivos CSV. Confira `java.nio.charset.Charset` para obter a lista de opções. `UTF-16` e `UTF-32` não poderão ser usados quando `multiline` for `true`. Valor padrão: `UTF-8`
`enforceSchema` Digite: `Boolean` Se deve aplicar à força o esquema especificado ou inferido aos arquivos CSV. Se a opção estiver habilitada, os cabeçalhos de arquivos CSV serão ignorados. Essa opção será ignorada por padrão ao usar o Carregador Automático para resgatar dados e permitir a evolução do esquema. Valor padrão: `true`
`escape` Digite: `Char` O caractere de escape a ser usado ao analisar os dados. Valor padrão: `'\'`
`header` Digite: `Boolean` Se os arquivos CSV contiverem um cabeçalho. O Carregador Automático presume que os arquivos tenham cabeçalhos ao inferir o esquema. Valor padrão: `false`
`ignoreLeadingWhiteSpace` Digite: `Boolean` Se deve ignorar espaços em branco à frente para cada valor analisado. Valor padrão: `false`
`ignoreTrailingWhiteSpace` Digite: `Boolean` Se deve ignorar espaços em branco à parte final para cada valor analisado. Valor padrão: `false`
`inferSchema` Digite: `Boolean` Se inferir os tipos de dados dos registros CSV analisados ou assumir que todas as colunas são de `StringType`. Requer uma passagem adicional dos dados se definido como `true`. Para o Carregador Automático, use `cloudFiles.inferColumnTypes` em vez disso. Valor padrão: `false`
`lineSep` Digite: `String` Uma cadeia de caracteres entre dois registros CSV consecutivos. Valor padrão: Nenhum, que abrange `\r`, `\r\n` e `\n`
`locale` Digite: `String` Um identificador `java.util.Locale`. Influencia a data padrão, o carimbo de data/hora e a análise decimal dentro do CSV. Valor padrão: `US`
`maxCharsPerColumn` Digite: `Int` Número máximo de caracteres esperados de um valor a ser analisado. Pode ser usado para evitar erros de memória. O padrão é `-1`, que significa ilimitado. Valor padrão: `-1`
`maxColumns` Digite: `Int` O limite rígido de quantas colunas um registro pode ter. Valor padrão: `20480`
`mergeSchema` Digite: `Boolean` Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Habilitado por padrão para o Carregador Automático ao inferir o esquema. Valor padrão: `false`
`mode` Digite: `String` Modo analisador em torno do tratamento de registros malformados. Uma opção entre `'PERMISSIVE'`, `'DROPMALFORMED'` e `'FAILFAST'`. Valor padrão: `PERMISSIVE`
`multiLine` Digite: `Boolean` Se os registros CSV se estenderem por várias linhas. Valor padrão: `false`
`nanValue` Digite: `String` A representação de cadeia de caracteres de um valor que não é um número ao analisar as colunas `FloatType` e `DoubleType`. Valor padrão: `"NaN"`
`negativeInf` Digite: `String` A representação de cadeia de caracteres de infinito negativo ao analisar as colunas `FloatType` ou `DoubleType`. Valor padrão: `"-Inf"`
`nullValue` Digite: `String` Representação de cadeia de caracteres de um valor nulo. Valor padrão: `""`
`parserCaseSensitive` (preterido) Digite: `Boolean` Durante a leitura de arquivos, se as colunas declaradas no cabeçalho devem ser alinhadas com o caso de esquema de forma sensível. Isso é `true` por padrão para o Carregador Automático. As colunas que diferirem por caso serão resgatadas no `rescuedDataColumn`, se habilitado. Essa opção foi preterida em favor de `readerCaseSensitive`. Valor padrão: `false`
`positiveInf` Digite: `String` A representação de cadeia de caracteres de infinito positivo ao analisar as colunas `FloatType` ou `DoubleType`. Valor padrão: `"Inf"`
`preferDate` Digite: `Boolean` Tenta inferir cadeias de caracteres como datas em vez de carimbo de data/hora quando possível. Você também deve usar a inferência de esquema, habilitando `inferSchema` ou usando `cloudFiles.inferColumnTypes` com o Carregador Automático. Valor padrão: `true`
`quote` Digite: `Char` O caractere usado para escapar valores em que o delimitador de campo faz parte do valor. Valor padrão: `"`
`readerCaseSensitive` Digite: `Boolean` Especifica o comportamento de confidencialidade de caso quando `rescuedDataColumn` está habilitado. Se for verdadeiro, salve as colunas de dados cujos nomes diferem por caso do esquema; caso contrário, leia os dados de maneira que não diferencia maiúsculas de minúsculas. Valor padrão: `true`
`rescuedDataColumn` Digite: `String` É necessário coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas) em uma coluna separada. Essa coluna é incluída por padrão ao usar o Carregador Automático. Para obter mais detalhes, confira Qual é a coluna dados resgatados?. Valor padrão: nenhum
`sep` ou `delimiter` Digite: `String` A cadeia de caracteres do separador entre colunas. Valor padrão: `","`
`skipRows` Digite: `Int` O número de linhas desde o início do arquivo CSV que devem ser ignoradas (incluindo linhas com comentários e vazias). Se `header` for verdadeiro, o cabeçalho será a primeira linha não mapeada e descompactada. Valor padrão: `0`
`timestampFormat` Digite: `String` O formato para análise de cadeias de caracteres de data/hora. Valor padrão: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`
`timeZone` Digite: `String` O `java.time.ZoneId` a ser usado ao analisar carimbo de data/hora e datas. Valor padrão: nenhum
`unescapedQuoteHandling` Digite: `String` A estratégia para lidar com aspas sem saída. Opções permitidas: * `STOP_AT_CLOSING_QUOTE`: se aspas sem escape forem encontradas na entrada, acumular o caractere de aspas e continuar analisando o valor como um valor entre aspas, até que uma aspa de fechamento seja encontrada. * `BACK_TO_DELIMITER`: se forem encontradas aspas sem escape na entrada, considere o valor como um valor sem aspas. Isso fará com que o analisador acumule todos os caracteres do valor atual analisado até que o delimitador definido por `sep` seja encontrado. Se nenhum delimitador for encontrado no valor, o analisador continuará acumulando caracteres da entrada até que um delimitador ou uma terminação de linha seja encontrada. * `STOP_AT_DELIMITER`: se forem encontradas aspas sem escape na entrada, considere o valor como um valor sem aspas. Isso fará com que o analisador acumule todos os caracteres até que o delimitador definido por `sep` ou uma terminação de linha seja encontrado na entrada. * `SKIP_VALUE`: se forem encontradas aspas sem escape na entrada, o conteúdo analisado para o valor determinado será ignorado (até que o próximo delimitador seja encontrado) e, em vez disso, será produzido o valor definido em `nullValue`. * `RAISE_ERROR`: se forem encontradas aspas sem escape na entrada, uma `TextParsingException` será lançada. Valor padrão: `STOP_AT_DELIMITER`

`XML` options

Opção	Descrição	Escopo
`rowTag`	A marca de linha dos arquivos XML a serem tratadas como uma linha. No exemplo o XML `<books> <book><book>...<books>`, o valor apropriado é `book`. Trata-se de uma opção obrigatória.	read
`samplingRatio`	Define uma fração de linhas usadas para inferência de esquema. As funções internas do XML ignoram essa opção. Padrão: `1.0`.	read
`excludeAttribute`	Se deve excluir os atributos em elementos. Padrão: `false`.	read
`mode`	Modo para lidar com registros corrompidos durante a análise. `PERMISSIVE`: para registros corrompidos, coloca a cadeia de caracteres malformada em um campo configurado por `columnNameOfCorruptRecord` e define os campos malformados como `null`. Para manter os registros corrompidos, é possível definir um campo do tipo `string` denominado `columnNameOfCorruptRecord` em um esquema definido pelo usuário. Se um esquema não tiver o campo, os registros corrompidos serão descartados durante a análise. Ao inferir um esquema, o analisador adiciona implicitamente um campo `columnNameOfCorruptRecord` em um esquema de saída. `DROPMALFORMED`: ignora os registros corrompidos. Esse modo não dá suporte para funções internas de XML. `FAILFAST`: gera uma exceção quando o analisador encontra registros corrompidos.	read
`inferSchema`	Se `true`, tenta inferir um tipo apropriado para cada coluna DataFrame resultante. Se `false`, todas as colunas resultantes serão do tipo `string`. Padrão: `true`. As funções internas do XML ignoram essa opção.	read
`columnNameOfCorruptRecord`	Permite renomear o novo campo que contém uma cadeia de caracteres malformada criada pelo modo `PERMISSIVE`. Padrão: `spark.sql.columnNameOfCorruptRecord`.	read
`attributePrefix`	O prefixo de atributos para diferenciar atributos de elementos. Esse será o prefixo para nomes de campo. O padrão é `_`. Pode estar vazio para leitura de XML, mas não para gravação.	leitura, gravação
`valueTag`	A marca usada para os dados de caracteres dentro de elementos que também têm elementos de atributo(s) ou elemento(s) filho(s). O usuário pode especificar o campo `valueTag` no esquema ou ele será adicionado automaticamente durante a inferência do esquema quando os dados de caracteres estiverem presentes em elementos com outros elementos ou atributos. Padrão: `_VALUE`	leitura,gravação
`encoding`	Para leitura, decodifique os arquivos XML de acordo com o tipo de codificação fornecido. Para gravação, especifique a codificação (conjunto de caracteres) dos arquivos XML salvos. As funções internas do XML ignoram essa opção. Padrão: `UTF-8`.	leitura, gravação
`ignoreSurroundingSpaces`	Define se os espaços em branco ao redor dos valores que estão sendo lidos devem ser ignorados. Padrão: `true`. Os dados de caracteres somente com espaços em branco são ignorados.	read
`rowValidationXSDPath`	Caminho para um arquivo XSD opcional usado para validar o XML de cada linha individualmente. As linhas que não são validadas são tratadas como erros de análise, conforme mostrado acima. O XSD não afeta de outra forma o esquema fornecido ou inferido.	read
`ignoreNamespace`	Se `true`, os prefixos de namespaces em elementos e atributos XML serão ignorados. As marcas `<abc:author>` e `<def:author>`, por exemplo, são tratadas como se ambas fossem apenas `<author>`. Os namespaces não podem ser ignorados no elemento `rowTag`, somente em seus elementos filhos de leitura. A análise de XML não tem reconhecimento de namespace, mesmo se `false`. Padrão: `false`.	read
`timestampFormat`	Cadeia de caracteres do formato de carimbo de data/hora personalizado que segue o formato padrão datetime. Isso se aplica ao tipo `timestamp`. Padrão: `yyyy-MM-dd'T'HH:mm:ss[.SSS][XXX]`.	leitura, gravação
`timestampNTZFormat`	Cadeia de caracteres de formato personalizado para carimbo de data/hora sem fuso horário que segue o formato padrão datetime. Isso se aplica ao tipo TimestampNTZType. Padrão: `yyyy-MM-dd'T'HH:mm:ss[.SSS]`	leitura, gravação
`dateFormat`	Cadeia de caracteres de formato de data personalizada que segue o formato padrão datetime. Isso se aplica ao tipo de data. Padrão: `yyyy-MM-dd`.	leitura, gravação
`locale`	Define uma localidade como uma marca de idioma no formato IETF BCP 47. Por exemplo, `locale` é usado durante a análise de datas e carimbos de data/hora. Padrão: `en-US`.	read
`rootTag`	Marca raiz dos arquivos XML. Por exemplo, em `<books> <book><book>...</books>`, o valor apropriado é `books`. Você pode incluir atributos básicos especificando um valor como `books foo="bar"`. Padrão: `ROWS`.	write
`declaration`	Conteúdo da declaração XML a ser gravada no início de cada arquivo XML de saída, antes de `rootTag`. Por exemplo, um valor de `foo` faz com que `<?xml foo?>` seja gravado. Defina como uma cadeia de caracteres vazia para suprimir. Padrão: `version="1.0"` `encoding="UTF-8" standalone="yes"`.	write
`arrayElementName`	Nome do elemento XML que envolve cada elemento de uma coluna com valor de matriz durante a gravação. Padrão: `item`.	write
`nullValue`	Define a representação em cadeia de caracteres de um valor nulo. Padrão: cadeia de caracteres `null`. Quando esse valor é `null`, o analisador não escreve atributos e elementos para campos.	leitura, gravação
`compression`	Código de compactação a ser usado ao salvar no arquivo. Pode ser um dos nomes abreviados conhecidos que não diferenciam maiúsculas de minúsculas (`none`, `bzip2`, `gzip`,`lz4`, `snappy', and<br>`deflate`). As funções internas do XML ignoram essa opção. Padrão: `none`.	write
`validateName`	Se verdadeiro, gera um erro em caso de falha na validação do nome do elemento XML. Por exemplo, os nomes de campos SQL podem ter espaços, mas os nomes de elementos XML não podem. Padrão: `true`.	write
`readerCaseSensitive`	Especifica o comportamento da diferenciação de maiúsculas e minúsculas quando rescuedDataColumn está habilitado. Se for verdadeiro, salve as colunas de dados cujos nomes diferem por caso do esquema; caso contrário, leia os dados de maneira que não diferencia maiúsculas de minúsculas. Padrão: `true`.	read
`rescuedDataColumn`	Se todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e de esquema (incluindo maiúsculas e minúsculas da coluna) devem ser coletados em uma coluna separada. Essa coluna é incluída por padrão ao usar o Carregador Automático. Para obter mais detalhes, confira O que é a coluna de dados resgatados?. Padrão: nenhum.	read

`PARQUET` options

Opção
`datetimeRebaseMode` Digite: `String` Controla a nova base dos valores DATE e TIMESTAMP entre calendários Juliano e Gregoriano Proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` e `CORRECTED`. Valor padrão: `LEGACY`
`int96RebaseMode` Digite: `String` Controla a nova base dos valores de carimbo de data/hora INT96 entre calendários Juliano e Gregoriano Proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` e `CORRECTED`. Valor padrão: `LEGACY`
`mergeSchema` Digite: `Boolean` Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Valor padrão: `false`
`readerCaseSensitive` Digite: `Boolean` Especifica o comportamento de confidencialidade de caso quando `rescuedDataColumn` está habilitado. Se for verdadeiro, salve as colunas de dados cujos nomes diferem por caso do esquema; caso contrário, leia os dados de maneira que não diferencia maiúsculas de minúsculas. Valor padrão: `true`
`rescuedDataColumn` Digite: `String` É necessário coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas) em uma coluna separada. Essa coluna é incluída por padrão ao usar o Carregador Automático. Para obter mais detalhes, confira Qual é a coluna dados resgatados?. Valor padrão: nenhum

`AVRO` options

Opção
`avroSchema` Digite: `String` Esquema opcional fornecido por um usuário no formato Avro. Ao ler Avro, essa opção pode ser definida como um esquema desenvolvido, que é compatível, mas diferente com o esquema Avro real. O esquema desserialização será consistente com o esquema desenvolvido. Por exemplo, se você definir um esquema desenvolvido contendo uma coluna adicional com um valor padrão, o resultado de leitura também conterá a nova coluna. Valor padrão: nenhum
`datetimeRebaseMode` Digite: `String` Controla a nova base dos valores DATE e TIMESTAMP entre calendários Juliano e Gregoriano Proléptico. Valores permitidos: `EXCEPTION`, `LEGACY` e `CORRECTED`. Valor padrão: `LEGACY`
`mergeSchema` Digite: `Boolean` Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. `mergeSchema` para Avro não flexibilizar tipos de dados. Valor padrão: `false`
`readerCaseSensitive` Digite: `Boolean` Especifica o comportamento de confidencialidade de caso quando `rescuedDataColumn` está habilitado. Se for verdadeiro, salve as colunas de dados cujos nomes diferem por caso do esquema; caso contrário, leia os dados de maneira que não diferencia maiúsculas de minúsculas. Valor padrão: `true`
`rescuedDataColumn` Digite: `String` É necessário coletar todos os dados que não podem ser analisados devido a uma incompatibilidade de tipo de dados e incompatibilidade de esquema (incluindo maiúsculas e minúsculas) em uma coluna separada. Essa coluna é incluída por padrão ao usar o Carregador Automático. Para obter mais detalhes, confira Qual é a coluna dados resgatados?. Valor padrão: nenhum

`BINARYFILE` options

Os arquivos binários não têm nenhuma opção de configuração adicional.

`TEXT` options

Opção
`encoding` Digite: `String` O nome da codificação dos arquivos TEXT. Confira `java.nio.charset.Charset` para obter uma lista de opções. Valor padrão: `UTF-8`
`lineSep` Digite: `String` Uma cadeia de caracteres entre dois registros TEXT consecutivos. Valor padrão: Nenhum, que abrange `\r`, `\r\n` e `\n`
`wholeText` Digite: `Boolean` Se um arquivo deve ser lido como um único registro. Valor padrão: `false`

`ORC` options

Opção
`mergeSchema` Digite: `Boolean` Se deve inferir o esquema em vários arquivos e mesclar o esquema de cada arquivo. Valor padrão: `false`

Opções específicas da nuvem

O Carregador Automático fornece várias opções para configurar a infraestrutura de nuvem.

Opções específicas da AWS
Opções específicas do Azure
Opções específicas do Google

Opções específicas da AWS

Forneça a seguinte opção somente se você escolher cloudFiles.useNotifications = true e quiser que o Carregador automático configure os serviços de notificação para você:

Opção
`cloudFiles.region` Digite: `String` Região em que o bucket S3 de origem reside e onde os serviços SNS e SQS da AWS serão criados. Valor padrão: A região da instância EC2.

Forneça a opção a seguir somente se você escolher cloudFiles.useNotifications = true e desejar que o Carregador automático use uma fila já configurada:

Opção
`cloudFiles.queueUrl` Digite: `String` URL da fila do SQS. Se fornecido, o Carregador automático consumirá diretamente eventos dessa fila em vez de configurar os próprios serviços SNS e SQS da AWS. Valor padrão: nenhum

Você pode usar as opções a seguir para fornecer credenciais para acessar o SNS e o SQS da AWS quando as funções IAM não estiverem disponíveis ou quando se está ingerindo dados de nuvens diferentes.

Opção
`cloudFiles.awsAccessKey` Digite: `String` ID da chave de acesso da AWS do usuário. Deve ser fornecido com `cloudFiles.awsSecretKey`. Valor padrão: nenhum
`cloudFiles.awsSecretKey` Digite: `String` Chave de acesso secreta da AWS do usuário. Deve ser fornecido com `cloudFiles.awsAccessKey`. Valor padrão: nenhum
`cloudFiles.roleArn` Digite: `String` ARN de uma função IAM a ser assumida. A função pode ser assumida do perfil de instância do cluster ou fornecendo credenciais com `cloudFiles.awsAccessKey` e `cloudFiles.awsSecretKey`. Valor padrão: nenhum
`cloudFiles.roleExternalId` Digite: `String` Identificador a ser fornecido ao assumir uma função usando `cloudFiles.roleArn`. Valor padrão: nenhum
`cloudFiles.roleSessionName` Digite: `String` Nome de sessão opcional a ser usada ao assumir uma função usando `cloudFiles.roleArn`. Valor padrão: nenhum
`cloudFiles.stsEndpoint` Digite: `String` Ponto de extremidade opcional a ser usado para acessar o STS da AWS ao assumir uma função usando `cloudFiles.roleArn`. Valor padrão: nenhum

Opções específicas do Azure

Você deverá fornecer valores para todas as opções a seguir se especificar cloudFiles.useNotifications = true e quiser que o Carregador automático configure os serviços de notificação para você:

Opção
`cloudFiles.clientId` Digite: `String` ID do cliente ou ID do aplicativo da entidade de serviço. Valor padrão: nenhum
`cloudFiles.clientSecret` Digite: `String` O segredo do cliente da entidade de serviço. Valor padrão: nenhum
`cloudFiles.connectionString` Digite: `String` Cadeia de conexão da conta de armazenamento, com base na chave de acesso da conta ou na assinatura de acesso compartilhado (SAS). Valor padrão: nenhum
`cloudFiles.resourceGroup` Digite: `String` Grupo de recursos do Azure no qual a conta de armazenamento é criada. Valor padrão: nenhum
`cloudFiles.subscriptionId` Digite: `String` O ID da assinatura do Azure na qual o grupo de recursos é criado. Valor padrão: nenhum
`cloudFiles.tenantId` Digite: `String` O ID do locatário do Azure na qual a entidade de serviço é criada. Valor padrão: nenhum

Importante

A configuração de notificação automatizada está disponível no Azure China e nas regiões do governo com o Databricks Runtime 9,1 e posteriores. Você deve fornecer um queueName para usar o Carregador automático com notificações de arquivo nessas regiões para versões mais antigas do DBR.

Forneça a opção a seguir somente se você escolher cloudFiles.useNotifications = true e desejar que o Carregador automático use uma fila já configurada:

Opção
`cloudFiles.queueName` Digite: `String` Nome da fila do Azure. Se fornecido, a origem dos arquivos de nuvem consumirá diretamente os eventos desta fila em vez de configurar os próprios serviços da Grade de Eventos e do Armazenamento de Filas do Azure. Nesse caso, o `cloudFiles.connectionString` requer apenas permissões de leitura na fila. Valor padrão: nenhum

Opções específicas do Google

O Carregador automático pode configurar automaticamente os serviços de notificação aproveitando as contas de serviço do Google. É possível configurar o cluster para assumir uma conta de serviço seguindo a instalação do serviço Google. As permissões necessárias para sua conta de serviço estão especificadas em Qual é o modo de notificação de arquivos do Carregador Automático?. De outro modo, forneça as opções de autenticação a seguir se quiser que o Carregador automático configure os serviços de notificação para você.

Opção
`cloudFiles.client` Digite: `String` ID do cliente da conta de serviço do Google. Valor padrão: nenhum
`cloudFiles.clientEmail` Digite: `String` Email da conta de serviço do Google. Valor padrão: nenhum
`cloudFiles.privateKey` Digite: `String` Chave privada gerada para a conta de serviço do Google. Valor padrão: nenhum
`cloudFiles.privateKeyId` Digite: `String` ID da chave privada gerada para a conta de serviço do Google. Valor padrão: nenhum
`cloudFiles.projectId` Digite: `String` ID do projeto no qual está o bucket do GCS. A assinatura de Pub/Sub do Google Cloud também será criada nesse projeto. Valor padrão: nenhum

Forneça a opção a seguir somente se você escolher cloudFiles.useNotifications = true e desejar que o Carregador automático use uma fila já configurada:

Opção
`cloudFiles.subscription` Digite: `String` Nome da assinatura do Pub/Sub do Google Cloud. Se fornecida, a origem dos arquivos de nuvem consome eventos dessa fila em vez de configurar a própria notificação do GCS e os serviços Pub/Sub do Google Cloud. Valor padrão: nenhum

Compartilhar via

Opções do Carregador Automático

Opções comuns do Carregador Automático

Opções de listagem de diretório

Opções de notificação de arquivo

Opções de formato de arquivo

Opções genéricas

`JSON` options

`CSV` options

`XML` options

`PARQUET` options

`AVRO` options

`BINARYFILE` options

`TEXT` options

`ORC` options

Opções específicas da nuvem

Opções específicas da AWS

Opções específicas do Azure

Opções específicas do Google

Comentários

Comentários

Recursos adicionais

Compartilhar via

Opções do Carregador Automático

Opções comuns do Carregador Automático

Opções de listagem de diretório

Opções de notificação de arquivo

Opções de formato de arquivo

Opções genéricas

JSON options

CSV options

XML options

PARQUET options

AVRO options

BINARYFILE options

TEXT options

ORC options

Opções específicas da nuvem

Opções específicas da AWS

Opções específicas do Azure

Opções específicas do Google

Comentários

Comentários

Recursos adicionais

`JSON` options

`CSV` options

`XML` options

`PARQUET` options

`AVRO` options

`BINARYFILE` options

`TEXT` options

`ORC` options