Compartilhar via


Formato de texto delimitado no Data Factory no Microsoft Fabric

Este artigo descreve como configurar o formato de texto delimitado no pipeline de dados do Data Factory no Microsoft Fabric.

Funcionalidades com suporte

Há suporte para o formato de texto delimitado para as seguintes atividades e conectores como origem e destino.

Categoria Conector/Atividade
Conector compatível Amazon S3
Amazon S3 Compatible
Armazenamento de Blobs do Azure
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Arquivos do Azure
Sistema de arquivos
FTP
Google Cloud Storage
HTTP
Arquivos do Lakehouse
Oracle Cloud Storage
SFTP
Atividade com suporte atividade Copy (Origem/Destino)
Atividade de pesquisa
Atividade GetMetadata
Excluir atividade

Formato de texto delimitado na atividade de cópia

Para configurar o formato de texto delimitado, escolha sua conexão na origem ou no destino da atividade de cópia do pipeline de dados e selecione DelimitedText na lista suspensa de Formato de arquivo. Selecione Configurações para configuração adicional desse formato.

Captura de tela mostrando as configurações de formato de arquivo.

Formato de texto delimitado como origem

Depois de selecionar Configurações na seção Formato de arquivo, as propriedades a seguir são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando as configurações de formato do arquivo de origem.

  • Tipo de compactação: o codec de compactação usado para ler arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.

    Se você selecionar ZipDeflate como tipo de compactação, Preservar o nome do arquivo zip como pasta aparecerá em Configurações avançadas na guia Origem.

    • Preserve zip file name as folder: Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source zip file>/.
      • Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em <specified file path>. Verifique se não há nomes de arquivo duplicados nos arquivos zip de origem diferentes para evitar a corrida ou comportamento inesperado.

    Se você selecionar TarGzip/tar como tipo de compactação, Preservar o nome do arquivo de compactação como pasta aparecerá em Configurações avançadas na guia Origem.

    • Preserve compression file name as folder: Indica se o nome do arquivo compactado de origem deve ser preservado como estrutura de pasta durante a cópia.
      • Se essa caixa estiver marcada (padrão), o serviço gravará arquivos descompactados em <specified file path>/<folder named as source compressed file>/.
      • Se essa caixa estiver desmarcada, o serviço gravará arquivos descompactados diretamente em <specified file path>. Verifique se não há nomes de arquivo duplicados nos arquivos zip de origem diferentes para evitar a corrida ou comportamento inesperado.
  • Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Ideal ou Mais Rápido.

    • Mais rápida: a operação de compactação deve ser concluída o mais rápido possível, mesmo se o arquivo resultante não for compactado da maneira ideal.
    • Ideal: a operação de compactação deve ser concluída da maneira ideal, mesmo se a operação demorar mais tempo para ser concluída. Para saber mais, veja o tópico Nível de compactação .
  • Delimitador de coluna: O(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (,).

  • Delimitador de linha: especifique o caractere usado para separar linhas em um arquivo. É permitido somente um caractere. O valor padrão é o avanço de linha \n.

  • Codificação: O tipo de codificação usado para ler/gravar arquivos de teste. O valor padrão é UTF-8.

  • Caractere de escape: O caractere único para escapar das aspas dentro de um valor entre aspas. O valor padrão é barra invertida \. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores.

  • Caractere de aspas: O caractere único para citar os valores da coluna se ela contiver um delimitador de coluna. O valor padrão é aspas duplas ". Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.

  • Primeira linha como cabeçalho: Especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e não selecionados (padrão). Quando a primeira linha como cabeçalho não está selecionada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente os nomes das colunas como Prop_{n} (a partir de 0), a atividade de cópia requer um mapeamento explícito da origem para o destino e localiza as colunas por ordinal (a partir de 1).

  • Valor nulo: Especifica a representação em cadeia do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia.

Em Configurações avançadas na guia Origem, outras propriedades relacionadas ao formato de texto delimitado são expostas.

Formato de texto delimitado como destino

Depois de selecionar Configurações na seção Formato de arquivo, as propriedades a seguir são mostradas na caixa de diálogo pop-up Configurações de formato de arquivo.

Captura de tela mostrando as configurações de formato de arquivo de destino.

  • Tipo de compactação: o codec de compactação usado para gravar arquivos de texto delimitados. Você pode escolher entre Nenhum, bzip2, gzip, deflate, ZipDeflate, TarGzip ou tipo tar na lista suspensa.

  • Nível de compactação: especifique a taxa de compactação ao selecionar um tipo de compactação. Você pode escolher entre Ideal ou Mais Rápido.

    • Mais rápida: a operação de compactação deve ser concluída o mais rápido possível, mesmo se o arquivo resultante não for compactado da maneira ideal.
    • Ideal: a operação de compactação deve ser concluída da maneira ideal, mesmo se a operação demorar mais tempo para ser concluída. Para saber mais, veja o tópico Nível de compactação .
  • Delimitador de coluna: O(s) caractere(s) usado(s) para separar colunas em um arquivo. O valor padrão é vírgula (,).

  • Delimitador de linha: O caractere usado para separar as linhas em um arquivo. É permitido somente um caractere. O valor padrão é o avanço de linha \n.

  • Codificação: O tipo de codificação usado para gravar arquivos de teste. O valor padrão é UTF-8.

  • Caractere de escape: O caractere único para escapar das aspas dentro de um valor entre aspas. O valor padrão é barra invertida \. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores.

  • Caractere de aspas: O caractere único para citar os valores da coluna se ela contiver um delimitador de coluna. O valor padrão é aspas duplas ". Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo.

  • Primeira linha como cabeçalho: Especifica se a primeira linha deve ser tratada/feita como uma linha de cabeçalho com nomes de colunas. Os valores permitidos são selecionados e não selecionados (padrão). Quando a primeira linha como cabeçalho não está selecionada, observe que a visualização de dados da interface do usuário e a saída da atividade de pesquisa geram automaticamente os nomes das colunas como Prop_{n} (a partir de 0), a atividade de cópia requer um mapeamento explícito da origem para o destino e localiza as colunas por ordinal (a partir de 1).

  • Valor nulo: Especifica a representação em cadeia do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia.

Em Configurações avançadas na guia Destino, são exibidas outras propriedades relacionadas ao formato de texto delimitado.

  • Citar todo o texto: coloque todos os valores entre aspas.

  • Extensão do arquivo: A extensão do arquivo usada para nomear os arquivos de saída, por exemplo, .csv, .txt.

  • Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo.

  • Prefixo de nome de arquivo: aplicável quando o máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é o repositório baseado em arquivo ou o armazenamento de dados habilitado para partição.

Resumo da tabela

Texto delimitado como fonte

As propriedades a seguir têm suporte na seção Origem da atividade de cópia ao usar o formato de texto delimitado.

Nome Descrição Valor Obrigatório Propriedade de script JSON
 Formato de arquivo O formato de arquivo que você deseja usar. DelimitedText Sim tipo (em datasetSettings):
DelimitedText
Tipo de compactação O codec de compactação usado para ler arquivos de texto delimitados. Escolha uma destas opções:
Nenhuma
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Não tipo (em compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Preservar o nome do arquivo zip como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona Compactação ZipDeflate. Selecionado ou desmarcado Nenhum preserveZipFileNameAsFolder
(em compressionProperties->type como ZipDeflateReadSettings)
Preservar o nome do arquivo de compactação como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Aplica-se quando você seleciona a compactação TarGzip/tar. Selecionado ou desmarcado Não preserveCompressionFileNameAsFolder
(em compressionProperties->type como TarGZipReadSettings ou TarReadSettings)
Nível de compactação  A taxa de compactação. Os valores permitidos são Ideal ou Mais rápida. Ideal ou mais rápido Nenhum nível (em compression):
Fastest
Ideal
Delimitador de coluna  O(s) caractere(s) usado(s) para separar as colunas em um arquivo.  < o delimitador de coluna selecionado >
vírgula , (por padrão)
Não columnDelimiter
Delimitador de linha o caractere usado para separar linhas em um arquivo. < o delimitador de linha selecionado >
\r, \n (por padrão), o r\n
Nenhum rowDelimiter
Codificação O tipo de codificação usado para ler/gravar arquivos de teste. "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nenhum encodingName
Caractere de escape O caractere individual para o escape das aspas dentro de um valor entre aspas. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores. < seu caractere de escape selecionado >
barra invertida \ (por padrão)
Não escapeChar
Caractere de aspas O caractere individual para citar valores de coluna se ele contiver delimitador de coluna. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. < o caractere de aspas selecionado >
aspas duplas " (por padrão)
Não quoteChar
Primeira linha como cabeçalho Especifica se deve tratar a primeira linha na planilha/intervalo fornecido como uma linha de cabeçalho com nomes de colunas. Selecionado ou desmarcado Não firstRowAsHeader:
true ou false (padrão)
Valor nulo Especifica a representação de cadeia de caracteres do valor nulo. O valor padrão pode ser uma cadeia de caracteres vazia. < a representação em string do valor nulo >
cadeia de caracteres vazia (por padrão)
Não nullValue

Texto delimitado como destino

As propriedades a seguir têm suporte na seção Destino da atividade de cópia ao usar o formato de texto delimitado.

Nome Descrição Valor Obrigatório Propriedade de script JSON
 Formato de arquivo O formato de arquivo que você deseja usar. DelimitedText Sim tipo (em datasetSettings):
DelimitedText
Tipo de compactação O codec de compactação usado para gravar arquivos de texto delimitados. Escolha uma destas opções:
Nenhuma
bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Não tipo (em compression):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
Preservar o nome do arquivo zip como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Selecionado ou desmarcado Nenhum preserveZipFileNameAsFolder
(em compressionProperties->type como ZipDeflateReadSettings)
Preservar o nome do arquivo de compactação como pasta Indica se o nome do arquivo zip de origem deve ser preservado como estrutura de pastas durante a cópia. Selecionado ou desmarcado Não preserveCompressionFileNameAsFolder
(em compressionProperties->type como TarGZipReadSettings ou TarReadSettings)
Nível de compactação  A taxa de compactação. Os valores permitidos são Ideal ou Mais rápida. Ideal ou mais rápido Nenhum nível (em compression):
Fastest
Ideal
Delimitador de coluna  O(s) caractere(s) usado(s) para separar as colunas em um arquivo.  < o delimitador de coluna selecionado >
vírgula , (por padrão)
Não columnDelimiter
Delimitador de linha o caractere usado para separar linhas em um arquivo. < o delimitador de linha selecionado >
\r, \n (por padrão), o r\n
Nenhum rowDelimiter
Codificação O tipo de codificação usado para ler/gravar arquivos de teste. "UTF-8" (por padrão),"UTF-8 sem BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Nenhum encodingName
Caractere de escape O caractere individual para o escape das aspas dentro de um valor entre aspas. Quando o caractere de escape é definido como cadeia vazia, o Caractere de aspas também deve ser definido como cadeia vazia; nesse caso, certifique-se de que todos os valores da coluna não contenham delimitadores. < seu caractere de escape selecionado >
barra invertida \ (por padrão)
Não escapeChar
Caractere de aspas O caractere individual para citar valores de coluna se ele contiver delimitador de coluna. Quando o Caractere de aspas é definido como string vazia, significa que não há caractere de citação e que o valor da coluna não está entre aspas, e o caractere de escape é usado para escapar do delimitador de coluna e de si mesmo. < o caractere de aspas selecionado >
aspas duplas " (por padrão)
Não quoteChar
Primeira linha como cabeçalho Especifica se deve tratar a primeira linha na planilha/intervalo fornecido como uma linha de cabeçalho com nomes de colunas. Selecionado ou desmarcado Não firstRowAsHeader:
true ou false (padrão)
Citar todo o texto Colocar todos os valores entre aspas. Selecionado (padrão) ou não selecionado Não quoteAllText:
true (padrão) ou false
Extensão de arquivo A extensão de arquivo usada para nomear os arquivos de saída. < sua extensão de arquivo >
.txt (por padrão)
Não fileExtension
Máximo de linhas por arquivo Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. < suas linhas máximas por arquivo > Não maxRowsPerFile
Prefixo de nome de arquivo Aplicável quando o Máximo de linhas por arquivo é configurado. Especifique o prefixo do nome do arquivo ao gravar dados em vários arquivos, resultando neste padrão: <fileNamePrefix>_00000.<fileExtension>. Se não for especificado, o prefixo de nome de arquivo será gerado automaticamente. Essa propriedade não se aplica quando a origem é o repositório baseado em arquivo ou o armazenamento de dados habilitado para partição. < seu prefixo de nome de arquivo > Não fileNamePrefix