Compartilhar via


Configurar o SFTP na atividade Copy

Este artigo descreve como você pode usar a atividade de cópia no pipeline de dados para copiar dados do SFTP.

Formato compatível

O SFTP dá suporte aos seguintes formatos de arquivo. Confira cada artigo para obter configurações baseadas em formato.

Configuração com suporte

Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.

Geral

Consulte as diretrizes de Configurações Geraispara definir a guia Configurações Gerais.

Fonte

Acesse a guia Origem para configurar a origem da atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.

Screenshot showing source tab and the list of properties.

As seguintes propriedades são obrigatórias:

  • Tipo de armazenamento de dados: selecione Externo.

  • Conexão: Selecione uma conexão SFTP na lista de conexões. Se não houver conexão, crie uma nova conexão SFTP selecionando Novo.

  • Tipo de caminho de arquivo: selecione de Caminho do arquivo, Caminho do arquivo curinga e Lista de arquivos com base na maneira como você deseja ler arquivos.

    • Caminho do arquivo: se você escolher esse tipo, especifique o caminho do arquivo de origem. Você pode selecionar Procurar para selecionar seus arquivos de origem ou inserir o caminho do arquivo manualmente.

    • Caminho do arquivo selvagem: se você escolher esse tipo, especifique os caminhos curinga para filtrar suas pastas ou arquivos de origem.

      Os curingas permitidos são * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ como escape se o nome real da pasta tiver curingas ou esse caractere de escape. Para mais exemplos, vá para Exemplos de filtro de pastas e arquivos.

      Screenshot showing wildcard file path.

      Caminho da pasta curinga: Especifique o caminho da pasta com caracteres curinga para filtrar as pastas de origem.

      Nome do arquivo curinga: Especifique o nome do arquivo com caracteres curinga no caminho da pasta fornecido/caminho da pasta curinga para filtrar os arquivos de origem.

    • Lista de arquivos: se você selecionar esse tipo, especifique o Caminho da pasta e Caminho para a lista de arquivos para indicar a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. Para mais exemplos, vá para Exemplos de lista de arquivos.

      • Caminho da pasta: especifique o caminho para a pasta de origem. É obrigatório.

      • Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.

        Screenshot showing list of files.

  • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Filtrar pela última modificação: Os arquivos são filtrados com base nas datas da última modificação que você especificou. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos.

    • Hora de início (UTC): Os arquivos serão selecionados se a hora da última modificação for maior ou igual à hora configurada.
    • Hora de término (UCT): Os arquivos serão selecionados se a hora da última modificação for menor que a hora configurada.

    Quando a Hora de início (UTC) tem valor de data e hora, mas a Hora de término (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é maior ou igual ao valor de data e hora serão selecionados. Quando a Hora de término (UTC) tem valor de data e hora, mas a Hora de início (UTC) é NULA, isso significa que os arquivos cujo atributo de última modificação é menor que o valor de data e hora serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.

  • Desabilitar o agrupamento: a divisão em partes foi projetada para otimizar o desempenho e ocorre embaixo. Essa opção permite desabilitar o agrupamento em cada arquivo. Ao copiar dados do SFTP, o serviço tenta obter o comprimento do arquivo primeiro, depois divide o arquivo em várias partes e as lê em paralelo. Especifique se o servidor SFTP dá suporte à obtenção do comprimento do arquivo à tentativa de ler de um determinado deslocamento. Ele não é selecionado por padrão.

  • Ativar descoberta de partição: Especifique se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele não é selecionado por padrão e não tem suporte quando você usa o formato de arquivo binário.

    • Caminho da raiz da partição: quando a descoberta da partição estiver habilitada, especifique o caminho da raiz absoluta para ler as pastas particionadas como colunas de dados.
      Se ele não for especificado, por padrão ocorrerá o seguinte:

      • Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
      • Quando você usa o filtro de pasta curinga, o caminho raiz da partição é o subcaminho antes do primeiro curinga.

      Por exemplo, supondo que você configure o caminho como root/folder/year=2020/month=08/day=27:

      • Se você especificar o caminho da raiz da partição como root/folder/year=2020, a atividade de cópia gerará mais duas colunas de mês e dia com os valores "08" e "27", respectivamente, além das colunas dentro dos arquivos.
      • Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.

      Screenshot showing Enable partition discovery.

  • Máximo de conexões simultâneas: essa propriedade indica o limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

  • Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. Para obter mais informações, acesse Adicionar colunas adicionais durante a cópia.

Destino

Acesse a guia Destino para configurar o destino da atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.

Screenshot showing destination tab and the list of properties.

  • Tipo de armazenamento de dados: selecione Externo.
  • Conexão: Selecione uma conexão SFTP na lista de conexões. Se não houver conexão, crie uma nova conexão SFTP selecionando Novo.
  • Caminho do arquivo: especifique o caminho do arquivo no qual gravar seus dados. Você pode selecionar Procurar para selecionar seus arquivos de origem ou inserir o caminho do arquivo manualmente.
  • Formato do arquivo: selecione o formato do arquivo na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, confira artigos em Formato com suporte para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Comportamento da cópia: Especifique o comportamento de cópia quando a origem for arquivos de um armazenamento de dados baseado em arquivos. Escolha dentre as seguintes propriedades.

    • Flatten hierarchy: todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm os nomes gerados automaticamente.
    • MergeFiles: Mescla todos os arquivos da pasta de origem em um único arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
    • PreserveHierarchy (padrão): Preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
    • Adicionar conteúdo dinâmico: selecione-o para especificar seu comportamento de cópia usando conteúdo dinâmico.
  • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas.

  • Tempo limite da operação (minutos): especifique o tempo limite para gravar cada parte no servidor SFTP. O valor padrão é 60 minutos.

  • Upload com arquivo temporário: Especifique se você deseja fazer upload para arquivos temporários e renomeá-los ou gravar diretamente na pasta de destino ou no local do arquivo. Por padrão, ela é selecionada e o serviço primeiro grava em arquivos temporários e depois os renomeia quando o upload é concluído.

    Essa sequência ajuda a (1) evitar conflitos que podem surgir em um arquivo corrompido se você tiver outros processos gravando no mesmo arquivo e (2) verificar se a versão original do arquivo existe durante a transferência. Se o servidor SFTP não oferecer suporte a uma operação de renomeação, desabilite essa opção e verifique se você não tem a gravação simultânea no arquivo de destino.

    Dica

    Se você receber o erro "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" ou "SftpOperationFail" quando estiver gravando dados em SFTP, e o usuário de SFTP usado tiver as permissões corretas, verifique se a operação de renomeação do arquivo de suporte do servidor SFTP está funcionando. Se não estiver, desabilite a opção Carregar com o arquivo temporário e tente novamente.

Mapeamento

Para configuração da guia Mapeamento, consulte Configurar seus mapeamentos na guia mapeamento. Se você escolher Binário como formato de arquivo, não haverá suporte para mapeamento.

Configurações

Para configuração da guia Configurações, acesse Definir suas outras configurações na guia configurações.

Resumo da tabela

A tabela a seguir contém mais informações sobre a atividade de cópia no SFTP.

Origem

Nome Descrição Valor Obrigatório Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externo Yes /
Conexão Sua conexão SFTP com o armazenamento de dados de origem. < sua conexão SFTP > Sim connection
Tipo de caminho de arquivo O tipo de caminho de arquivo usado para obter dados de origem. Caminho do arquivo
Caminho do arquivo curinga
Lista de arquivos
Sim /
Caminho do arquivo O caminho do arquivo de origem. < caminho do arquivo> Sim fileName
folderPath
Caminhos curinga O caminho curinga para o arquivo de origem. < seu caminho de arquivo curinga > Sim para o nome do arquivo curinga wildcardFolderPath
wildcardFileName
Caminho da pasta O caminho para a pasta de origem. < seu caminho de pasta> Sim folderPath
Caminho para a lista de arquivos Indica a cópia de um determinado conjunto de arquivos. Aponte para um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha. < caminho da lista de arquivos > Não fileListPath
Formato de arquivo O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim /
Filtrar pela última modificação Os arquivos com a última hora de modificação no intervalo [Hora de início, Hora de término] serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica ao configurar o tipo de caminho de arquivo como Lista de arquivos. datetime Não modifiedDatetimeStart
modifiedDatetimeEnd
Desabilitar agrupamento O agrupamento foi projetado para otimizar o desempenho e ocorre abaixo. Essa opção permite desabilitar o agrupamento em cada arquivo. Ao copiar dados do SFTP, o serviço tenta obter o comprimento do arquivo primeiro, depois divide o arquivo em várias partes e as lê em paralelo. Especifique se o servidor SFTP dá suporte à obtenção do comprimento do arquivo à tentativa de ler de um determinado deslocamento. selecionado ou não selecionado (padrão) Não disableChunking:
true ou false (padrão)
Habilitar descoberta de partição Indica se você deve analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. selecionado ou não selecionado (padrão) Não enablePartitionDiscovery:
true ou false (padrão)
Caminho raiz da partição O caminho absoluto da raiz da partição para que você possa ler as pastas particionadas como colunas de dados. Especifique-a quando a descoberta de partição estiver habilitada. < caminho raiz da partição > Não partitionRootPath
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. < limite superior de conexões simultâneas >
(inteiro)
Não maxConcurrentConnections
Colunas adicionais Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão tem suporte para o último. Para obter mais informações, acesse Adicionar colunas adicionais durante a cópia • Nome
• Valor
Não additionalColumns:
• nome
• valor

Destino

Nome Descrição Valor Obrigatório Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externo Yes /
Conexão Sua conexão com o SFTP de origem. < sua conexão > Yes connection
Caminho do arquivo O caminho do arquivo dos dados de destino. Caminho do arquivo do destino Sim folderPath
fileName
Formato de arquivo O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim /
Comportamento da cópia Define o comportamento de cópia quando a fonte for de arquivos de um armazenamento de dados baseado em arquivo. • Nivelar hierarquia
• Mesclar arquivos
• Preservar hierarquia
Não copyBehavior:
- FlattenHierarchy
- MergeFiles
- PreserveHierarchy
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas com o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando desejar limitar as conexões simultâneas. < máximo de conexões simultâneas > Não maxConcurrentConnections
Tempo limite de operação (minutos) O tempo limite para gravar cada parte no servidor SFTP. < seu tempo limite de operação >
O valor padrão é 60
Não operationTimeout
Carregar com o arquivo temporário Indica se é necessário carregar arquivos temporários e renomear. Desabilite essa opção se o servidor SFTP não der suporte à operação de renomeação. selecionado (padrão) ou não selecionado Não useTempFileRename:
true (padrão) ou false